Читать онлайн

Предлагается описание основных особенностей и опций многосторонне размеченного корпуса русских текстов СинТагРус. Корпус был разработан в ИППИ РАН им. А. А. Харкевича и в настоящее время выступает как один из подкорпусов НКРЯ, где он называется «Синтаксическим корпусом». Излагаются основные подходы к выбору текстов для корпуса и к их метаразметке, лингвистические принципы, лежащие в основе разметки разных типов — морфологической, синтаксической, лексико-семантической, лексико-функциональной, эллиптической, микросинтаксической, кореферентной и темпоральной. Приводятся статистические данные, характеризующие различные аспекты СинТагРуса и его фрагментов. СинТагРус является корпусом со стопроцентно дизамбигуированной на всех уровнях разметкой: в статье описываются очевидные достоинства такой разметки и в то же время отмечаются трудности, связанные с необходимостью всегда принимать определенные решения и выбирать единственные варианты разметки даже в тех случаях, когда языковой материал принципиально допускает неединственное лингвистическое описание. Значительное внимание уделяется описанию некоторых различий, существующих между СинТагРусом и основными подкорпусами НКРЯ — разделению материала по частям речи, различным морфологическим решениям, принятыми в СинТагРусе и НКРЯ (таким, как трактовка отдельных морфологических категорий — вида и залога глагола, некоторых падежей существительных и др.).

Ключевые фразы: синтагрус, синтаксический корпус, морфосинтаксическая разметка, ЛЕКСИЧЕСКАЯ РАЗМЕТКА, эллиптическая разметка, микросинтаксис, кореферентная разметка, темпоральная разметка
Автор (ы): Богуславский Игорь Михайлович (Boguslavskiy I. M.), Дяченко Павел Владимирович (Dyachenko P. V.), Иншакова Евгения Сергеевна (Inshakova E. S.), Иомдин Леонид Лейбович (Iomdin L. L.), ЛАЗУРСКИЙ А. Л. (LAZURSKIY A. L.), Митюшин Леонид Григорьевич (Mityushin L. G.), Мовсесян Андрей Арсенович (Movsesyan A. A.), Рыгаев Иван Петрович (Rygaev I. P.), Сизов Виктор Геннадьевич (Sizov V. G.), Тимошенко Светлана Петровна (Timoshenko S. P.), Фролова Татьяна Ильинична (Frolova T. I.), Чага Александра Валерьевна (CHaga A. V.)
Журнал: ТРУДЫ ИНСТИТУТА РУССКОГО ЯЗЫКА ИМ. В. В. ВИНОГРАДОВА

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Языкознание
УДК
81. Лингвистика. Языкознание. Языки
Для цитирования:
БОГУСЛАВСКИЙ И. М., ДЯЧЕНКО П. В., ИНШАКОВА Е. С., ИОМДИН Л. Л., ЛАЗУРСКИЙ А. Л., МИТЮШИН Л. Г., МОВСЕСЯН А. А., РЫГАЕВ И. П., СИЗОВ В. Г., ТИМОШЕНКО С. П., ФРОЛОВА Т. И., ЧАГА А. В. СОВРЕМЕННОЕ СОСТОЯНИЕ КОРПУСА СИНТАГРУС // ТРУДЫ ИНСТИТУТА РУССКОГО ЯЗЫКА ИМ. В. В. ВИНОГРАДОВА. 2024. № 4
Текстовый фрагмент статьи