Статья: МАШИННОЕ ОБУЧЕНИЕ И ВНУТРИТЕКСТОВАЯ РАЗМЕТКА ДЛЯ НУЖД КОРПУСНОЙ ЛИНГВИСТИКИ: КРАТКИЙ ОБЗОР АКТУАЛЬНОГО СОСТОЯНИЯ (2025)

Читать онлайн

В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.

Ключевые фразы: корпусная лингвистика, лингвистически аннотированные корпусы текстов, машинное обучение, автоматизированная обработка естественного языка
Автор (ы): Морозов Дмитрий Алексеевич (Morozov D. A.), Смаль Иван Андреевич (Smal I. A.)
Журнал: КОММУНИКАТИВНЫЕ ИССЛЕДОВАНИЯ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Языкознание
УДК
004.912. Обработка текста
81. Лингвистика. Языкознание. Языки
Для цитирования:
МОРОЗОВ Д. А., СМАЛЬ И. А. МАШИННОЕ ОБУЧЕНИЕ И ВНУТРИТЕКСТОВАЯ РАЗМЕТКА ДЛЯ НУЖД КОРПУСНОЙ ЛИНГВИСТИКИ: КРАТКИЙ ОБЗОР АКТУАЛЬНОГО СОСТОЯНИЯ // КОММУНИКАТИВНЫЕ ИССЛЕДОВАНИЯ. 2025. Т. 12 № 4
Текстовый фрагмент статьи
Будьте первым, кто начнет обсуждение

Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.