Публикации автора

МАШИННОЕ ОБУЧЕНИЕ И ВНУТРИТЕКСТОВАЯ РАЗМЕТКА ДЛЯ НУЖД КОРПУСНОЙ ЛИНГВИСТИКИ: КРАТКИЙ ОБЗОР АКТУАЛЬНОГО СОСТОЯНИЯ (2025)

В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов (2025)

Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК) (2025)

В условиях стремительного роста числа научных публикаций актуальной задачей становится разработка эффективных инструментов для их систематизации и поиска. Одним из таких инструментов является универсальная десятичная классификация (УДК), которая позволяет структурировать статьи по тематическим областям. Однако ручное присвоение кодов УДК зачастую оказывается неточным или недостаточно детализированным, что снижает эффективность использования этого подхода. В данной статье предлагается подход к автоматическому присвоению кодов УДК научным статьям с использованием моделей на основе архитектуры BERT. Для обучения и оценки модели был использован набор данных, содержащий более 19 тысяч статей по математике и смежным наукам. Мы разработали две специализированные метрики качества, учитывающие иерархическую природу УДК: иерархическую классификационную точность и иерархическую рекомендательную точность. Кроме того, мы предложили несколько стратегий преобразования иерархических меток в плоские. В ходе экспериментов нам удалось достичь значения иерархической рекомендательной точности 0,8220. Дополнительно проведено слепое тестирование с участием экспертов, которое выявило, что часть расхождений между эталонными и сгенерированными метками обусловлена некорректным выбором кода УДК авторами статей. Предложенный подход демонстрирует высокий потенциал для автоматической классификации научных статей и может быть адаптирован для других иерархических систем классификации.