Статья: Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов (2025)

Читать онлайн

Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Ключевые фразы: обработка естественного языка, автоматическая морфемная сегментация, глубокое обучение, белорусский язык, малоресурсные языки
Автор (ы): Морозов Дмитрий Алексеевич, Феоктистов Григорий Олегович, Глазкова Анна Валерьевна
Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Информатика
УДК
004.912. Обработка текста
Для цитирования:
МОРОЗОВ Д. А., ФЕОКТИСТОВ Г. О., ГЛАЗКОВА А. В. АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ МОРФЕМНОЙ СЕГМЕНТАЦИИ ДЛЯ БЕЛОРУССКОГО ЯЗЫКА: СРАВНЕНИЕ АКТУАЛЬНЫХ ПОДХОДОВ // МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ. 2025. Т. 32, № 4
Текстовый фрагмент статьи