Научный архив: статьи

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов (2025)

Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 32, № 4 (2025)

Автор(ы): Морозов Д. А., Феоктистов Г. О., Глазкова А. В.

Сохранить в закладках

Методология иерархического многозадачного обучения нейронных сетей типа ERNIE 3 для анализа и генерации русскоязычных текстов (2025)

Статья посвящена разработке методологии иерархического многозадачного обучения нейронных сетей, основанной на принципах архитектуры ERNIE 3, и экспериментальной апробации данной методологии на базе модели FRED-T5 для задач анализа и генерации текстов на русском языке. Иерархическое многозадачное обучение является перспективным подходом к созданию универсальных языковых моделей, способных эффективно решать разнообразные задачи обработки естественного языка (NLP). Предложенная методология объединяет преимущества специализированных энкодерных блоков для задач понимания текста (NLU) и общего декодера для генеративных задач (NLG), что позволяет повысить производительность модели и снизить вычислительные затраты. В работе проведён сравнительный анализ эффективности разработанной методологии на открытом бенчмарке Russian SuperGLUE с использованием предварительно обученной русскоязычной модели FRED-T5-1.7B. Экспериментальные результаты подтвердили существенное улучшение качества модели в режимах zero-shot и few-shot по сравнению с базовой конфигурацией. Дополнительно рассмотрены возможности практического применения разработанного подхода в решении реальных NLP-задач, а также даны рекомендации по дальнейшему развитию методологии и её интеграции в прикладные системы обработки русскоязычных текстов.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 32, № 3 (2025)

Автор(ы): Середкин А. В., Тотмина Е. В.

Сохранить в закладках

Сравнение предварительно обученных моделей для извлечения предметно-ориентированных сущностей из студенческих отчетных документов (2025)

Авторы предлагают методику извлечения предметно-ориентированных сущностей (ПОС) из русскоязычных текстов студенческих отчетных документов с использованием предварительно обученных языковых моделей на основе трансформеров. Извлечение ПОС из студенческих работ представляет собой актуальную задачу, так как полученные данные могут использоваться для различных целей — начиная от формирования проектных групп и заканчивая персонализацией учебных маршрутов, а также автоматизация процесса обработки документов снижает затраты труда на ручную обработку. В качестве материала для дообучения исследуемых моделей использовались размеченные экспертами отчетные документы студентов, обучающихся по направлениям информационных технологий и поступивших в период с 2019 по 2022 год, по проектным, практическим дисциплинам и выпускным квалификационным работам. Задача извлечения ПОС рассматривается как две задачи: идентификация именованных сущностей и генерация размеченного текста. Сравнительный анализ проводился между моделями, основанными исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенными для извлечения именованных сущностей, и моделями, использующими как энкодеры, так и декодеры (ruT5, mBART), а также моделями, базирующимися только на декодерах (ruGPT, T-lite), применяемыми для генерации текста. Для оценки эффективности сравниваемых моделей использовалась F-мера, а также проведен анализ типичных ошибок. Наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации ПОС во время генерации текста и разметки. Модели для извлечения именованных сущностей проявляют меньшую склонность к ошибкам, однако имеют тенденцию к фрагментарному выделению ПОС. Полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения поставленных задач с учетом специфики предъявляемых требований.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 32, № 1 (2025)

Автор(ы): Мельникова А. В., Воробьева М. С., Глазкова А. В.

Сохранить в закладках

Сравнение предварительно обученных моделей для извлечения предметно-ориентированных сущностей из студенческих отчетных документов (2025)

Авторы предлагают методику извлечения предметно-ориентированных сущностей (ПОС) из русскоязычных текстов студенческих отчетных документов с использованием предварительно обученных языковых моделей на основе трансформеров. Извлечение ПОС из студенческих работ представляет собой актуальную задачу, так как полученные данные могут использоваться для различных целей — начиная от формирования проектных групп и заканчивая персонализацией учебных маршрутов, а также автоматизация процесса обработки документов снижает затраты труда на ручную обработку. В качестве материала для дообучения исследуемых моделей использовались размеченные экспертами отчетные документы студентов, обучающихся по направлениям информационных технологий и поступивших в период с 2019 по 2022 год, по проектным, практическим дисциплинам и выпускным квалификационным работам. Задача извлечения ПОС рассматривается как две задачи: идентификация именованных сущностей и генерация размеченного текста. Сравнительный анализ проводился между моделями, основанными исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенными для извлечения именованных сущностей, и моделями, использующими как энкодеры, так и декодеры (ruT5, mBART), а также моделями, базирующимися только на декодерах (ruGPT, T-lite), применяемыми для генерации текста. Для оценки эффективности сравниваемых моделей использовалась F-мера, а также проведен анализ типичных ошибок. Наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации ПОС во время генерации текста и разметки. Модели для извлечения именованных сущностей проявляют меньшую склонность к ошибкам, однако имеют тенденцию к фрагментарному выделению ПОС. Полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения поставленных задач с учетом специфики предъявляемых требований.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 32, № 1 (2025)

Автор(ы): Мельникова А. В., Воробьева М. С., Глазкова А. В.

Сохранить в закладках

Обзор моделей автоматической оценки сходства ответа учащегося с эталонным ответом (2025)

Разработка систем автоматического оценивания является актуальной задачей, призванной упростить рутинный труд учителя и ускорить обратную связь для учащегося. Обзор посвящён исследованиям в области автоматической оценки ответов учащихся на основе эталонного ответа учителя. Авторы работы проанализировали модели текстов, применяемые для задач автоматической оценки коротких ответов (ASAG) и автоматизированной оценки эссе (AES). Также принималось во внимание несколько подходов для задачи определения близости текстов, так как она является аналогичной задачей, и методы её решения могут быть полезны и для анализа ответов студентов. Модели текста можно разделить на несколько больших категорий. Первая — это лингвистические модели, основанные на разнообразных стилометрических характеристиках, как простых вроде мешка слов и n-грамм, так и сложных вроде синтаксических и семантических. Ко второй категории авторы отнесли нейросетевые модели, основанные на разнообразных эмбеддингах. В ней выделяются большие языковые модели как универсальные, популярные и качественные методы моделирования. Третья категория включает в себя комбинированные модели, которые объединяют в себе как лингвистические характеристики, так и нейросетевые эмбеддинги. Сравнение современных исследований по моделям, методам и метрикам качества показало, что тренды в предметной области совпадают с трендами в компьютерной лингвистике в целом. Большое количество авторов выбирают для решения своих задач большие языковые модели, но и стандартные характеристики остаются востребованными. Универсальный подход выделить нельзя, каждая подзадача требует отдельного выбора метода и настройки его параметров. Комбинированные и ансамблевые подходы позволяют достичь более высокого качества, чем остальные методы. В подавляющем большинстве работ исследуются тексты на английском языке. Однако успешные результаты для национальных языков также встречаются. Можно сделать вывод, что разработка и адаптация методов оценки ответов студентов на национальных языках является актуальной и перспективной задачей.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 32, № 1 (2025)

Автор(ы): Лагутина Н. С., Лагутина К. В.

Сохранить в закладках

Анализ распространения технологий искусственного интеллекта в Российской Федерации (2024)

Технологии искусственного интеллекта получают все более широкое распространение для решения производственных, социальных и других задач во всех сферах деятельности. В Российской Федерации развитию технологий искусственного интеллекта придается особое значение, в том числе на государственном уровне. Это объясняется широкими возможностями, которые предоставляют данные технологии для повышения эффективности функционирования организаций. Внедрение любых новых технологий приводит к необходимости перестройки бизнес-процессов. Это, в свою очередь, вызывает как необходимость анализа потенциальных преимуществ от внедрения технологий искусственного интеллекта, так и необходимость их сопоставления с размерами ресурсных затрат. Специфика функционирования организаций в различных отраслях экономики и сферах деятельности объясняет разный уровень проникновения технологий искусственного интеллекта в их деятельность, а также особенности их применения. В статье проводится анализ использования технологий искусственного интеллекта в отечественных организациях, анализируются причины распространения тех или иных технологий искусственного интеллекта в различных отраслях. Результаты анализа особенностей различных технологий искусственного интеллекта позволят повысить эффективность их использования в различных организациях, а также снизить затраты на функционирование производственных и управленческих систем.

Издание: КАЗАНСКИЙ ЭКОНОМИЧЕСКИЙ ВЕСТНИК

Выпуск: №2 (70) (2024)

Автор(ы): Гурьянова Э. А., Гурьянов В. И.

Сохранить в закладках

СКРИПТ ТЕЛЕСЕРИАЛА КАК ОБЪЕКТ КОРПУСНОГО ИССЛЕДОВАНИЯ (НА МАТЕРИАЛЕ САГИ «ЗВЕЗДНЫЙ ПУТЬ») (2025)

Цель исследования - описать типовую процедуру преобразования скрипта телесериала в лингвистический корпус, совместимый с программным комплексом «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы сравнительного и структурного анализа, описания, профессионально ориентированного программирования, а также базовые методы корпусного подхода. В качестве лингвистического материала выступает скрипт оригинального телесериала «Звездный путь». В результате получен сбалансированный лингвистический корпус всех трех сезонов, содержащий помимо стандартных данных сведения о номере сезона и серии, говорящем и локации, в которой происходит действие.

Издание: ВЕСТНИК МОСКОВСКОГО ГОСУДАРСТВЕННОГО ЛИНГВИСТИЧЕСКОГО УНИВЕРСИТЕТА. ГУМАНИТАРНЫЕ НАУКИ

Выпуск: № 3 (897) (2025)

Автор(ы): ГОРОЖАНОВ А. И.

Сохранить в закладках

ИДЕНТИФИКАЦИЯ СРЕДСТВ КАТЕГОРИИ ОТРИЦАНИЯ В СБАЛАНСИРОВАННОМ ЛИНГВИСТИЧЕСКОМ КОРПУСЕ (2025)

Цель исследования - разработать базовую технологию идентификации средств категории отрицания в рамках работы программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы анализа, тестирования, моделирования, профессионально ориентированного программирования и эксперимента. В качестве лингвистического материала выступает корпус актуальных новостных текстов CNN объемом 1 024 583 токена. В результате исследования уточнены возможности текущей версии программного комплекса, а также написано расширение, позволяющее находить лексические единицы, находящиеся в прямом подчинении от заданной леммы.

Издание: ВЕСТНИК МОСКОВСКОГО ГОСУДАРСТВЕННОГО ЛИНГВИСТИЧЕСКОГО УНИВЕРСИТЕТА. ГУМАНИТАРНЫЕ НАУКИ

Выпуск: № 2 (896) (2025)

Автор(ы): ГОРОЖАНОВ А. И.

Сохранить в закладках

МОДЕЛИРОВАНИЕ ЛИНГВОКРЕАТИВНЫХ СТРАТЕГИЙ В ГЕНЕРАТИВНЫХ ЯЗЫКОВЫХ СИСТЕМАХ: ТРАНСФОРМАЦИЯ ИНТЕНЦИОНАЛЬНЫХ ДЕВИАЦИЙ В ДИСКУРСИВНЫЕ ПАТТЕРНЫ (2025)

Цель. Настоящее исследование направлено на выявление механизмов обработки интенциональных языковых девиаций большими языковыми моделями (LLM) и анализ их лингво-креативных стратегий в цифровом дискурсе. Цель работы заключается в разработке теоретической модели, объясняющей когнитивные алгоритмы распознавания и трансформации девиаций в системах искусственного интеллекта.

Процедура и методы. В качестве методологической базы использован комплексный подход, включающий корпусный анализ диахронического среза цифрового дискурса (2019-2024 гг.), экспериментальные промпты с контролируемыми девиациями для моделей GPT-4, Gemini 1.5 и Claude 3, а также дискурс-анализ речевых актов ИИ с применением трёхуровневой шкалы аннотирования (репликация/амплификация/нормализация).

Результаты исследования подтвердили гипотезу о статистической природе лингвокреативности LLM, выявив трёхступенчатую модель обработки девиаций: распознавание через механизмы внимания, классификация по степени отклонения от нормы, стратегический выбор ответной реакции. Установлен парадокс «креативного конформизма», проявляющийся в тенденции ИИ к гипернормализации изначально маргинальных языковых инноваций. Особый практический интерес представляют документированные эффекты циркуляции ИИ-генерированных неологизмов в социальных медиа и формирования «искусственного языкового вкуса».

Теоретическая значимость работы заключается в развитии аппарата когнитивной лингвистики цифрового дискурса и уточнении онтологии интенциональных девиаций. Практическая ценность связана с приложениями в области разработки NLP-систем, цифровой лингводидактики и прогнозирования языковых изменений. Полученные данные открывают перспективы для дальнейшего изучения культурно-специфичных девиаций в многоязычных моделях и разработки метрик оценки лингвокреативного потенциала ИИ.

Издание: ВОПРОСЫ СОВРЕМЕННОЙ ЛИНГВИСТИКИ

Выпуск: № 4 (2025)

Автор(ы): Акай О. М.

Сохранить в закладках

СТРАНЫ АФРИКИ ЮЖНЕЕ САХАРЫ НА ПУТИ К ОБЕСПЕЧЕНИЮ ТЕХНОЛОГИЧЕСКОГО СУВЕРЕНИТЕТА НА ПРИМЕРЕ НИГЕРИИ, КЕНИИ И ГАНЫ: ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ (2025)

Проанализирована проблема обеспечения технологического суверенитета в странах Африки, расположенных южнее Сахары. На примере Нигерии, Кении и Ганы показано, что в последние годы в африканских государствах появляются национальные программы и стратегии, направленные на развитие передовых информационных технологий, формируются профессиональные исследовательские группы, создаются научные и образовательно-научные центры, занимающиеся разработкой приложений, использующих технологии искусственного интеллекта (ИИ), а в ряде стран идет строительство технологических парков. При этом ключевым направлением исследований на сегодняшний день является решение задач в сфере обработки естественного языка, поскольку именно при условии создания широкого спектра разносторонних ИИ-приложений, способных понимать разные африканские языки, станет возможным создание развитой ИИ-экосистемы в Африке, ориентированной на потребности местного населения. При проведении исследования использовались как общенаучные (анализ, синтез, аналогия), так и специальные методы (критический дискурс-анализ, сравнительный анализ). Выявлено, что в настоящее время в Африке стали появляться языковые модели, способные распознавать речь на некоторых африканских языках (суахили, йоруба, тви, луганда), и даже была разработана специализированная Python-библиотека для решения задач распознавания речи для наиболее распространенных на территории Ганы языков. С одной стороны, данное обстоятельство действительно означает существенный прорыв, который страны Африки сумели добиться в сфере высоких технологий, но в масштабах всего континента эти успехи носят все же локальный характер, поскольку дальнейшее развитие в этой сфере упирается в типичную для большинства стран Африки проблему - отсутствие средств. В результате многие исследовательские группы в Африке существуют на общественных началах, а сами исследования зачастую финансируются за счет спонсорской помощи со стороны западных корпораций и фондов, что представляет серьезную угрозу технологическому суверенитету стран Африки южнее Сахары, которые, несмотря на прилагаемые усилия, продолжают зависеть от импортных технологий и иностранных инвестиций. Для того чтобы снизить указанную зависимость, правительствам африканских стран необходимо продумать механизмы привлечения к соответствующим исследованиям и разработкам африканских инвесторов. Только в этом случае представляется возможным организовать поиск оптимальных решений с целью удовлетворения конкретных местных и региональных потребностей.

Издание: ВЕСТНИК РОССИЙСКОГО УНИВЕРСИТЕТА ДРУЖБЫ НАРОДОВ. СЕРИЯ: МЕЖДУНАРОДНЫЕ ОТНОШЕНИЯ

Выпуск: Том 25 № 3 (2025)

Автор(ы): Панцерев К. А.

Сохранить в закладках

Определение рецензента методами машинного обучения (2025)

Рассматривается задача автоматического назначения рецензентов на основе исторических данных о ранее поступивших и прорецензированных рукописях. В традиционной редакционной практике подбор экспертов опирается на субъективные решения редактора, что может приводить к задержкам и снижению качества экспертизы. Цель исследования – продемонстрировать, что использование простых моделей обработки естественного языка позволяет эффективно и прозрачно автоматизировать этот процесс. В качестве исходных данных использованы тексты опубликованных и отклоненных рукописей научно-технического журнала «Вестник Концерна ВКО «Алмаз – Антей» (с 2011 по 2024 г.), сопровожденные информацией о назначенных рецензентах. Методологически подход основан на предварительной лемматизации текстов, удалении стоп-слов и знаков пунктуации, а также последующей векторизации с использованием моделей bag-of-words (BoW) и Term Frequency-Inverse Document Frequency (TF-IDF). Близость текстов оценивалось путем вычисления максимального косинусного расстояния между их векторными представлениями. Предполагается, что статья, прорецензированная ранее и демонстрирующая наибольшую близость к поступившей, была рассмотрена рецензентами, которых система может рекомендовать для оценки новой рукописи. Результаты показывают, что простые частотные модели (BoW, TF-IDF) демонстрируют более высокую точность назначения рецензентов (до 99 %) по сравнению с нейросетевыми подходами (например, моделью Doc2Vec), особенно при дополнении графом связей между экспертами. При этом модель остается интерпретируемой, не требует значительных вычислительных ресурсов и может быть реализована на компьютере офисного уровня. Показано, что модель эффективно работает в условиях дисбаланса классов и применима даже к относительно небольшим корпусам, начиная от 30 статей. Однако ее обобщение на мультижурнальные редакции требует локальной адаптации, а для решения задачи прогнозирования вероятности принятия к публикации необходимо существенно увеличить объем выборки и привлечь модели глубокого обучения. Предложенный подход может быть легко интегрирован в цифровые редакционные системы для сокращения времени принятия решений, повышения прозрачности экспертизы и снижения нагрузки на сотрудников журнала.

Издание: НАУЧНЫЙ РЕДАКТОР И ИЗДАТЕЛЬ

Выпуск: № 1, Том 10 (2025)

Автор(ы): Большаков Д. Ю.

Сохранить в закладках

Применение искусственного интеллекта для анализа и оптимизации финансовых потоков (2025)

В статье систематизированы современные представления об особенностях использования инструментария искусственного интеллекта в целях анализа, оптимизации финансовых потоков. Актуальность темы аргументируется стремительным ростом объема транзакций в глобальной экономике в сочетании с неспособностью традиционных методов обеспечить по–настоящему результативную обработку многомерных динамических данных в режиме реального времени. В нынешних условиях возникает острая необходимость в разработке новых подходов к управлению денежными потоками — прежде всего, построенных на основе технологий искусственного интеллекта. Цель исследования заключается в систематизации теоретико–методологического базиса применения ИИ в анализируемой сфере, а также в выявлении конкретных преимуществ и ограничений (в отношении этого предложен авторский взгляд на ситуацию, который целесообразно рассматривать в качестве отправной точки для последующих изысканий на предмет определения сдержек и противовесов к задействованию искусственного интеллекта). В научной литературе наблюдаются противоречия между теоретическими моделями использования ИИ и практическими возможностями их реализации, а также разногласия в оценках эффективности различных типов нейросетей для финансового прогнозирования. Недостаточно исследованы вопросы информационной безопасности, правового регулирования в данной области. Установлено, что наиболее перспективными направлениями являются применение глубоких нейронных сетей для анализа временных рядов, методов обучения с подкреплением в целях оптимизации управленческих решений, внедрение технологий обработки естественного языка для работы с неструктурированными финансовыми документами. Подчеркнута значимость графовых инструментов в обнаружении подозрительных схем движения средств, предотвращении мошеннических действий. Статья представляет интерес для аналитиков, специалистов в области искусственного интеллекта, руководителей финансовых департаментов.

Издание: РОССИЙСКАЯ АКАДЕМИЯ ПРЕДПРИНИМАТЕЛЬСТВА

Выпуск: Т. 18, № 1 (2025)

Автор(ы): Мякишева М. А.

Сохранить в закладках