Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.
Статья посвящена разработке методологии иерархического многозадачного обучения нейронных сетей, основанной на принципах архитектуры ERNIE 3, и экспериментальной апробации данной методологии на базе модели FRED-T5 для задач анализа и генерации текстов на русском языке. Иерархическое многозадачное обучение является перспективным подходом к созданию универсальных языковых моделей, способных эффективно решать разнообразные задачи обработки естественного языка (NLP). Предложенная методология объединяет преимущества специализированных энкодерных блоков для задач понимания текста (NLU) и общего декодера для генеративных задач (NLG), что позволяет повысить производительность модели и снизить вычислительные затраты. В работе проведён сравнительный анализ эффективности разработанной методологии на открытом бенчмарке Russian SuperGLUE с использованием предварительно обученной русскоязычной модели FRED-T5-1.7B. Экспериментальные результаты подтвердили существенное улучшение качества модели в режимах zero-shot и few-shot по сравнению с базовой конфигурацией. Дополнительно рассмотрены возможности практического применения разработанного подхода в решении реальных NLP-задач, а также даны рекомендации по дальнейшему развитию методологии и её интеграции в прикладные системы обработки русскоязычных текстов.
Авторы предлагают методику извлечения предметно-ориентированных сущностей (ПОС) из русскоязычных текстов студенческих отчетных документов с использованием предварительно обученных языковых моделей на основе трансформеров. Извлечение ПОС из студенческих работ представляет собой актуальную задачу, так как полученные данные могут использоваться для различных целей — начиная от формирования проектных групп и заканчивая персонализацией учебных маршрутов, а также автоматизация процесса обработки документов снижает затраты труда на ручную обработку. В качестве материала для дообучения исследуемых моделей использовались размеченные экспертами отчетные документы студентов, обучающихся по направлениям информационных технологий и поступивших в период с 2019 по 2022 год, по проектным, практическим дисциплинам и выпускным квалификационным работам. Задача извлечения ПОС рассматривается как две задачи: идентификация именованных сущностей и генерация размеченного текста. Сравнительный анализ проводился между моделями, основанными исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенными для извлечения именованных сущностей, и моделями, использующими как энкодеры, так и декодеры (ruT5, mBART), а также моделями, базирующимися только на декодерах (ruGPT, T-lite), применяемыми для генерации текста. Для оценки эффективности сравниваемых моделей использовалась F-мера, а также проведен анализ типичных ошибок. Наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации ПОС во время генерации текста и разметки. Модели для извлечения именованных сущностей проявляют меньшую склонность к ошибкам, однако имеют тенденцию к фрагментарному выделению ПОС. Полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения поставленных задач с учетом специфики предъявляемых требований.
Авторы предлагают методику извлечения предметно-ориентированных сущностей (ПОС) из русскоязычных текстов студенческих отчетных документов с использованием предварительно обученных языковых моделей на основе трансформеров. Извлечение ПОС из студенческих работ представляет собой актуальную задачу, так как полученные данные могут использоваться для различных целей — начиная от формирования проектных групп и заканчивая персонализацией учебных маршрутов, а также автоматизация процесса обработки документов снижает затраты труда на ручную обработку. В качестве материала для дообучения исследуемых моделей использовались размеченные экспертами отчетные документы студентов, обучающихся по направлениям информационных технологий и поступивших в период с 2019 по 2022 год, по проектным, практическим дисциплинам и выпускным квалификационным работам. Задача извлечения ПОС рассматривается как две задачи: идентификация именованных сущностей и генерация размеченного текста. Сравнительный анализ проводился между моделями, основанными исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенными для извлечения именованных сущностей, и моделями, использующими как энкодеры, так и декодеры (ruT5, mBART), а также моделями, базирующимися только на декодерах (ruGPT, T-lite), применяемыми для генерации текста. Для оценки эффективности сравниваемых моделей использовалась F-мера, а также проведен анализ типичных ошибок. Наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации ПОС во время генерации текста и разметки. Модели для извлечения именованных сущностей проявляют меньшую склонность к ошибкам, однако имеют тенденцию к фрагментарному выделению ПОС. Полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения поставленных задач с учетом специфики предъявляемых требований.
Разработка систем автоматического оценивания является актуальной задачей, призванной упростить рутинный труд учителя и ускорить обратную связь для учащегося. Обзор посвящён исследованиям в области автоматической оценки ответов учащихся на основе эталонного ответа учителя. Авторы работы проанализировали модели текстов, применяемые для задач автоматической оценки коротких ответов (ASAG) и автоматизированной оценки эссе (AES). Также принималось во внимание несколько подходов для задачи определения близости текстов, так как она является аналогичной задачей, и методы её решения могут быть полезны и для анализа ответов студентов. Модели текста можно разделить на несколько больших категорий. Первая — это лингвистические модели, основанные на разнообразных стилометрических характеристиках, как простых вроде мешка слов и n-грамм, так и сложных вроде синтаксических и семантических. Ко второй категории авторы отнесли нейросетевые модели, основанные на разнообразных эмбеддингах. В ней выделяются большие языковые модели как универсальные, популярные и качественные методы моделирования. Третья категория включает в себя комбинированные модели, которые объединяют в себе как лингвистические характеристики, так и нейросетевые эмбеддинги. Сравнение современных исследований по моделям, методам и метрикам качества показало, что тренды в предметной области совпадают с трендами в компьютерной лингвистике в целом. Большое количество авторов выбирают для решения своих задач большие языковые модели, но и стандартные характеристики остаются востребованными. Универсальный подход выделить нельзя, каждая подзадача требует отдельного выбора метода и настройки его параметров. Комбинированные и ансамблевые подходы позволяют достичь более высокого качества, чем остальные методы. В подавляющем большинстве работ исследуются тексты на английском языке. Однако успешные результаты для национальных языков также встречаются. Можно сделать вывод, что разработка и адаптация методов оценки ответов студентов на национальных языках является актуальной и перспективной задачей.
Технологии искусственного интеллекта получают все более широкое распространение для решения производственных, социальных и других задач во всех сферах деятельности. В Российской Федерации развитию технологий искусственного интеллекта придается особое значение, в том числе на государственном уровне. Это объясняется широкими возможностями, которые предоставляют данные технологии для повышения эффективности функционирования организаций. Внедрение любых новых технологий приводит к необходимости перестройки бизнес-процессов. Это, в свою очередь, вызывает как необходимость анализа потенциальных преимуществ от внедрения технологий искусственного интеллекта, так и необходимость их сопоставления с размерами ресурсных затрат. Специфика функционирования организаций в различных отраслях экономики и сферах деятельности объясняет разный уровень проникновения технологий искусственного интеллекта в их деятельность, а также особенности их применения. В статье проводится анализ использования технологий искусственного интеллекта в отечественных организациях, анализируются причины распространения тех или иных технологий искусственного интеллекта в различных отраслях. Результаты анализа особенностей различных технологий искусственного интеллекта позволят повысить эффективность их использования в различных организациях, а также снизить затраты на функционирование производственных и управленческих систем.
Цель исследования - описать типовую процедуру преобразования скрипта телесериала в лингвистический корпус, совместимый с программным комплексом «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы сравнительного и структурного анализа, описания, профессионально ориентированного программирования, а также базовые методы корпусного подхода. В качестве лингвистического материала выступает скрипт оригинального телесериала «Звездный путь». В результате получен сбалансированный лингвистический корпус всех трех сезонов, содержащий помимо стандартных данных сведения о номере сезона и серии, говорящем и локации, в которой происходит действие.
Цель исследования - разработать базовую технологию идентификации средств категории отрицания в рамках работы программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы анализа, тестирования, моделирования, профессионально ориентированного программирования и эксперимента. В качестве лингвистического материала выступает корпус актуальных новостных текстов CNN объемом 1 024 583 токена. В результате исследования уточнены возможности текущей версии программного комплекса, а также написано расширение, позволяющее находить лексические единицы, находящиеся в прямом подчинении от заданной леммы.
Цель. Настоящее исследование направлено на выявление механизмов обработки интенциональных языковых девиаций большими языковыми моделями (LLM) и анализ их лингво-креативных стратегий в цифровом дискурсе. Цель работы заключается в разработке теоретической модели, объясняющей когнитивные алгоритмы распознавания и трансформации девиаций в системах искусственного интеллекта.
Процедура и методы. В качестве методологической базы использован комплексный подход, включающий корпусный анализ диахронического среза цифрового дискурса (2019-2024 гг.), экспериментальные промпты с контролируемыми девиациями для моделей GPT-4, Gemini 1.5 и Claude 3, а также дискурс-анализ речевых актов ИИ с применением трёхуровневой шкалы аннотирования (репликация/амплификация/нормализация).
Результаты исследования подтвердили гипотезу о статистической природе лингвокреативности LLM, выявив трёхступенчатую модель обработки девиаций: распознавание через механизмы внимания, классификация по степени отклонения от нормы, стратегический выбор ответной реакции. Установлен парадокс «креативного конформизма», проявляющийся в тенденции ИИ к гипернормализации изначально маргинальных языковых инноваций. Особый практический интерес представляют документированные эффекты циркуляции ИИ-генерированных неологизмов в социальных медиа и формирования «искусственного языкового вкуса».
Теоретическая значимость работы заключается в развитии аппарата когнитивной лингвистики цифрового дискурса и уточнении онтологии интенциональных девиаций. Практическая ценность связана с приложениями в области разработки NLP-систем, цифровой лингводидактики и прогнозирования языковых изменений. Полученные данные открывают перспективы для дальнейшего изучения культурно-специфичных девиаций в многоязычных моделях и разработки метрик оценки лингвокреативного потенциала ИИ.
Проанализирована проблема обеспечения технологического суверенитета в странах Африки, расположенных южнее Сахары. На примере Нигерии, Кении и Ганы показано, что в последние годы в африканских государствах появляются национальные программы и стратегии, направленные на развитие передовых информационных технологий, формируются профессиональные исследовательские группы, создаются научные и образовательно-научные центры, занимающиеся разработкой приложений, использующих технологии искусственного интеллекта (ИИ), а в ряде стран идет строительство технологических парков. При этом ключевым направлением исследований на сегодняшний день является решение задач в сфере обработки естественного языка, поскольку именно при условии создания широкого спектра разносторонних ИИ-приложений, способных понимать разные африканские языки, станет возможным создание развитой ИИ-экосистемы в Африке, ориентированной на потребности местного населения. При проведении исследования использовались как общенаучные (анализ, синтез, аналогия), так и специальные методы (критический дискурс-анализ, сравнительный анализ). Выявлено, что в настоящее время в Африке стали появляться языковые модели, способные распознавать речь на некоторых африканских языках (суахили, йоруба, тви, луганда), и даже была разработана специализированная Python-библиотека для решения задач распознавания речи для наиболее распространенных на территории Ганы языков. С одной стороны, данное обстоятельство действительно означает существенный прорыв, который страны Африки сумели добиться в сфере высоких технологий, но в масштабах всего континента эти успехи носят все же локальный характер, поскольку дальнейшее развитие в этой сфере упирается в типичную для большинства стран Африки проблему - отсутствие средств. В результате многие исследовательские группы в Африке существуют на общественных началах, а сами исследования зачастую финансируются за счет спонсорской помощи со стороны западных корпораций и фондов, что представляет серьезную угрозу технологическому суверенитету стран Африки южнее Сахары, которые, несмотря на прилагаемые усилия, продолжают зависеть от импортных технологий и иностранных инвестиций. Для того чтобы снизить указанную зависимость, правительствам африканских стран необходимо продумать механизмы привлечения к соответствующим исследованиям и разработкам африканских инвесторов. Только в этом случае представляется возможным организовать поиск оптимальных решений с целью удовлетворения конкретных местных и региональных потребностей.
Рассматривается задача автоматического назначения рецензентов на основе исторических данных о ранее поступивших и прорецензированных рукописях. В традиционной редакционной практике подбор экспертов опирается на субъективные решения редактора, что может приводить к задержкам и снижению качества экспертизы. Цель исследования – продемонстрировать, что использование простых моделей обработки естественного языка позволяет эффективно и прозрачно автоматизировать этот процесс. В качестве исходных данных использованы тексты опубликованных и отклоненных рукописей научно-технического журнала «Вестник Концерна ВКО «Алмаз – Антей» (с 2011 по 2024 г.), сопровожденные информацией о назначенных рецензентах. Методологически подход основан на предварительной лемматизации текстов, удалении стоп-слов и знаков пунктуации, а также последующей векторизации с использованием моделей bag-of-words (BoW) и Term Frequency-Inverse Document Frequency (TF-IDF). Близость текстов оценивалось путем вычисления максимального косинусного расстояния между их векторными представлениями. Предполагается, что статья, прорецензированная ранее и демонстрирующая наибольшую близость к поступившей, была рассмотрена рецензентами, которых система может рекомендовать для оценки новой рукописи. Результаты показывают, что простые частотные модели (BoW, TF-IDF) демонстрируют более высокую точность назначения рецензентов (до 99 %) по сравнению с нейросетевыми подходами (например, моделью Doc2Vec), особенно при дополнении графом связей между экспертами. При этом модель остается интерпретируемой, не требует значительных вычислительных ресурсов и может быть реализована на компьютере офисного уровня. Показано, что модель эффективно работает в условиях дисбаланса классов и применима даже к относительно небольшим корпусам, начиная от 30 статей. Однако ее обобщение на мультижурнальные редакции требует локальной адаптации, а для решения задачи прогнозирования вероятности принятия к публикации необходимо существенно увеличить объем выборки и привлечь модели глубокого обучения. Предложенный подход может быть легко интегрирован в цифровые редакционные системы для сокращения времени принятия решений, повышения прозрачности экспертизы и снижения нагрузки на сотрудников журнала.
В статье систематизированы современные представления об особенностях использования инструментария искусственного интеллекта в целях анализа, оптимизации финансовых потоков. Актуальность темы аргументируется стремительным ростом объема транзакций в глобальной экономике в сочетании с неспособностью традиционных методов обеспечить по–настоящему результативную обработку многомерных динамических данных в режиме реального времени. В нынешних условиях возникает острая необходимость в разработке новых подходов к управлению денежными потоками — прежде всего, построенных на основе технологий искусственного интеллекта. Цель исследования заключается в систематизации теоретико–методологического базиса применения ИИ в анализируемой сфере, а также в выявлении конкретных преимуществ и ограничений (в отношении этого предложен авторский взгляд на ситуацию, который целесообразно рассматривать в качестве отправной точки для последующих изысканий на предмет определения сдержек и противовесов к задействованию искусственного интеллекта). В научной литературе наблюдаются противоречия между теоретическими моделями использования ИИ и практическими возможностями их реализации, а также разногласия в оценках эффективности различных типов нейросетей для финансового прогнозирования. Недостаточно исследованы вопросы информационной безопасности, правового регулирования в данной области. Установлено, что наиболее перспективными направлениями являются применение глубоких нейронных сетей для анализа временных рядов, методов обучения с подкреплением в целях оптимизации управленческих решений, внедрение технологий обработки естественного языка для работы с неструктурированными финансовыми документами. Подчеркнута значимость графовых инструментов в обнаружении подозрительных схем движения средств, предотвращении мошеннических действий. Статья представляет интерес для аналитиков, специалистов в области искусственного интеллекта, руководителей финансовых департаментов.