В данной статье описываются подходы и методы анализа морфологической изменчивости русского языка. Было разработано и опубликовано решение, способное производить лемматизацию русского текста, используя бессловарный подход.
В статье рассматривается подход к выявлению противоречий между нормативными документами на естественном языке с использованием методов искусственного интеллекта. Внедрение «умных» стандартов, которые позволяют машинам автоматически понимать и применять нормативные требования, является важным этапом цифровой трансформации, однако на практике интеграция таких стандартов с традиционными нормативными документами неизбежна. При этом наличие противоречий между разными стандартами существенно усложняет их автоматическое применение и вызывает сбои в работе информационных систем. Автором предлагается новый подход к автоматизированному выявлению потенциальных противоречий, основанный на кластеризации текстовых данных с последующим анализом дисперсии эмбеддингов нормативных положений. Используется модель больших языковых эмбеддингов «text-embedding-ada-002», что позволяет преобразовать тексты в семантические векторные представления. Далее применяются методы кластеризации и количественный анализ внутрикластерной дисперсии, а также метрика оптимального транспорта (Earth Mover’s Distance) для оценки различий между группами нормативных положений. Проведённые эксперименты на синтетических данных показали, что предложенный подход способен выявлять более 70% искусственно внесённых противоречий, однако выявлено значительное количество ложноположительных результатов, обусловленных влиянием различий в структуре и мета-данных документов. Полученные предварительные результаты демонстрируют возможность автоматизированного выделения областей потенциальных противоречий для последующего экспертного анализа. Практическая значимость работы заключается в создании программного решения, позволяющего автоматизировать поиск противоречий в больших массивах нормативной документации и обеспечить корректность взаимодействия как между системами, так и между человеком и машиной. Материалы статьи будут полезны разработчикам интеллектуальных систем автоматизации нормативной документации и специалистам, занимающимся цифровой трансформацией в сфере стандартизации.
Статья посвящена выявлению качественных характеристик детализации словаря многозначной лексики с целью повышения интерпретативности нейросетевых машинных переводчиков. Исследование выполнено в рамках частной теории перевода, а именно на материале китайско-русской языковой пары как одной из наиболее актуальных в современном переводческом контексте и одновременно проблематичных ввиду значительной межъязыковой и межкультурной асимметрии. Новизна исследования заключается в отсутствии методик и алгоритмов по разработке конечных словарей, позволяющих осуществлять нейросетевой машинный перевод наиболее адекватно современным условиям. Определяя многозначность как одну из причин некачественного автоматического генерирования текста, автор предлагает теоретическое обоснование принципов составления двуязычных словарей на основе ручной обработки параллельных текстов с целью заполнения определенных параметров лингвопереводческих схем для детализации употребления лексических единиц, сложно интерпретируемых нейросетевыми переводчиками. Проблема решается с помощью метода экокогнитивного моделирования профессиональной коммуникации переводчиков, позволяющего провести комплексное исследование человеко-машинной коммуникации, на основе которой выделяются многозначные единицы перевода, требующие ручной предобработки. Автор определяет два сценария снятия многозначности у сложно интерпретируемых лексических единиц. По разработанному авторскому алгоритму в статье показаны детали анализа ручной обработки параллельных текстов и заполнение схем оформления словарных статей под нейросетевой переводчик. Обсуждается исследовательская логика по принятию тех или иных решений относительно категоризации и/или параметризации рассматриваемых лексических единиц и их контекстуальных особенностей. В анализе объясняются причины включения рассматриваемых единиц в корпусные данные для обучения нейросетей, иллюстрируется их лексико-грамматическая детализация и сочетаемость, а также приводится переводческий анализ для снятия контекстуальной вариативности за счет категоризации понятий и/или дискурсивной принадлежности. В результате исследования качественными характеристиками детализации параллельного обучающего китайско-русского корпуса выступают: лингвистические и дефиниционные параметры, словарная представленность, переводческая вариативность в зависимости от лексико-грамматической сочетаемости, дискурсивно-жанровой принадлежности и концептуально-категориальной таксономии.
Представлены современные методы обработки естественного языка, выделено несколько различий между представленными библиотеками обработки естественного языка на Python. Рассмотрены особенности построения концепт карт естественного языка, библиотеки для построения графов и методы извлечения триплетов, основанные на больших языковых моделях.
Статья посвящена изучению международного опыта применения технологий, основанных на искусственном интеллекте, в обучении иностранным языкам студентов неязыковых вузов. Автор обосновывает актуальность и значимость темы исследования. Дано краткое описание этапов развития методических подходов к обучению иностранному языку в зависимости от развития технологий. Особое внимание уделено ИИ-подходу, который предполагает использование технологий, основанных на искусственном интеллекте, в практике преподавания иностранных языков. Обоснована позиция о многофункциональности искусственного интеллекта как вспомогательного и в целом оптимизирующего решения для образовательного процесса. На основе результатов обзора международного опыта применения ИИ-подхода в обучении иностранным языкам сформулирован авторский подход к интерпретации роли искусственного интеллекта в решении прикладных образовательных задач в высшей школе. Предлагается визуализация экосистемы возможностей для применения основанных на ней технологий, основанная на принципе ролевой гибкости. Также затронута тема образовательного метавселенной. Отмечается, что существует необходимость продолжать накапливать научные знания в этой области, а также активизировать экспериментальные инициативы с целью выяснения как новых возможных способов использования искусственного интеллекта в обучении иностранным языкам студентов неязыковых вузов, так и возможных разрушений, которые могут снизить эффективность и результативность обучения. о приобретении ими навыков владения иностранным языком.
В данной статье рассматривается применение технологий искусственного интеллекта (ИИ) в преподавании китайского языка как иностранного. На примерах из Пекинского университета языка и культуры, Университета Фудань, Гарвардского университета и Токийского университета рассматриваются различные аспекты внедрения интеллектуальных систем в образовательный процесс. В исследовании обсуждаются возможности автоматизированного отбора учебных материалов, адаптации контента в зависимости от уровня владения языком и успеваемости учащихся, а также оценки их знаний и умений с помощью технологий обработки естественного языка, машинного обучения и распознавания речи. Особое внимание уделяется персонализации обучения, инновационным методам преподавания, а также преимуществам и проблемам использования искусственного интеллекта при преподавании китайского языка в международной среде.
Целью исследования является составление методики преподавания основ обработки естественного языка, которая должна соответствовать сформулированной в Национальной стратегии развития искусственного интеллекта в Российской Федерации на период до 2030 г. стратегической задаче – повышению уровня обеспечения отечественного рынка технологий искусственного интеллекта квалифицированными кадрами. Образовательный модуль ориентирован на обучение студентов учебных заведений среднего специального и высшего образования. В работе применены методы сбора, анализа, обобщения информации о программных способах обработки естественного языка, нормативно-правовых документах в сфере образования, методиках проведения теоретических и практических занятий по компьютерной лингвистике и анализу текстов. Составлены тематические занятия, каждому из которых соответствуют универсальные и общепрофессиональные компетенции, перечисленные в Федеральном государственном образовательном стандарте высшего образования. Учебная программа составлена по принципу логической последовательности тем: изучение документации, инсталляция программного обеспечения, исследование свойств и методов морфологического анализатора, решение прикладных задач, практическая работа, отчет. Предложенный автором курс занятий прошел пилотную апробацию в Московском государственном техническом университете им. Н. Э. Баумана при подготовке бакалавров по направлениям 09.03.01 «Информатика и вычислительная техника» и 09.03.03 «Прикладная информатика» (профиль «Информационная аналитика»).
Представлены современные методы обработки естественного языка, выделено несколько различий между представленными библиотеками обработки естественного языка на Python. Рассмотрены особенности построения концепт-карт естественного языка, библиотеки для построения графов и методы извлечения триплетов, основанные на больших языковых моделях.
в статье рассматривается лингво-математическое обеспечение интеллектуальных информационно-поисковых систем. Активно развивающиеся последнее десятилетие большие языковые модели, способные решать задачи информационного поиска, часто оказываются ресурсоемкими и имеют избыточный функционал при встраивании в специализированные информационные системы. Это создает необходимость разработки более легковесных методов обработки текста на естественном языке. Рассматривается экстрактивный подход к организации вопросно-ответного поиска, задачакоторого состоит в нахождении предложений, отвечающих на вопрос в заранее выбранном документе. В рамках организации этого подхода предлагаются методы анализа морфологии, синтаксиса и семантики естественного языка. Для реализации графового синтаксического анализа, основанного на взвешивании полного ориентированного графа искусственной нейронной сетью прямого распространения, собран корпус текстов на русском языке, содержащий 8800 предложений. Также этот корпус используется для получения набора синтаксически ориентированных векторных представлений слов, применяющегося на этапе семантического анализа, посредством модели, основанной на архитектуре непрерывного мешка слов. Механизм ранжирования предложений относительно вопроса основан на формализации семантики текста на естественном языке в виде сильно-связного ориентированного графа, выявляющего неявные содержательные закономерности языковых структур.
В работе приведен краткий теоретический обзор существующих подходов к решению задачи классификации намерений пользователей на основе текстовых сообщений. Предложен классификатор на основе текстового трансформера. Рассмотрены процессы обучения и использования модели. В рамках эксперимента обучено несколько демонстрационных вариантов классификатора для корпоративной диалоговой системы. Приведены показатели качества моделей в виде совокупности значений основных метрик и визуализаций, применяемых при оценке классификаторов
В работе исследованы основные подходы к распознаванию смысла предложений исходя из контекста. Распознавание смысла предложений используется для решения задачи семантического сравнения пользовательских запросов с целью найти наиболее схожий по смыслу среди имеющихся. Результаты исследования показывают, что использование алгоритмов распознавания смысла предложений позволяет сократить число запросов, которые необходимо описывать вручную, при этом сохраняя большое количество обрабатываемых запросов.
Для определения и извлечения сущностей и связей используются методы анализа текста, такие как метод обнаружения именованных сущностей и метод классификации ролей. Для повышения точности и эффективности извлечения применяются такие методы, как метод опорных векторов и метод условных случайных полей. Предложенный подход демонстрирует многообещающие результаты в точной и эффективной разметке образовательных материалов на математические термины.