АНАЛИЗ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ GLR-ПАРСЕРА (2023)
Дано описание Томита-парсера, предназначенного для анализа текста на русском языке, который работает на основе GLR-анализа. Рассмотрены способы задания грамматик в Томита-парсере, описания газеттиров и создания полей фактов. Представлена работа Томита-парсера на примере конкретного текста.
Идентификаторы и классификаторы
Теория формальных грамматик успешно применяется на сегодня для анализа искусственных языков в целях их трансляции или интерпретации. Как правило, для этого используются LL- или LR-анализаторы, пригодные для работы с КС-грамматиками.
При анализе естественных языков перед формальными грамматиками встают две важные проблемы.
-
Естественный язык в целом описывается КЗ-грамматиками, широко известные алгоритмы разбора которых имеют экспоненциальное время работы. Однако грамматики исследованы мало. Тем не менее, эта проблема не стоит остро. Так, в русском языке в большинстве случаев контекстную зависимость можно элиминировать, а конструкции, несводимые к КС-грамматикам, встречаются в языке довольно редко [1], что позволяет исключать такие случаи из рассмотрения.
-
Неоднозначность естественного языка, в отличие от первой проблемы, встречается повсеместно: многие конструкции языка нельзя описать однозначными грамматиками, а LL- и LR-анализаторы предназначены только для однозначных грамматик. Для разрешения этой проблемы в 1984 г. японский учёный Масару Томита разработал GLR-парсер [2], поставив перед собой цель — добиться значимых результатов для распознавания текстов, написанных на естественном языке.
Список литературы
- Гладкий А. В., Мельчук И. А. Элементы математической лингвистики. М.: Наука, 1969. 192 с.
- Погорелов Д. А., Таразанов А. М., Волкова Л. Л. От LR к GLR: обзор синтаксических анализаторов // Новые информационные технологии в автоматизированных системах. 2017. № 20. С. 245-250. EDN: YNAEJJ
- Светлаков А. В. Математические основы написания трансляторов // Студенческая наука-2021: сб. статей 69-й студенческой научной конференции Смоленского государственного университета. Смоленск, 24 апреля 2021 г. Смоленск: Смоленский государственный университет, 2021. С. 513-523. EDN: YYTVHJ
- Томита-парсер. Руководство разработчика [Электронный ресурс]. URL: https://yandex.ru/dev/tomita/doc/dg/(дата обращения: 08.08.2023).
Выпуск
Другие статьи выпуска
Рассмотрена задача поиска и распознавания текстовой информации на скан-копиях документов. Описаны схема и программная реализация алгоритмов оценки ориентации, поиска и распознавания текста на изображениях. Предложены схема работы с различными видами документов и форма отображения результата.
Описана методика создания каркасной модели, ранее опробованная при моделировании корабля типа авианосца, используемая для построения модели боевого танка, основная геометрия которого базируется на двумерных мишенях-силуэтах. Каркасная модель выполнена в среде MathCAD, а поверхностная геометрическая - в программе OpenSCAD. Представлена исходная трёхмерная модель танка, проецируемая из произвольной точки пространства на выбранную картинную плоскость с образованием двумерной проекции.
Рассмотрены особенности применения термопластичных полимеров в качестве основного конструкционного материала для электродвигателей. Предложена технология послойного наплавления при создании аксиального синхронного электродвигателя на постоянных магнитах с использованием термопластичных полимеров, позволяющая эффективно изолировать корродирующие элементы от жидкостной среды, что даёт возможность применять электродвигатели в агрессивных средах.
Представлена разработанная в ВИНИТИ РАН и введённая в эксплуатацию безбумажная технология обработки поступающего в институт потока научных публикаций и создания информационных продуктов, базирующаяся на Единой технологической базе данных и Автоматизированном рабочем месте «Корректор, Редактор, Референт», которые позволяют научным редакторам и референтам ВИНИТИ РАН эффективно обрабатывать документы для реферативных журналов. Проанализирован опыт автоматизации редакторской подготовки издания реферативного журнала «Математика».
Рассмотрены популярные фреймворки на языке программирования Go. Приведены результаты сравнительного тестирования их производительности в часто встречающихся операциях. Замерены количество запросов в секунду, задержка при запросе и потребление оперативной памяти (результаты представлены в виде диаграммы).
Описан метод ввода поправки в систему управления наведением зенитной установки при работе с внешним целеуказанием. Отмечено, что при раздельном размещении радиолокационной станции и зенитной установки следует учитывать дистанцию между ними для повышения точности наведения орудия, а при каждом изменении их дислокации необходимо уточнять значение поправки.
Рассмотрена альтернатива перестраиваемой катушке Петерсена на основе переключаемых секций трансформатора на низком напряжении с использованием контактора и ёмкостей, создающих необходимый реактанс. Представлена система плавного регулирования с применением симисторного регулятора небольшой мощности. Получен расчёт дугогасящего реактора с использованием ёмкостей низкого напряжения и типовых трансформаторов без перестраиваемых механических частей. Проанализированы условия эксплуатации многоступенчатого устройства дугогашения в однофазном варианте.
Затронута проблема отсутствия единообразного подхода к формированию перечня оборудования для функционирования автономного надводного судна. Приведён перечень оборудования в зависимости от уровня автономности. Рассмотрены протоколы передачи данных. Цель данной статьи - анализ перечня необходимого оборудования и предложения по протоколам передачи данных.
Рассмотрена методика оперативного оценивания параметров ракет, позволяющая определять выходные характеристики разрабатываемой ракеты с приемлемой инженерной точностью.
Издательство
- Издательство
- АО "НТЦ Элинс"
- Регион
- Россия, Москва
- Почтовый адрес
- 124460, город Москва, город Зеленоград, Панфиловский пр-кт, д. 4 стр. 1, пом V; ком 1-9
- Юр. адрес
- 124460, город Москва, город Зеленоград, Панфиловский пр-кт, д. 4 стр. 1, пом V; ком 1-9
- ФИО
- Тикменов Василий Николаевич (Руководитель)
- Сайт
- https://elins.ru/