Для определения и извлечения сущностей и связей используются методы анализа текста, такие как метод обнаружения именованных сущностей и метод классификации ролей. Для повышения точности и эффективности извлечения применяются такие методы, как метод опорных векторов и метод условных случайных полей. Предложенный подход демонстрирует многообещающие результаты в точной и эффективной разметке образовательных материалов на математические термины.
Идентификаторы и классификаторы
Было изучено множество подходов к NER. Большинство подходов опираются на краудсорсинг [3, 4] или системы на основе правил [5]. Например, AQL – это декларативный язык правил, используемый в системе SystemT компании IBM [6]. С помощью AQL пользователи могут определить набор правил, которые SystemT затем использует для оптимизации и построения эффективного плана запроса. SystemT может поддерживать сложные выражения, но, как и все системы, основанные на правилах, требует ручных усилий для их определения, и поэтому ее точность сильно зависит от правильного построения. В других случаях системы извлечения зависят от богатых онтологий, специфичных для конкретной области, через которые именованные сущности могут быть сопоставлены непосредственно с терминами в онтологии [7, 8, 9]. Высокая точность NER была достигнута в биомедицине [10, 11], благодаря наличию структурированных баз данных (например, Uniprot и PDB) и четко определенных, уникальных идентификаторов и имен (например, названия генов/белков, болезней, организмов), которые легко идентифицируются в свободном тексте (например, строка “PDB:1BFM” обозначает белок 1BFM в базе данных PDB, в данном случае белок гистона). Было решено сосредоточиться на NER в области, где на данный момент стандартные идентификаторы для именованных сущностей не так легко доступны, в данном случае в образовательной сфере.
Список литературы
-
Тер-Саркисов Р. М., Бузинов С. Н., Бузинова О. В. Математическое моделирование плоскорадиальной фильтрации газоконденсатных систем // Газовая промышленность. 2004. № 12. С. 48-50. EDN: HRYKOH
-
Ramshaw L. A., Marcus M. P. Text chunking using transformation-based learning // Natural Language Processing Using Very Large Corpora. Text, Speech and Language Technology. Springer, Dordrecht, 1999. Vol. 11. Р. 157-176. DOI: 10.1007/978-94-017-2390-9_10
-
Sui D., Elwood S., Goodchild M. Crowdsourcing Geographic Knowledge: Volunteered Geographic Information (VGI) in Theory and Practice. Springer, 2012. 396 р.
-
Wiggins A., Crowston K. From conservation to crowdsourcing: a typology of citizen science // 44th Hawaii International Conference on System Sciences. IEEE, 2011. Р. 1-10.
-
Shaalan K., Raza H. Arabic named entity recognition from diverse text types // Advances in Natural Language Processing: 6th International Conference, GoTAL 2008. LNCS (LNAI). Springer, Heidelberg, 2008. Vol. 5221. Р. 440-451. DOI: 10.1007/978-3-540-85287-2_42
-
Krishnamurthy R., Li Y., Raghavan S. [et al.]. SystemT: a system for declarative information extraction // ACM SIGMOD Record. 2009. Vol. 37, no. 4. Р. 7-13.
-
Friedman C., Kra P., Yu H. [et al.]. GENIES: A natural-language processing system for the extraction of molecular pathways from journal articles // Bioinformatics. 2001. Vol. 17 (1). Р. 7482. DOI: 10.1093/bioinformatics/17.suppl_1.s74 EDN: LPAUML
-
Ono T., Hishigaki H., Tanigami A., Takagi T. Automated extraction of information on proteinprotein interactions from the biological literature // Bioinformatics. 2001. Vol. 17 (2). Р. 155-161. EDN: ILDRPP
-
Rzhetsky A., Iossifov I., Koike Т. [et al.]. GeneWays: a system for extracting, analyzing, visualizing, and integrating molecular pathway data //j. Biomed. Inform. 2004. Vol. 37 (1). Р. 4353. EDN: LZPNCD
-
Brase J. DataCite - A global registration agency for research data // Fourth International Conference on Cooperation and Promotion of Information Resources in Science and Technology. IEEE, 2009. Р. 257-261.
-
Pat. WO2006129175A2 US. System and method for generating unique and persistent identifiers / М. Duggan. URL: https://patentimages.storage.googleapis.com/ca/69/b1/2508a62a47045d/WO2006129175A2.pdf (дата обращения: 04.03.2023).
-
Devlin J., Chang M. W., Lee K., Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. URL: https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ (дата обращения: 06.03.2023).
-
Peters M. E., Neumann М., Iyyer М. [et al.]. Deep contextualized word representations. URL: https://aclanthology.org/N18-1202.pdf (дата обращения: 14.02.2023).
Выпуск
Другие статьи выпуска
Предложен метод расчета температурного поля с фазовым переходом. Использован метод конечных элементов. Задача решена в трехмерной постановке с учетом зависимости теплофизических характеристик материалов от температуры. Данная методика основана на введении эквивалентного коэффициента теплоемкости материала в зоне фазового перехода. Произведен тестовый расчет нестационарного температурного поля МКЭ таяния массы льда и сравнение его с аналитическим расчетом. Получено удовлетворительное совпадение результатов. Указанная методика реализована и используется для выполнения нестационарных температурных расчетов при определении глубины промерзания грунта, а также расчетов в районах вечной мерзлоты при прокладке теплотрасс и других сооружений. По этой методике разработана программа «Temper-3d», имеющая сертификат соответствия. Программа зарегистрирована в реестре программ для ЭВМ.
Исследуются алгоритмы теории графов для поиска критических путей в акторных системах для определения наиболее проблемных мест. Используется алгоритм преобразования диаграммы процессов в направленный граф для изучения и улучшения работы моделей бизнес-процессов. Исследуются муравьиные алгоритмы для определения использования частоты узла графа в кратчайших путях между другими узлами.
Исследуется задача разработки краткого описания текста веб-страницы. Краткое описание создано за счет использования архитектуры машинного обучения Transformer, которая в предварительно обученном состоянии позволяет суммаризировать текст. По ходу реализации исследована модель генерирующего реферирования текста. Исследованы возможности модели, за счет каких особенностей она способна обрабатывать и аннотировать текст. Проанализированы результаты работы модели и сравнены с итогами работы других моделей реферирования, благодаря чему объясняется выбор изученной модели.
В работе приведен подход разбиения учебных дисциплин образовательного направления по тематическим областям с помощью машинного обучения. Предложен алгоритм кластеризации на основе векторного представления дескрипторных сущностей дисциплин. Выполнены процессы предобработки данных, обучения, подбора параметров и использования модели, проведены эксперименты с различными методами кластеризации. Представлен способ назначения названий для полученных областей. Проведен эксперимент на дисциплинах образовательного направления для проверки эффективности модели.
В работе рассматривается применение имитационного моделирования для оптимизации процессов производства катализаторов. Рассматриваются формулировка и решение задача по построению имитационной модели на базе производства. На основе построенной модели проведено несколько экспериментов. Выполнен анализ результатов.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/