МЕТОД СОЗДАНИЯ СТРУКТУРНЫХ МОДЕЛЕЙ ТЕКСТОВЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ (2023)
В статье описываются современные нейросетевые модели на основе BERT и рассматривается их применение для задач обработки естественного языка (NLP), таких как ответы на вопросы и распознавание именованных сущностей. В статье представлен метод решения задачи автоматического создания структурныхмоделей текстовых документов. Предлагаемый метод является гибридным и основан на совместном использовании нескольких моделей NLP. Метод строит структурную модель документа, извлекая предложения,соответствующие различным аспектам документа. Извлечение информации осуществляется с использованием вопросно-ответной модели BERT с вопросами, подготовленными отдельно для каждого аспекта.Ответы фильтруются с помощью модели распознавания именованных сущностей BERT и используютсядля формирования содержимого каждого поля структурной модели. В статье предложены два алгоритмаформирования содержимого поля - алгоритм выбора исключающего ответа и алгоритм формированияобобщающего ответа, которые используются для коротких и объемных полей соответственно. В статье также описывается программная реализация предлагаемого метода и обсуждаются результаты экспериментов,проведенных для оценки качества метода.
Идентификаторы и классификаторы
- УДК
- 004.89. Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями
- eLIBRARY ID
- 50396390
Современные информационные системы накапливают и обрабатывают огромные объемы разнородных данных, значительную часть которых составляют текстовые документы. Такие документы используются в качестве входных данных для многих задач обработки естественного языка (Natural Language Processing, NLP), которые в последние годы значительно продвинулись вперед, в основном благодаря развитию технологий глубокого обучения.
Многие задачи NLP требуют сравнения двух текстовых документов. К таким задачам относятся кластеризация текста (которая требует вычисления сходства между двумя документами, чтобы определить, можно ли поместить их в один кластер), поиск информации (который включает определение того, насколько документ близок к запросу пользователя), обнаружение плагиата и другие. В большинстве случаев при сравнении документов учитываются целые тексты обоих документов. Типичная реализация такого сравнения заключается в представлении всего документа с помощью векторной модели (например, Bag of Words, TF-IDF, Word2Vec или других моделей встраивания) и сравнении векторных моделей двух документов с помощью различных мер сходства, таких как косинусное сходство или расстояние Word Mover’s Distance.
Однако в некоторых специфических задачах при сравнении документов необходимо учитывать только фрагменты их текстов. Вот некоторые из возможных сценариев, в которых сравнение текстовых документов должно выполняться именно таким образом:
-
Сравнение нескольких научных статей по одной и той же проблеме с целью определения наиболее эффективного решения. При этом статьи должны сравниваться с точки зрения эффективности представленных методов.
-
Сравнение нескольких последовательных версий официального документа, регулирующего определенную сферу (например, национальной стратегии развития ИИ), для отслеживания развития технологий, которые используются для достижения поставленных в документе целей.
Список литературы
- Mansouri A., Affendey L.S., Mamat A. Named entity recognition approaches // International Journal of Computer Science and Network Security. 2008. Vol. 8, no. 2. P. 339-344.
- Brown D.E., Liu X. Extracting Addresses from News Reports Using Conditional Random Fields // Proceedings of the 15th IEEE International Conference on Machine Learning and Applications, ICMLA, Anaheim, California, USA, December 18-20, 2016. IEEE, 2016. P. 791- 795. DOI: 10.1109/ICMLA.2016.0141
- Benson E., Haghighi A., Barzilay R. Event discovery in social media feeds // Association for Computational Linguistics: Human Language Technologies, 49th Annual Meeting, HLT ’11, Portland, Oregon, USA, June 19-24, 2011. Proceedings. Vol. 1. Association for Computational Linguistics, 2011. P. 389-398.
- Turmo J., Ageno A., Catala N. Adaptive information extraction // ACM Computing Surveys. 2006. Vol. 38, no. 2. P. 1-47. DOI: 10.1145/1132956/1132957
- Chai J.Y., Biermann A.W., Guinn C.I. Two dimensional generalization in information extraction // Proceedings of the Sixteenth National Conference on Artificial Intelligence, AAAI-99, Orlando, Florida, USA, July 18-22, 1999. American Association for Artificial Intelligence, 1999. P. 431-438.
- Garc’ıa-Constantino M., Atkinson K., Bollegala D., et al. CLIEL: Context-based information extraction from commercial law documents // Proceedings of the 16th International Conference on Artificial Intelligence and Law, ICAIL’17, London, UK, June 12-16, 2017. Association for Computing Machinery, 2017. P. 79-87. DOI: 10.1145/3086512.3086520
- Kadhim K.J., Sadiq A.T., Abdulah H.S. Unsupervised-Based Information Extraction from Unstructured Arabic Legal Documents // Opci’on: Revista de Ciencias Humanas y Sociales. 2019. Vol. 35, no. 20. P. 1097-1117.
- Freitag D. Machine learning for information extraction in informal domains // Machine learning. 2000. Vol. 39, no. 2. P. 169-202. DOI: 10.1023/A:1007601113994. EDN: AGNZZZ
- Borkar V., Deshmukh K., Sarawagi S. Automatic segmentation of text into structured records // Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data, SIGMOD’01, Santa Barbara, California, USA, May 21-24, 2001. Association for Computing Machinery, 2001. P. 175-186. DOI: 10.1145/375663.375682
-
McCallum A. Efficiently inducing features of conditional random fields // Uncertainty in Artificial Intelligence, Proceedings of the Nineteenth Conference, UAI03, Acapulco, Mexico, August 7-10, 2003. Morgan Kaufmann, 2003. P. 403-410.
-
Feldman R., Sanger J. Probabilistic Models for Information Extraction // The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2006. P. 131-145.
-
Wang A., Singh A., Michael J., et al. GLUE: a multi-task benchmark and analysis platform for natural language understanding // Proceedings of the 7th International Conference on Learning Representations, ICLR 2019, New Orleans, Louisiana, USA, May 6-9, 2019. P. 1- 20. DOI: 10.18653/v1/w18-5446
-
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, Minnesota, USA, June 2-7, 2019. Vol. 1: Long and Short Papers. Association for Computational Linguistics, 2019. P. 4171-4186. DOI: 10.18653/v1/n19-1423
-
Pennington J., Socher R., Manning C.D. Glove: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, Doha, Qatar, October 25-29, 2014. Association for Computational Linguistics, 2014. P. 1532-1543. DOI: 10.3115/v1/d14-1162
-
Burtsev M., Seliverstov A., Airapetyan R., et al. DeepPavlov: Open-Source Library for Dialogue Systems // Association for Computational Linguistics-System Demonstrations, Proceedings of the 56th Annual Meeting, Melbourne, Australia, July 15-20, 2018. Association for Computational Linguistics, 2018. P. 122-127. DOI: 10.18653/v1/p18-4021
-
Xe K., Zhou Y., Ma Z., et al. Fine-tuning BERT for joint entity and relation extraction in Chinese medical text // Proceedings of the 2019 IEEE International Conference on Bioinformatics and Biomedicine, BIBM, San Diego, California, USA, November 18-21, 2019. IEEE, 2019. P. 892-897. DOI: 10.1109/bibm47256.2019.8983370
-
Wang Q., Yang L., Kanagal B., et al. Learning to Extract Attribute Value from Product via Question Answering: A Multi-task Approach // Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD'20, USA, August 23-27, 2020. Association for Computing Machinery, 2020. P. 47-55. DOI: 10.1145/3394486.3403047
-
Banerjee P., Pal K.K., Devarakonda M.V., Baral C. Biomedical Named Entity Recognition via Knowledge Guidance and Question Answering // ACM Transactions on Computing for Healthcare. 2021. Vol. 2, no. 4. P. 1-24. DOI: 10.1145/3465221
-
Li X., Yin F., Sun Z., et al. Entity-Relation Extraction as Multi-Turn Question Answering // Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28 - August 2, 2019. Vol. 1: Long Papers. Association for Computational Linguistics, 2019. P. 1340-1350. DOI: 10.18653/v1/p19-1129
-
Qiu L., Ru D., Long Q., et al. QA4IE: A Question Answering Based Framework for Information Extraction // Proceedings of the 17th International Semantic Web Conference, ISWC 2018, Monterey, California, USA, October 8-12, 2018. Vol. 11136 / ed. by D. Vrandeˇci'c, K. Bontcheva, M.C. Su'arez-Figueroa, et al. Springer, 2018. P. 198-216. Lecture Notes in Computer Science. DOI: 10.1007/978-3-030-00671-6_12
-
Rajpurkar P., Jia R., Liang P. Know What You Don't Know: Unanswerable Questions for SQuAD // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018, Melbourne, Australia, July 15-20, 2018. Vol. 2: Short Papers. Association for Computational Linguistics, 2018. P. 784-789. DOI: 10.18653/v1/p18-2124
-
Weischedel R., Hovy E., Marcus R., et al. OntoNotes: A large training corpus for enhanced processing // Handbook of Natural Language Processing and Machine Translation: DARPA Global Autonomous Language Exploitation / ed. by J. Olive, C. Christianson, J. McCary. Springer, 2011.
-
Google Research Github Account. TensorFlow code and pre-trained models for BERT. URL: https://github.com/google-research/bert (дата обращения: 31.10.2022).
-
DeepPavlov lab Github Account. An open source library for deep learning end to end dialog systems and chatbots. URL: https://github.com/deeppavlov/DeepPavlov (дата обращения: 31.10.2022).
-
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERTNetworks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP, Hong Kong, China, November 3-7, 2019. Association for Computational Linguistics, 2019. P. 3982-3992. DOI: 10.18653/v1/D19-1410
-
Ubiquitous Knowledge Processing Lab Github Account. Multilingual Sentence & Image Embeddings with BERT. URL: https://github.com/UKPLab/sentence-transformers (дата обращения: 31.10.2022).
-
An open source machine learning framework PyTorch. URL: https://pytorch.org/ (дата обращения: 31.10.2022).
Выпуск
Другие статьи выпуска
Исследование и описание свойств алгоритмов крайне важно для их эффективной реализации на различных типах целевых программно-аппаратных платформ. Этой актуальной задаче посвящен проект создания Открытой энциклопедии свойств алгоритмов AlgoWiki, начатый в Московском государственном университете имени М.В. Ломоносова в 2014 году. В рамках проекта была предложена единая универсальная схема описания свойств алгоритмов, в которой особое внимание уделялось свойствам, связанным с параллелизмом. Множество описанных по данной схеме алгоритмов послужило основой описания структуры предметной области в рамках иерархической схемы «Задача-Метод-Алгоритм-Реализация». Однако для дальнейшего развития проекта AlgoWiki потребовалось выделить реализации алгоритмов, ранее включенные в описания свойств алгоритмов, в отдельную сущность. В данной статье изложена схема описания свойств реализаций алгоритмов, также как и модификация изначальной схемы описания свойств самих алгоритмов. Преобразование описаний в энциклопедии AlgoWiki по данной схеме было выполнено для всех страниц проекта, и оно позволяет как более качественно описывать свойства реализаций алгоритмов, так и интегрировать проект энциклопедии AlgoWiki с проектом Algo500, реализующим масштабируемую цифровую платформу для совместного анализа свойств алгоритмов и компьютерных архитектур.
В теории алгебраических байесовских сетей существуют алгоритмы, позволяющие проводить глобальный апостериорный вывод с использованием вторичных структур. При этом построение вторичных структур предполагает использование третичной структуры. Следовательно, возникает вопрос об обособленном применении третичной структуры в задаче апостериорного вывода. Этот вопрос рассматривался ранее, но было приведено только общее описание алгоритма, при этом учитывались лишь модели со скалярными оценками вероятности истинности. В данной работе приведен алгоритм, расширяющий вышеупомянутый до возможности его использования в случае интервальных оценок. Помимо этого, важным свойством алгебраической байесовской сети является ацикличность, и корректность работы перечисленных алгоритмов обеспечивается только для ацикличных сетей. Поэтому необходимо также уметь проверять ацикличность алгебраической байесовской сети с применением третичной структуры. Описание этого алгоритма также представлено в работе, в его основе лежит ранее доказанная теорема, которая связывает количество моделей фрагментов знаний в сети с количеством непустых сепараторов и количеством компонент связности сильных сужений в цикличной АБС, а также доказанная в данной статье теорема о принадлежности двух моделей фрагментов знаний к одной компоненте связности сильного сужения. Для всех разработанных алгоритмов доказана корректность работы, а также вычислена их оценка временной сложности.
Качественные психофизиологические исследования сопряжены с созданием доступных и хорошо организованных баз данных, требующих большую предварительную работу по разработке измерительных комплексов, включающих не только средства для измерения психофизиологических параметров человека, но и его эмоционального состояния, которое отображается в выражении лица, речи и поведенческих паттернах респондентов. Измерительные комплексы должны также включать и средства обработки экспериментального материала. Суть исследования состояла в проведении эксперимента по созданию прототипа базы речевых данных русскоязычных респондентов, получения ответов на методические вопросы, возникающие у специалистов при использовании базы для задачи распознавания состояния утомления человека. Разработан аппаратно-программный комплекс, позволяющий синхронно регистрировать психофизиологические параметры, видеозаписи поведенческих реакций и аудиозапись речи человека. В качестве модели физического утомления использовался кардиореспираторный тест с физической нагрузкой. До прохождения и после завершении теста добровольцы зачитывали набор стандартных фонетически представительных текстов. Полученные аудиозаписи обрабатывались с помощью специализированной нейронной сети, способной анализировать интегральные спектральные характеристики звука. Результаты эксперимента показали возможность распознавания состояния утомления человека по его речи, что позволяет перейти к созданию большого банка аудиозаписей и совершенствованию алгоритмов распознавания состояния утомления.
Прогнозирование живого веса помогает контролировать здоровье животных, эффективно проводить генетическую селекцию и определять оптимальное время убоя. На крупных фермах для измерения живого веса используются точные и дорогостоящие промышленные весы. Взвешивание животного из-за стресса ведет к потере его веса и продуктивности на 5-10%. Однако, перспективной альтернативой является оценка живого веса с помощью морфометрических измерений животного, а затем применение уравнений регрессии, связывающих такие измерения с живым весом. Ручные измерения животных с помощью рулетки отнимают много времени и вызывают стресс у животных. Поэтому в настоящее время для бесконтактных морфометрических измерений все чаще используются технологии компьютерного зрения. В статье предлагается новая модель для прогнозирования живого веса на основе регрессии изображений с использованием методов глубокого обучения. Для регрессии изображений использовались RGB изображения и карты глубины вид сбоку для прогнозирования живого веса крупного рогатого скота. Показано, что на реальных наборах данных предложенная модель достигает точности измерения веса с ошибкой MAE 35.5 и MAPE 8.4 на тестовом наборе данных.
Издательство
- Издательство
- ЮУрГУ
- Регион
- Россия, Челябинск
- Почтовый адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- Юр. адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- ФИО
- Александр Рудольфович Вагнер (Ректор)
- E-mail адрес
- admin@susu.ru
- Контактный телефон
- +7 (351) 2635882
- Сайт
- https://www.susu.ru