АЛГОРИТМ ОПТИМИЗАЦИИ ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ НА ОСНОВЕ ПРИМЕНЕНИЯ ЛИНГВИСТИЧЕСКОГО ПАРСЕРА (2024)
В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.
Идентификаторы и классификаторы
- eLIBRARY ID
- 64321625
В динамичном мире обработки естественного языка (Natural Language Processing, NLP) синтаксический анализ (парсинг) играет ключевую роль в раскрытии сложностей естественного языка. Как основа к пониманию структуры и смысла предложений, парсеры служат незаменимыми инструментами в различных задачах NLP, позволяя машинам воспринимать и обрабатывать естественный язык с более высокой точностью и эффективностью. От анализа настроений до машинного перевода, а также для систем вопросов и ответов, парсеры играют ключевую роль в преобразовании предложений в синтаксические структуры, что в свою очередь облегчает более точную и контекстно значимую обработку языка. Разбивая предложения на понятные единицы, парсеры создают фундамент для машинного понимания семантики и взаимосвязей между словами, делая возможным достижение более сложных и тонких результатов в различных приложениях [1 – 3], поэтому создание эффективных текстовых парсеров является весьма актуальной научной проблемой в настоящее время.
Основные подходы к синтаксическому парсингу включают синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Анализ составляющих и зависимостей – это взаимодополняющие подходы, которые направлены на анализ синтаксической структуры предложений. Эти методы анализа предоставляют ценные сведения о грамматической структуре и семантических отношениях в предложении [3].
Список литературы
- Brown T., Mann B., Ryder N., Subbiah M., Kaplan J.D., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., et al. Language models are few-shot learners // Advances in neural information processing systems. 2020. vol. 33. pp. 1877-1901.
- Zhang Y., Clark S. A tale of two parsers: Investigating and combining graph-based and transition-based dependency parsing // Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. 2008. pp. 562-571.
- Gao L., Madaan A., Zhou S., Alon U., Liu P., Yang Y., Callan J., Neubig G. Pal: Program aided language models. 2023. pp. 10764-10799.
- Kravchenko Yu.A., Bova V.V., Kuliev E.V., Rodzin S.I. Simulation of the semantic network of knowledge representation in intelligent assistant systems based on ontological approach // Futuristic Trends in Network and Communication Technologies: Third International Conference, FTNCT. 2021. pp. 241-252. EDN: QCHZGK
- Chen D., Manning C.D. A fast and accurate dependency parser using neural networks // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. pp. 740-750.
- Kiperwasser E., Goldberg Y. Simple and accurate dependency parsing using bidirectional LSTM feature representations // Transactions of the Association for Computational Linguistics. 2016. vol. 4. pp. 313-327.
- Kulmizev A., de Lhoneux M., Gontrum J., Fano E., Nivre J. Deep Contextualized Word Embeddings in Transition-Based and Graph-Based Dependency Parsing - A Tale of Two Parsers Revisited // arXiv preprint arXiv: 07397. 2019.
- Vasiliev Y. Natural language processing with Python and SpaCy: A practical introduction. No Starch Press, 2020. 216 p.
- Qi P., Zhang Y., Zhang Y., Bolton J., Manning C.D. Stanza: A Python natural language processing toolkit for many human languages // arXiv preprint arXiv: 07082. 2020.
-
Gardner M., Grus J., Neumann M., Tafjord O., Dasigi P., Liu N., Peters M., Schmitz M., Zettlemoyer L. Allennlp: A deep semantic natural language processing platform // arXiv preprint arXiv: 07640. 2018.
-
Yamada H., Matsumoto Y. Statistical dependency analysis with support vector machines // Proceedings of the eighth international conference on parsing technologies. 2003. pp. 195-206.
-
Nivre J. An efficient algorithm for projective dependency parsing // Proceedings of the eighth international conference on parsing technologies. 2003. pp. 149-160.
-
Kim G., Baldi P., McAleer S. Language models can solve computer tasks. arXiv preprint arXiv:2303.17491. 2023.
-
Liu B., Jiang Y., Zhang X., Liu Q., Zhang S., Biswas J., Stone P. Llm+p: Empowering large language models with optimal planning proficiency. arXiv preprint arXiv:2304.11477. 2023.
-
Pei W., Ge T., Chang B. An effective neural network model for graph-based dependency parsing // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015. vol. 1. pp. 313-322.
-
McDonald R., Crammer K., Pereira F. Online large-margin training of dependency parsers // Proceedings of the 43rd annual meeting of the association for computational linguistics (ACL'05). 2005. pp. 91-98.
-
Eisner J. Three new probabilistic models for dependency parsing: An exploration // arXiv preprint cmp-lg/ 9706003. 1997.
-
Tenney I., Das D., Pavlick E. BERT rediscovers the classical NLP pipeline // arXiv preprint arXiv: 05950. 2019.
-
Hewitt J., Manning C.D. A structural probe for finding syntax in word representations // Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. vol. 1. pp. 4129-4138.
-
Dozat T., Manning C.D. Deep biaffine attention for neural dependency parsing // arXiv preprint arXiv: 01734. 2016.
-
Mao X., Huang S., Li R., Shen L. Automatic keywords extraction based on co-occurrence and semantic relationships between words // IEEE Access. 2020. vol. 8. pp. 117528-117538.
-
Yang S., Nachum O., Du Y., Wei J., Abbeel P., Schuurmans D. Foundation models for decision making: Problems, methods, and opportunities. arXiv preprint arXiv:2303.04129. 2023.
-
Honnibal M., Johnson M. An Improved Non-monotonic Transition System for Dependency Parsing. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing - Lisbon, Portugal: Association for Computational Linguistics. 2015. pp. 1373-1378. DOI: 10.18653/v1/D15-1162
-
Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword extraction from single documents using multiple local features // Information Sciences. 2020. vol. 509. pp. 257-289. EDN: RLBHLY
-
Rose S., Engel D., Cramer N., Cowley W. Automatic keyword extraction from individual documents // Text mining: applications theory. 2010. pp. 1-20.
-
Hulth A. Improved automatic keyword extraction given more linguistic knowledge // Proceedings of the 2003 conference on Empirical methods in natural language processing. 2003. pp. 216-223.
Выпуск
Другие статьи выпуска
Одним из основных подходов к обработке, анализу и визуализации геофизических данных является применение геоинформационных систем и технологий, что обусловлено их геопространственной привязкой. Вместе с тем, сложность представления геофизических данных связана с их комплексной структурой, предполагающей множество составляющих, которые имеют одну и ту же геопространственную привязку. Яркими примерами данных такой структуры и формата являются гравитационные и геомагнитные поля, которые в общем случае задаются трех и четырехкомпонентными векторами с разнонаправленными осями координат. При этом на сегодняшний день отсутствуют решения, позволяющие визуализировать указанные данные в комплексе, не декомпозируя их на отдельные скалярные значения, которые, в свою очередь, могут быть представлены в виде одного или многих пространственных слоев. В этой связи в работе предложена концепция, использующая элементы тензорного исчисления для обработки, хранения и визуализации информации такого формата. Формализован механизм тензорного представления компонент поля с возможностью его комбинирования с другими данными такого же формата, с одной стороны, и свертки при сочетании с данными более низкого ранга. На примере гибридной реляционно-иерархической модели данных предложен механизм хранения информации по тензорным полям, предусматривающий возможность описания и применения инструкций по трансформации при переходе между различными системами координат. В работе рассматривается применение подхода при переходе от декартовой к сферической системе координат при представлении параметров геомагнитного поля. Для комплексной визуализации параметров тензорного поля предложен подход, основанный на применении тензорных глифов. В качестве последних при этом используются суперэллипсы с осями, соответствующими рангу тензора. При этом атрибутивные значения предлагается визуализировать относительно осей графического примитива таким образом, что распределение данных может быть задано посредством варьирования градиента монохромного представления параметра вдоль оси. Работоспособность концепции была исследована в ходе сравнительного анализа тензорного подхода с решениями, основанными на скалярной декомпозиции соответствующих комплексных значений с последующим их представлением в виде одного или многих пространственных слоев. Проведенный анализ показал, что применение предложенного подхода позволит в значительной степени повысить наглядность формируемого геопространственного изображения без необходимости сложного перекрывания пространственных слоев.
Оценка рисков информационной безопасности является важнейшим компонентом методов промышленного менеджмента, который помогает выявлять, количественно определять и оценивать риски в сравнении с критериями принятия рисков и целями, относящимися к организации. Благодаря своей способности комбинировать несколько параметров для определения общего риска традиционный метод оценки рисков, основанный на нечетких правилах, используется во многих отраслях промышленности. Этот метод имеет недостаток, поскольку он используется в ситуациях, когда необходимо оценить несколько параметров, и каждый параметр выражается различным набором лингвистических фраз. В этой статье представлены теория нечетких множеств и модель прогнозирования рисков с использованием искусственной нейронной сети (ANN), которые могут решить рассматриваемую проблему. Также разработан алгоритм, который может изменять факторы, связанные с риском, и общий уровень риска с нечеткого свойства на атрибут с четким значением. Система была обучена с использованием двенадцати выборок, представляющих 70%, 15% и 15% набора данных для обучения, тестирования и валидации соответственно. Кроме того, также была разработана пошаговая регрессионная модель, и ее результаты сравниваются с результатами ANN. С точки зрения общей эффективности, модель ANN (R2= 0,99981, RMSE=0,00288 и MSE=0,00001) показала лучшую производительность, хотя обе модели достаточно удовлетворительны. Делается вывод, что модель ANN, прогнозирующая риск, может давать точные результаты до тех пор, пока обучающие данные учитывают все мыслимые условия.
В стремительно развивающейся цифровой эпохе интерфейсы человеко-машинного взаимодействия непрерывно совершенствуется. Традиционные методы взаимодействия с компьютером, такие как мышь и клавиатура, дополняются и даже заменяются более интуитивными способами, которые включают технологии отслеживания глаз. Обычные методы отслеживания глаз используют камеры, которые отслеживают направление взгляда, но имеют свои ограничения. Альтернативным и многообещающим подходом к отслеживанию глаз является использование электроэнцефалографии, техники измерения активности мозга. Исторически ЭЭГ была ограничена в основном лабораторными условиями. Однако мобильные и доступные устройства для ЭЭГ появляются на рынке, предлагая более универсальное и эффективное средство для регистрации биопотенциалов. В данной статье представлен метод локализации взгляда с использованием электроэнцефалографии, полученной с помощью мобильного регистратора ЭЭГ в виде носимой головной повязки (компании BrainBit). Это исследование направлено на декодирование нейрональных паттернов, связанных с разными направлениями взгляда, с использованием продвинутых методов машинного обучения, в частности, нейронных сетей. Поиск паттернов выполняется как с использованием данных, полученных с помощью носимых очков с камерой для отслеживания глаз, так и с использованием неразмеченных данных. Полученные в исследовании результаты демонстрируют наличие зависимости между движением глаз и ЭЭГ, которая может быть описана и распознана с помощью предсказательной модели. Данная интеграция мобильной технологии ЭЭГ с методами отслеживания глаз предлагает портативное и удобное решение, которое может быть применено в различных областях, включающих медицинские исследования и разработку более интуитивных компьютерных интерфейсов.
Гидроцефалия - это заболевание центральной нервной системы, которое чаще всего поражает младенцев и детей ясельного возраста. Оно начинается с аномального накопления спинномозговой жидкости в желудочковой системе головного мозга. Следовательно, жизненно важной становится ранняя диагностика, которая может быть выполнена с помощью компьютерной томографии (КТ), одного из наиболее эффективных методов диагностики гидроцефалии (КТ), при котором становится очевидным увеличение желудочковой системы. Однако большинство оценок прогрессирования заболевания основаны на оценке рентгенолога и физических показателях, которые являются субъективными, отнимающими много времени и неточными. В этой статье разрабатывается автоматическое прогнозирование с использованием фреймворка H-detect для повышения точности прогнозирования гидроцефалии. В этой статье используется этап предварительной обработки для нормализации входного изображения и удаления нежелательных шумов, что может помочь легко извлечь ценные признаки. Выделение признаков осуществляется путем сегментации изображения на основе определения границ с использованием треугольных нечетких правил. Таким образом, выделяется точная информация о природе ликвора внутри мозга. Эти сегментированные изображения сохраняются и снова передаются алгоритму CatBoost. Обработка категориальных признаков позволяет ускорить обучение. При необходимости детектор переобучения останавливает обучение модели и, таким образом, эффективно прогнозирует гидроцефалию. Результаты демонстрируют, что новая стратегия H-detect превосходит традиционные подходы.
Несмотря на широкое применение во многих областях, точная и эффективная идентификация деятельности человека продолжает оставаться интересной исследовательской проблемой в области компьютерного зрения. В настоящее время проводится много исследований по таким темам, как распознавание активности пешеходов и способы распознавания движений людей с использованием данных глубины, трехмерных скелетных данных, данных неподвижных изображений или стратегий, использующих пространственно-временные точки интереса. Это исследование направлено на изучение и оценку подходов DL для обнаружения человеческой активности на видео. Основное внимание было уделено нескольким структурам для обнаружения действий человека, которые используют DL в качестве своей основной стратегии. В зависимости от приложения, включая идентификацию лиц, идентификацию эмоций, идентификацию действий и идентификацию аномалий, прогнозы появления людей разделены на четыре различные подкатегории. В литературе было проведено несколько исследований, основанных на этих распознаваниях для прогнозирования поведения и активности человека в приложениях видеонаблюдения. Сравнивается современное состояние методов DL для четырех различных приложений. В этой статье также представлены области применения, научные проблемы и потенциальные цели в области распознавания человеческого поведения и активности на основе DL.
Проведены исследования возможностей аугментации (искусственного размножения) обучающих данных в задаче классификации с использованием деформирующих преобразований обрабатываемых изображений. Представлены математическая модель и быстродействующий алгоритм выполнения деформирующего преобразования изображения, при использовании которых исходное изображение преобразуется с сохранением своей структурной основы и отсутствием краевых эффектов. Предложенный алгоритм используется для аугментации наборов изображений в задаче классификации, содержащих относительно небольшое количество обучающих примеров. Аугментация исходной выборки осуществляется в два этапа, включающих зеркальное отображение и деформирующее преобразование каждого исходного изображения. Для проверки эффективности подобной техники аугментации в статье проводится обучение нейронных сетей - классификаторов различного вида: сверточных сетей стандартной архитектуры (convolutional neural network, CNN) и сетей с остаточными связями (deep residual network, DRN). Особенностью реализуемого подхода при решении рассматриваемой задачи является также отказ от использования предобученных нейронных сетей с большим количеством слоев и дальнейшим переносом обучения, поскольку их применение несет за собой затраты с точки зрения используемого вычислительного ресурса. Показано, что эффективность классификации изображений при реализации предложенного метода аугментации обучающих данных на выборках малого и среднего объема повышается до статистически значимых значений используемой метрики.
В современном мире Интернет вещей стал неотъемлемой частью нашей жизни. Растущее число умных устройств и их повсеместное распространение усложняют разработчикам и системным архитекторам эффективное планирование и внедрение систем Интернета вещей и промышленного Интернета вещей. Основная цель данной работы - автоматизировать процесс проектирования промышленных систем Интернета вещей при оптимизации параметров качества обслуживания, срока службы батареи и стоимости. Для достижения этой цели вводится общая четырехуровневая модель туманных вычислений, основанная на математических множествах, ограничениях и целевых функциях. Эта модель учитывает различные параметры, влияющие на производительность системы, такие как задержка сети, пропускная способность и энергопотребление. Для нахождения Парето-оптимальных решений используется генетический недоминируемый алгоритм сортировки II, а для определения компромиссных решений на Парето-фронте - метод определения порядка предпочтения по сходству с идеальным решением. Оптимальные решения, сгенерированные этим подходом, представляют собой серверы, коммуникационные каналы и шлюзы, информация о которых хранится в базе данных. Эти ресурсы выбираются на основе их способности улучшить общую производительность системы. Предлагаемая стратегия следует трехэтапному подходу для минимизации размерности и уменьшения зависимостей при исследовании пространства поиска. Кроме того, сходимость оптимизационных алгоритмов улучшается за счет использования предварительно настроенной начальной популяции, которая использует существующие знания о том, как должно выглядеть решение. Алгоритмы, используемые для генерации этой начальной популяции, описываются подробно. Для иллюстрации эффективности автоматизированной стратегии приводится пример ее применения.
В качестве маркера, характеризующего загрязнение воздуха в приземном слое атмосферы современных городов, часто используется уровень концентрации твердых частиц диаметром 2.5 микрона и меньше (Particulate Matter, PM2.5). В работе обсуждается практика применения для измерения концентрации PM2.5 в условиях городской среды относительно дешевого оптического датчика, входящего в состав станции CityAir. В статье предложена статистически обоснованная корректировка получаемых станциями CityAir первичных данных о значениях концентрации взвешенных частиц PM2.5 в приземном слое атмосферы г. Красноярска. Для построения регрессионных моделей эталонными считались измерения, получаемые от анализаторов E-BAM, расположенных на тех же постах наблюдения, что и корректируемые датчики. Для анализа использовались первичные данные 1) с 9 автоматизированных постов наблюдения краевой ведомственной информационно-аналитической системы данных о состоянии окружающей среды Красноярского края (КВИАС); 2) с 21-й станции CityAir системы мониторинга Красноярского научного центра СО РАН. В работе продемонстрировано, что при корректировке показаний датчиков необходимо учитывать метеорологические показатели. Кроме того, показано, что коэффициенты регрессии существенно зависят от сезона. Проведено сравнение методов обучения с учителем для решения задачи корректировки показаний недорогих датчиков. Дополнительная информация по результатам анализа данных, не вошедшая в текст статьи, размещена на электронном ресурсе https://asm.krasn.ru/.
Статья посвящена исследованию одноканальной системы массового обслуживания. На вход системы подаются два стационарных пуассоновских потока заявок. Первый из них обладает абсолютным приоритетом по отношению ко второму. Емкость системы ограничена k заявками. В системе присутствует вероятностный выталкивающий механизм: если подошедшая высокоприоритетная заявка застает все места в накопителе занятыми, то она с заданной вероятностью выталкивания a может вытеснить из накопителя одну низкоприоритетную заявку, если таковые в нем имеются. Все заявки обслуживаются по одному и тому же показательному закону. Заявки, не сумевшие попасть в систему из-за ограниченности объема накопителя, а также вытесненные из накопителя при срабатывании выталкивающего механизма, не теряются сразу безвозвратно, а направляются в особую часть системы, называемую орбитой и предназначенную для сохранения повторных заявок. На орбите формируются две отдельные неограниченные очереди, состоящие, соответственно, из низкоприоритетных и высокоприоритетных повторных заявок. При отсутствии свободного места в накопителе вновь подошедшие заявки с заданной вероятностью настойчивости q присоединяются к соответствующей орбитальной очереди. Время пребывания повторных заявок на орбите распределено по показательному закону, параметр этого закона различается для разных типов требований. После ожидания на орбите вторичные заявки вновь направляются в систему. Вероятностные характеристики описанной системы рассчитываются методом производящих функций, ранее предложенным авторами для расчета аналогичных систем без повторных требований. Детально исследуется зависимость вероятностей потери обоих типов заявок от параметров системы, прежде всего от вероятности выталкивания a, емкости системы k и вероятности повторного обращения (вероятности настойчивости) q. Показано, что ранее выявленные в аналогичных задачах без повторных обращений эффект запирания системы и эффект линейности закона потерь сохраняют свою силу и при наличии вторичных заявок. Теоретические результаты подкрепляются численными расчетами. Построены области запирания системы и области действия линейного закона потерь. Исследуется влияние вероятности повторного обращения q на форму этих областей, а также на кривые зависимости вероятностей потери обоих типов заявок от вероятности выталкивания a.
Издательство
- Издательство
- СПБНЦ
- Регион
- Россия, Санкт-Петербург
- Почтовый адрес
- 199034, Санкт-Петербург, Университетская наб., 5
- Юр. адрес
- 199034, Санкт-Петербург, Университетская наб., 5
- ФИО
- Орлова Марина Ивановна (ИСПОЛНЯЮЩАЯ ОБЯЗАННОСТИ ДИРЕКТОРА)
- E-mail адрес
- office@spbrc.nw.ru
- Контактный телефон
- +8 (812) 3283787
- Сайт
- https://spbrc.ru/