ПРИМЕНЕНИЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ДЛЯ ДЕКОМПОЗИЦИИ ТЕКСТОВОЙ ФОРМУЛИРОВКИ ОБРАЗОВАТЕЛЬНОЙ КОМПЕТЕНЦИИ (2023)
Цель исследования - построить модель машинного обучения для декомпозиции текстовой формулировки компетенции. В данной статье рассматриваются методы представления компетенции как множества ключевых слов и терминов. Основное содержание исследования составляет анализ применения двух моделей: BERTopic и ARTM. Описываются основные этапы исследования: сбор и предобработка данных, обучение моделей, анализ и интерпретация результата. В заключении раскрываются преимущества и недостатки применения таких моделей, а также последующие направления исследования.
Идентификаторы и классификаторы
Разреженность модели измеряется долей нулевых элементов в матрицах Φ и Θ. В моделях, разделяющих множество тем на значимые и фоновые, разреженность считается только по столбцам Φ и строкам Θ, соответствующим значимым темам. На практике хорошими значениям разреженности матриц считаются значения, превышающие 90%. Однако, высокие значения разреженности матриц Φ и Θ не всегда являются показателями хорошего качества тематической модели. Описывался эксперимент, в котором на 300 тысячах постов социальной сети при 120 темах показатели разреженности матриц были около 90%, но при этом модель игнорировала большинство слов словаря, что является признаком плохого качества модели [2].
Список литературы
-
Зыкина А. В., Канева О. Н., Мунько В. В., Финк Т. Ю. Роль компетенций в образовании // Ученые Омска - региону: материалы V Регион. науч.-техн. конф (Омск, 13-14 окт. 2020 г.). Омск: Изд-во ОмГТУ, 2020. С. 54-56. 1 CD-ROM. EDN: UBAQCR
-
Воронцов К. В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. М.: Изд-во МФТИ, 2021. 112 с.
-
Вероятностные тематические модели (курс лекций, К. В. Воронцов). URL: http://bit.ly/2EGWcjA (дата обращения: 18.09.2021).
-
Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure. URL: https://arxiv.org/abs/2203.05794 (date accessed: 10.02.2022).
-
J., Chang M.-W., Lee K. [et al.]. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. URL: https://arxiv.org/abs/1810.04805 (date accessed: 17.01.2022).
-
Vaswani A., Shazeer N., Parmar N. [et al.]. Attention Is All You Need. URL: https://arxiv.org/abs/1706.03762 (date accessed: 15.07.2021).
-
Welcome to BigARTM’s documentation! URL: https://bigartm.readthedocs.io/en/latest/in-dex.html (date accessed: 15.07.2021).
-
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Net-works. URL: https://arxiv.org/abs/1908.10084 (date accessed: 21.01.2022).
-
Коэффициент Жаккара. URL: https://ru.wikipedia.org/wiki/Коэффициент_Жаккара (дата обращения: 13.03.2022).
-
Compact high-quality word embeddings for Russian language / natasha/navec: URL: https://github.com/natasha/navec (date accessed: 18.03.2022).
Выпуск
Другие статьи выпуска
Исследуются существующие модели теории массового обслуживания. Произведены расчеты оценки эффективности потока данных для обеспечения пропускной способности между компьютерами и сервером. Проведено тестирование и сравнительный анализ потока данных. Определены дальнейшие перспективы исследования вариантов для оценки эффективности потока данных.
С учетом возрастания размера видео и его качества, возросла необходимость повышения качества сжатия видео, что привело к возникновению новых способов сжатия видео. Также одной из причин появления новых методов является передача видео через стриминговые сервисы. Целью данного исследования является изучение способов сжатия видео и определение сфер применения данных способов. Для достижения поставленной цели был сформирован ряд задач, к которым относится, изучение структуры стримингового сервиса, анализ входной и выходной информации, изучение способов сжатия видео. Итоговым результатов данной работы является вывод, какой способ подходит к определенной сфере и выборе конечного способа для дальнейшего исследования.
В статье описан алгоритм Кавош (Kavosh) для поиска сетевых мотивов (или статистически важных подграфов). Приведены зависимости скорости работы, полученные в результате апробации данного алгоритма на языке программирования Python. Разработанный прототип веб-приложения Motif App применим как для анализа ориентированных, так и неориентированных графов.
В статье предложена реализация простого интеллектуального помощника, работающего по модели классификации намерений. Предложен алгоритм распределенной платформы, которая определяет намерение пользователя и отвечает заготовленным ответом в один из каналов. Представлен пайплайн обработки данных и модель, работающая с полными и разреженными признаками. Обучены несколько архитектур, выбрана лучшая, с учётом метрик быстродействия и точности.
Рассматриваются регулярные, контекстно-свободные и контекстно-зависимые грамматики, их основные свойства и возможности применения при создании документов на основе шаблона в формате LaTeX. Описывается конкретный набор грамматик, которые могут использоваться для разбора структуры документов, включая описание таблиц, списков и блоков текста. Применение данного подхода может значительно упростить и автоматизировать процесс создания и редактирования документов.
В статье представлен метод встраивания данных, основанный на стеганографических алгоритмах, который скрывает информацию в изображениях SVG формата. Встраивание скрытых данных производится с помощью классов. Алгоритм извлечения данных происходит с помощью тэгов по атрибуту. Проведено экспериментальное исследование устойчивости предложенного алгоритма. Для эксперимента было выбрано 100 сайтов с произвольным количество изображений формата SVG. В такие изображения встроена информация разного размера, скрытая в классах дочерних svg тэгов. Предложенный алгоритм может быть использован для передачи скрытых данных в сети Интернет и встраивания цифровых водяных знаков.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/