РЕАЛИЗАЦИЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ СОДЕРЖИМОГО ВЕБ-СТРАНИЦЫ (2023)
Исследуется задача разработки краткого описания текста веб-страницы. Краткое описание создано за счет использования архитектуры машинного обучения Transformer, которая в предварительно обученном состоянии позволяет суммаризировать текст. По ходу реализации исследована модель генерирующего реферирования текста. Исследованы возможности модели, за счет каких особенностей она способна обрабатывать и аннотировать текст. Проанализированы результаты работы модели и сравнены с итогами работы других моделей реферирования, благодаря чему объясняется выбор изученной модели.
Идентификаторы и классификаторы
При использовании оценки на экране отображаются три результата: ROUGE-1, ROUGE-2 и ROUGE-L. ROUGE-1 основана на совпадении отдельного слова в первоначальных и обработанных данных, ROUGE-2 – на совпадении последовательности из двух слов, а ROUGE-L – оценке самой длинной последовательности совпавших слов. По итогу работы модели T5 и двух оценивающих метрик на примере страницы документации Microsoft про BLEU было определено следующее: оценка BLEU выдала значение 0,177, а оценка ROUGE – три значения: 0,622, 0,381 и 0,438. Показатель метрики BLEU объясняется специфичной работой модели, которая во время анализа текста не просто убирает лишние слова, а еще и пытается перефразировать сжатый текст для приведения в форму, более удобную для чтения. Поэтому метрика при виде слов, не встречающихся в оригинальном тексте, существенно уменьшает значение. Соответственно из-за того, что слова из выходных данных все же встречаются в первоначальном тексте, хороший результат показывает вторая метрика.
Список литературы
-
Raffel C., Shazeer N., Roberts A. [et al.]. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // Journal of Machine Learning Research. 2020. Vol. 21. Р. 1-67.
-
Глубокое обучение для новичков: тонкая настройка нейронной сети. URL: https://habr.com/ru/companies/wunderfund/articles/315476/(дата обращения: 17.04.2023).
-
L1 и L2 регуляризация. URL: https://python-school.ru/blog/regularization-l1-l2/(дата обращения: 19.04.2023).
-
Cross-Entropy Loss Function. A loss function used in most.. URL: https://towardsdatascience.com/cross-entropy-loss-function-f38c4ec8643e (дата обращения: 20.04.2023).
-
ML: Attention - Механизм внимания. URL: https://qudata.com/ml/ru/NN_Attention.html (дата обращения: 22.04.2023).
-
Understanding BLEU and ROUGE score for NLP evaluation. URL: https://medium.com/@sthanikamsanthosh1994/understanding-bleu-and-rouge-score-for-nlp-evaluation-1ab334ecadcb (дата обращения: 29.04.2023).
-
Evaluation Metrics in Natural Language Processing - BLEU. URL: https://medium.com/@priyankads/evaluation-metrics-in-natural-language-processing-bleu-dc3cfa8faaa5 (дата обращения: 29.04.2023).
Выпуск
Другие статьи выпуска
Предложен метод расчета температурного поля с фазовым переходом. Использован метод конечных элементов. Задача решена в трехмерной постановке с учетом зависимости теплофизических характеристик материалов от температуры. Данная методика основана на введении эквивалентного коэффициента теплоемкости материала в зоне фазового перехода. Произведен тестовый расчет нестационарного температурного поля МКЭ таяния массы льда и сравнение его с аналитическим расчетом. Получено удовлетворительное совпадение результатов. Указанная методика реализована и используется для выполнения нестационарных температурных расчетов при определении глубины промерзания грунта, а также расчетов в районах вечной мерзлоты при прокладке теплотрасс и других сооружений. По этой методике разработана программа «Temper-3d», имеющая сертификат соответствия. Программа зарегистрирована в реестре программ для ЭВМ.
Для определения и извлечения сущностей и связей используются методы анализа текста, такие как метод обнаружения именованных сущностей и метод классификации ролей. Для повышения точности и эффективности извлечения применяются такие методы, как метод опорных векторов и метод условных случайных полей. Предложенный подход демонстрирует многообещающие результаты в точной и эффективной разметке образовательных материалов на математические термины.
Исследуются алгоритмы теории графов для поиска критических путей в акторных системах для определения наиболее проблемных мест. Используется алгоритм преобразования диаграммы процессов в направленный граф для изучения и улучшения работы моделей бизнес-процессов. Исследуются муравьиные алгоритмы для определения использования частоты узла графа в кратчайших путях между другими узлами.
В работе приведен подход разбиения учебных дисциплин образовательного направления по тематическим областям с помощью машинного обучения. Предложен алгоритм кластеризации на основе векторного представления дескрипторных сущностей дисциплин. Выполнены процессы предобработки данных, обучения, подбора параметров и использования модели, проведены эксперименты с различными методами кластеризации. Представлен способ назначения названий для полученных областей. Проведен эксперимент на дисциплинах образовательного направления для проверки эффективности модели.
В работе рассматривается применение имитационного моделирования для оптимизации процессов производства катализаторов. Рассматриваются формулировка и решение задача по построению имитационной модели на базе производства. На основе построенной модели проведено несколько экспериментов. Выполнен анализ результатов.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/