ISSN 1818-1015 · EISSN 2313-5417

· Язык: ru

Статья: Методология иерархического многозадачного обучения нейронных сетей типа ERNIE 3 для анализа и генерации русскоязычных текстов (2025)

Читать

Статья Литература Выпуск Статистика Издательство

Читать онлайн

Статья посвящена разработке методологии иерархического многозадачного обучения нейронных сетей, основанной на принципах архитектуры ERNIE 3, и экспериментальной апробации данной методологии на базе модели FRED-T5 для задач анализа и генерации текстов на русском языке. Иерархическое многозадачное обучение является перспективным подходом к созданию универсальных языковых моделей, способных эффективно решать разнообразные задачи обработки естественного языка (NLP). Предложенная методология объединяет преимущества специализированных энкодерных блоков для задач понимания текста (NLU) и общего декодера для генеративных задач (NLG), что позволяет повысить производительность модели и снизить вычислительные затраты. В работе проведён сравнительный анализ эффективности разработанной методологии на открытом бенчмарке Russian SuperGLUE с использованием предварительно обученной русскоязычной модели FRED-T5-1.7B. Экспериментальные результаты подтвердили существенное улучшение качества модели в режимах zero-shot и few-shot по сравнению с базовой конфигурацией. Дополнительно рассмотрены возможности практического применения разработанного подхода в решении реальных NLP-задач, а также даны рекомендации по дальнейшему развитию методологии и её интеграции в прикладные системы обработки русскоязычных текстов.

Ключевые фразы: иерархическое многозадачное обучение, fred-t5, обработка естественного языка, нейронные сети, генерация текста, АНАЛИЗ ТЕКСТА, zero-shot обучение, few-shot обучение, seq2seq модели

Автор (ы): Середкин Александр Валерьевич (Seredkin A. V.), Тотмина Екатерина Вадимовна (Totmina E. V.)

Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI: Информатика
УДК: 004.852. Статистическое обучение и параметрическое обучение

Для цитирования:

СЕРЕДКИН А. В., ТОТМИНА Е. В. МЕТОДОЛОГИЯ ИЕРАРХИЧЕСКОГО МНОГОЗАДАЧНОГО ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ ТИПА ERNIE 3 ДЛЯ АНАЛИЗА И ГЕНЕРАЦИИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ // МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ. 2025. Т. 32, № 3

Текстовый фрагмент статьи

Моя история просмотров (10)

01. Статья: Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR

02. Статья: Функции хронотопа в поэмах Англосаксонской хроники

03. Статья: Видовое деление исландских саг и «хронотоп» М. М. Бахтина

04. Статья: Миф о рождении Зевса на острове Крит: византийский оригинал, венецианская копия и парижское ренессансное произведение

05. Статья: Вычислительные аспекты S-дифференцируемости функций нескольких переменных

06. Статья: УГРОЗНЫЙ УНИВЕРСУМ СОВРЕМЕННОСТИ И ЕГО ПЕРСПЕКТИВЫ

07. Статья: Восприятие пространства и его доместикация в древнескандинавской культуре

08. Статья: ИМЕНОВАНИЯ ХРИСТИАНСКОГО ПРАЗДНИКА УСПЕНИЕ ПРЕСВЯТОЙ БОГОРОДИЦЫ В РУССКОМ И ПОЛЬСКОМ ЯЗЫКАХ (ЛИНГВОКУЛЬТУРОЛОГИЧЕСКИЙ АСПЕКТ)

09. Статья: АДАПТАЦИЯ СИСТЕМЫ УПРАВЛЕНИЯ ПЕРВИЧНЫМ РЫНКОМ ЗЕМЛИ К УСЛОВИЯМ ЦИФРОВОЙ ТРАНСФОРМАЦИИ (НА ПРИМЕРЕ ПЕНЗЕНСКОЙ ОБЛАСТИ)

10. Статья: Спектры мягкого рентгеновского излучения в режиме ЭЦР-нагрева плазмы с удельной мощностью нагрева до 3 МВт/м3 на стеллараторе Л-2М

Список литературы

1. T. Brown et al., “Language models are few-shot learners,” Advances in Neural Information Processing Systems, vol. 33, pp. 1877-1901, 2020.
2. H. Touvron et al., “LLaMA: Open and Efficient Foundation Language Models.” 2023.
3. A. Chowdhery et al., “Palm: Scaling language modeling with pathways,” Journal of Machine Learning Research, vol. 24, no. 240, pp. 1-113, 2023.
4. C. Raffel et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of Machine Learning Research, vol. 21, no. 140, pp. 1-67, 2020.
5. Y. Zhu et al., “Can Large Language Models Understand Context?,” in Findings of the Association for Computational Linguistics: EACL 2024, 2024, pp. 2004-2018.
6. D. Khurana, A. Koli, K. Khatter, and S. Singh, “Natural language processing: state of the art, current trends, challenges,” Multimedia Tools, Applications, vol. 82, pp. 3713-3744, 2023, https://doi.org/10.1007/s11042-022-13428-4.
7. D. Hupkes et al., “A taxonomy, review of generalization research in NLP,” Nature Machine Intelligence, vol. 5, pp. 1161-1174, 2023, https://doi.org/10.1038/s42256-023-00729-y.
8. P. P. Ray, “ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope,” Internet of Things and Cyber-Physical Systems, vol. 3, pp. 121-154, 2023.
9. Y. Yang and Z. Xue, “Training Heterogeneous Features in Sequence to Sequence Tasks: Latent Enhanced Multi-filter Seq2Seq Model,” in Intelligent Systems, Applications, 2023, pp. 103-117.
10. Y. Sun et al., “ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation.” 2021.
11. D. Zmitrovich et al., “A Family of Pretrained Transformer Language Models for Russian,” in Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 2024, pp. 507-524.
12. M. Song and Y. Zhao, “Enhance RNNLMs with Hierarchical Multi-Task Learning for ASR,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 6102-6106.
13. A. Vaswani et al., “Attention Is All You Need,” in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998-6008.
14. V. Sanh et al., “Multitask Prompted Training Enables Zero-Shot Task Generalization.” 2022.
15. Y. Tay et al., “UL2: Unifying Language Learning Paradigms.” 2023.
16. Y. Bengio, J. Louradour, R. Collobert, and J. Weston, “Curriculum Learning,” in Proceedings of the 26th International Conference on Machine Learning, 2009, pp. 41-48.
17. I. Misra, A. Shrivastava, A. Gupta, and M. Hebert, “Cross-stitch networks for multi-task learning,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3994-4003.
18. Y. Sun et al., “ERNIE 2.0: A continual pre-training framework for language understanding,” in Proceedings of the AAAI conference on Artificial Intelligence, 2020, vol. 34, no. 05, pp. 8968-8975.
19. L. Xue et al., “mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer,” in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 483-498, https://doi.org/10.18653/v1/2021.naacl-main.41.
20. S. Wang et al., “ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation.” 2021.
21. J. Pfeiffer, A. Kamath, A. R“uckl’e, K. Cho, and I. Gurevych, “AdapterFusion: Non-Destructive Task Composition for Transfer Learning,” in Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 2021, pp. 487-503, https://doi.org/10.18653/v1/2021.eacl-main.39.
22. W. Fedus, B. Zoph, and N. Shazeer, “Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,” Journal of Machine Learning Research, vol. 23, no. 120, pp. 1-39, 2022.
23. S. Longpre et al., “The flan collection: Designing data and methods for effective instruction tuning,” in Proceedings of the International Conference on Machine Learning, 2023, pp. 22631-22648.
24. N. Houlsby et al., “Parameter-efficient transfer learning for NLP,” in Proceedings of the International Conference on Machine Learning, 2019, pp. 2790-2799.
25. H. A. A. Al-Khamees, M. E. Manaa, Z. H. Obaid, and N. A. Mohammedali, “Implementing Cyclical Learning Rates in Deep Learning Models for Data Classification,” in Proceedings of the International Conference on Forthcoming Networks and Sustainability in the AIoT Era, 2024, pp. 205-215.
26. A. Koloskova, H. Hendrikx, and S. U. Stich, “Revisiting gradient clipping: Stochastic bias and tight convergence guarantees,” in Proceedings of the International Conference on Machine Learning, 2023, pp. 17343-17363.

Выпуск

Т. 32, № 3 (2025)

Кол-во страниц: 59 страниц

Другие статьи выпуска

Моделирование скрытого аттрактора в системе Чуа на основе аналоговой схемы с операционными усилителями (2025)

Авторы: Пчелинцев А. Н.

В статье рассматривается аналоговая схема (аналоговый компьютер), в которой динамика изменения напряжений описывается системой Чуа. Найдены начальные состояния (установка начальных напряжений), которые выводят схему на предельный режим работы — скрытый аттрактор — устойчивый предельный цикл с частотой примерно 0,5 Гц. При этом получаемые сигналы имеют форму, близкую к гармоническому сигналу. Разработанная схема-генератор колебаний содержит семь операционных усилителей, не имеет мемристора, что дает значительное удешевление стоимости сборки; не имеет катушек индуктивности, что устраняет проблемы их изготовления, и гираторов. Определены значения номиналов сопротивлений и емкостей, соответствующих рассматриваемым параметрам системы. Один из инверторов схемы на базе операционного усилителя моделирует нелинейность типа упора, присутствующую в системе Чуа, периодически входя в состояния насыщения. После сборки устройства выходные сигналы схемы, соответствующие фазовым координатам системы Чуа, записаны в текстовый файл через шаг по времени с помощью цифрового осциллографа. Уточнены (идентифицированы) параметры математической модели в разработанной автором компьютерной программе, проверена адекватность модели по коэффициенту детерминации и критерию Фишера. Также численно исследуя устойчивость по Пуассону найденного режима в системе Чуа, определен период и частота полученного цикла, проведено сравнение с частотой, которую дает цифровой осциллограф.

Сохранить в закладках

Алгоритм исследования динамики пространственно-распределенного логистического уравнения с запаздыванием и учетом миграции (2025)

Авторы: Кащенко Д. С., Логинов Д. О., Толбей А. О.

Рассматривается важное в математической экологии логистическое уравнение с запаздыванием и диффузией. Предполагается, что граничные условия на одном из концов отрезка [0,1] содержат параметр. Исследован вопрос о локальной — в окрестности состояния равновесия — динамике соответствующей краевой задачи при всех значениях параметров граничных условий. Выделены критические случаи в задаче об устойчивости состояния равновесия и построены нормальные формы — скалярные комплексные обыкновенные дифференциальные уравнения первого порядка. Их нелокальная динамика определят поведение решений исходной задачи в малой окрестности состояния равновесия.

Сохранить в закладках

Вычислительные аспекты S-дифференцируемости функций нескольких переменных (2025)

Авторы: Морозов А. Н.

Исследование различных процессов приводит к необходимости уточнения (расширения) границ применимости вычислительных конструкций и инструментов моделирования. Целью данной статьи является развитие разложения Тейлора для функций нескольких переменных на основе понятия -дифференцируемости. Функцию из, где — -мерный куб, назовём -дифференцируемой во внутренней точке этого куба, если существует алгебраический многочлен степени не выше первой, для которого равномерно по всем векторам единичной сферы интеграл по с пределами и от выражения есть при. Показано, что при таком определении справедливо дифференцирование сложной функции с линейной внутренней компонентой, имеет место принцип вектора-градиента. Доказан следующий результат. Пусть функция имеет в некоторой окрестности внутренней точки непрерывные частные производные до порядка включительно, которые -дифференцируемы в точке, тогда в этой окрестности справедливо разложение Тейлора функции с точностью.

Сохранить в закладках

Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR (2025)

Авторы: Лавровский В. А., Лагутина Н. С., Лавровская О. Б.

Разработка качественных инструментов автоматического определения уровней текстов по шкале CEFR позволяет создавать учебные и проверочные материалы более быстро и объективно. В данной работе авторы исследуют два типа современных моделей текста: лингвистические характеристики и эмбеддинги больших языковых моделей для задачи классификации русскоязычных текстов по шести уровням CEFR: A1—C2 и трём укрупнённым категориям A, B, C. Два вида моделей явным образом представляет текст в виде вектора числовых характеристик. При этом разделение текста на уровни рассматривается как обычная задача классификации в области компьютерной лингвистики. Эксперименты проводились с собственным корпусом из 1904 текстов. Лучшее качество достигается rubert-base-cased-conversational без дополнительной адаптации при определении как шести, так и трёх категорий текста. Максимальное значение F-меры для уровней A, B, C равно 0,77. Максимальное значение F-меры для прогнозирования шести категорий текста равно 0,67. Качество определения уровня текста больше зависит от модели, чем от алгоритма классификации машинного обучения. Результаты отличаются друг от друга не более чем на 0,01-0,02, особенно это касается ансамблевых методов.

Сохранить в закладках

Анализ мультимодальных данных в распознавании эмоций (2025)

Авторы: Бердышев Д. А., Шишкин А. Г.

Использование мультимодальных данных в системах распознавания эмоций имеет огромный потенциал для приложений в различных областях: здравоохранение, человеко-машинные интерфейсы, контроль состояния операторов, маркетинг. До недавнего времени развитие систем распознавания эмоций на основе мультимодальных данных сдерживалось недостаточной мощностью вычислительной техники. Однако с появлением высокопроизводительных систем на основе графических процессоров и разработкой эффективных архитектур глубоких нейронных сетей произошел всплеск исследований, направленных на использование нескольких модальностей, таких как аудио, видео и физиологические сигналы, для точного определения человеческих эмоций. Помимо этого, немаловажную роль стали играть физиологические данные, полученные с помощью носимых устройств, благодаря относительной простоте их сбора и точности, которую они позволяют достигать. В данной статье рассмотрены архитектуры и методы применения глубоких нейронных сетей для анализа мультимодальных данных с целью повышения точности и надежности систем распознавания эмоций, представлены современные подходы к реализации таких алгоритмов и существующие открытые наборы мультимодальных данных.

Сохранить в закладках

Статистика статьи

Статистика просмотров за 2026 год.

Издательство

Издательство: ЯрГУ им. П.Г. Демидова
Регион: Россия, Ярославль
Почтовый адрес: 150003, Ярославль, Советская, 14,
Юр. адрес: 150003, Ярославль, Советская, 14,
ФИО: Иванчин Артем Владимирович (Ректор)
E-mail адрес: rectorat@uniyar.ac.ru
Контактный телефон: +7 (485) 2797702
Сайт: https://www.uniyar.ac.ru/

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.