ISSN 2226-1494 · EISSN 2500-0373
Языки: ru · en

НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

RuPersonaChat: корпус диалогов для персонификации разговорных агентов (2024)

Одним из способов повышения качества разговорных агентов является персонификация.

Персонификация улучшает качество взаимодействия пользователя с разговорным агентом и повышает удовлетворенность пользователей за счет повышения консистентности и специфичности ответов.

Диалог с агентом становится более последовательным, минимизируется противоречивость ответов, которые оказываются более конкретными и интересными.

Для обучения и тестирования персонифицированных разговорных агентов требуются специфичные наборы данных, содержащие факты о персоне и тексты диалогов персон, в
репликах которых используются факты о персонах.

Существует несколько наборов на английском и китайском языках, содержащие в описании персоны в среднем пять фактов.

Диалоги в наборах данных составлены пользователями краудсорсинга, которые многократно имитировали различные персоны.

Метод:

В данной работе предложена методика сбора оригинального корпуса данных, содержащего расширенный набор фактов о персоне и естественные диалоги между персонами.

Новый корпус данных RuPersonaChat основан на трех различных сценариях записи: интервью, короткая беседа, длинная беседа.

Впервые собран корпус данных для персонификации разговорных агентов, включающий естественные диалоги и расширенное описание персоны.

Предложена дополнительная разметка набора данных, которая ставит в соответствие реплики персоны и факты о персоне, на основе которых она была сформулирована.

Основные результаты:

Разработана методика сбора оригинального корпуса тестовых данных, позволяющего осуществлять тестирование языковых моделей для решения большего количества задач в рамках разработки персонифицированного разговорного агента.

Собранный набор данных включает 139 диалогов и 2608 реплик.

Корпус использован для тестирования моделей генерации ответов и вопросов. Наилучшие результаты получены с использованием модели Gpt3-large (перплексия равна 15,7).

Обсуждение:

Собранный корпус данных RuPersonaChat может быть использован для тестирования п

Тип: Статья
Автор (ы): Апанасович Кирилл Сергеевич, Махныткина Олеся Владимировна, Кабаров Владимир Иосифович, Далевская Ольга Петровна
Ключевые фразы: методика сбора данных, диалоговые данные, разговорные агенты, персонификация, генерация вопросов и ответов

Идентификаторы и классификаторы

УДК
004.89. Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями
Текстовый фрагмент статьи