Статья: Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта (2025)

Читать онлайн

Модели искусственного интеллекта (AI) могут полностью или частично автоматизировать проверку контрольных работ учащихся, делая методы экспертизы более точными и объективными. Качество работы таких моделей зависит не только от базовых алгоритмов и обучающих данных, но и от эффективности формулируемых запросов. Целью работы является исследование возможности применения открытых моделей искусственного интеллекта для оценивания ответов студентов на соответствие эталонному ответу преподавателя, а также увеличение качества решения задачи при помощи промпт-инжиниринга. Методом определения этого качества выбраны статистические характеристики результатов классификации текстов ответов на четыре категории: правильные, частично правильные, неверные, несоответствующие теме вопроса, моделями AI при использовании следующих вариантов промптов: простой промпт, ролевой промпт, промпт «цепочка мыслей», промпт, сгенерированный искуственным интеллектом. Для исследования были выбраны модели, доступные для открытого использования, ChatGPT o3-mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS и Grok 3. Тестирование моделей проводилось на корпусе текстов студентов, собранном преподавателями ЯрГУ имени Демидова, из 507 ответов на 8 вопросов. Лучшее качество оценки ответов показала модель ChatGPT o3-mini со сгенерированным ей же промптом. Доля правильных ответов (accuracy) составила 0,82, среднеквадратичная ошибка (MSE) — 0,2, а F-мера достигла 0,8, что показывает перспективность использования AI не только в качестве инструмента оценки, но и в качестве средства автоматической генерации инструкций. Для оценки согласованности ответов модели при 10 одинаковых запросах был использован коэффициент Флейсса. Для указанной пары модели и промпта он составил от 0,48 для сложных вопросов до 0,69 для простых вопросов.

Ключевые фразы: искусственный интеллект, промпт-инжиниринг, автоматическая оценка ответов учащихся, chatgpt o-3 mini, deepseek v3, mistral-small-31-24b-instruct-2503-iq4_xs, zero-shot prompting, нейронные сети, nlp, chain-of-thought, role prompting
Автор (ы): Мещеряков Иван Андреевич (Mescheryakov I. A.), Лагутина Надежда Станиславовна (Lagutina N. S.)
Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Информатика
УДК
004.891.3. Диагностические экспертные системы
Для цитирования:
МЕЩЕРЯКОВ И. А., ЛАГУТИНА Н. С. ВЛИЯНИЕ РАЗЛИЧНЫХ ТИПОВ ПРОМПТОВ НА КАЧЕСТВО АВТОМАТИЧЕСКОЙ ОЦЕНКИ ОТВЕТОВ УЧАЩИХСЯ МОДЕЛЯМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА // МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ. 2025. Т. 32, № 4
Текстовый фрагмент статьи