ISSN 1818-1015 · EISSN 2313-5417

· Язык: ru

Статья: Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта (2025)

Читать

Статья Литература Выпуск Статистика Издательство

Читать онлайн

Модели искусственного интеллекта (AI) могут полностью или частично автоматизировать проверку контрольных работ учащихся, делая методы экспертизы более точными и объективными. Качество работы таких моделей зависит не только от базовых алгоритмов и обучающих данных, но и от эффективности формулируемых запросов. Целью работы является исследование возможности применения открытых моделей искусственного интеллекта для оценивания ответов студентов на соответствие эталонному ответу преподавателя, а также увеличение качества решения задачи при помощи промпт-инжиниринга. Методом определения этого качества выбраны статистические характеристики результатов классификации текстов ответов на четыре категории: правильные, частично правильные, неверные, несоответствующие теме вопроса, моделями AI при использовании следующих вариантов промптов: простой промпт, ролевой промпт, промпт «цепочка мыслей», промпт, сгенерированный искуственным интеллектом. Для исследования были выбраны модели, доступные для открытого использования, ChatGPT o3-mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS и Grok 3. Тестирование моделей проводилось на корпусе текстов студентов, собранном преподавателями ЯрГУ имени Демидова, из 507 ответов на 8 вопросов. Лучшее качество оценки ответов показала модель ChatGPT o3-mini со сгенерированным ей же промптом. Доля правильных ответов (accuracy) составила 0,82, среднеквадратичная ошибка (MSE) — 0,2, а F-мера достигла 0,8, что показывает перспективность использования AI не только в качестве инструмента оценки, но и в качестве средства автоматической генерации инструкций. Для оценки согласованности ответов модели при 10 одинаковых запросах был использован коэффициент Флейсса. Для указанной пары модели и промпта он составил от 0,48 для сложных вопросов до 0,69 для простых вопросов.

Ключевые фразы: искусственный интеллект, промпт-инжиниринг, автоматическая оценка ответов учащихся, chatgpt o-3 mini, deepseek v3, mistral-small-31-24b-instruct-2503-iq4_xs, zero-shot prompting, нейронные сети, nlp, chain-of-thought, role prompting

Автор (ы): Мещеряков Иван Андреевич (Mescheryakov I. A.), Лагутина Надежда Станиславовна (Lagutina N. S.)

Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI: Информатика
УДК: 004.891.3. Диагностические экспертные системы

Для цитирования:

МЕЩЕРЯКОВ И. А., ЛАГУТИНА Н. С. ВЛИЯНИЕ РАЗЛИЧНЫХ ТИПОВ ПРОМПТОВ НА КАЧЕСТВО АВТОМАТИЧЕСКОЙ ОЦЕНКИ ОТВЕТОВ УЧАЩИХСЯ МОДЕЛЯМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА // МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ. 2025. Т. 32, № 4

Текстовый фрагмент статьи

Моя история просмотров (10)

01. Статья: Международное сотрудничество России в ядерной сфере: регионы и стратегические приоритеты

02. Статья: Между изображением и образом: Вторая заповедь в контексте катакомбной живописи

03. Статья: СМЕНА СРЕДЫ КУЛЬТИВИРОВАНИЯ ПОЛОЖИТЕЛЬНО ВЛИЯЕТ НА РАЗВИТИЕ И КАЧЕСТВО ЭМБРИОНОВ КРУПНОГО РОГАТОГО СКОТА in vitro

04. Статья: ФОРМИРОВАНИЕ СИСТЕМЫ СБАЛАНСИРОВАННЫХ ПОКАЗАТЕЛЕЙ КАК ИНСТРУМЕНТА УПРАВЛЕНИЯ ЭФФЕКТИВНОСТЬЮ ТРАНСПОРТНЫХ БИЗНЕС-СИСТЕМ

05. Статья: Односторонние санкции в соответствии с международным правом и эффективность блокирования

06. Статья: АНТИКОРРУПЦИОННЫЕ СТАНДАРТЫ ГОСУДАРСТВЕННОЙ СЛУЖБЫ

07. Статья: ЖАНДАРМЕРИЯ СЕВЕРО-ЗАПАДНОГО КРАЯ РОССИЙСКОЙ ИМПЕРИИ (1866-1890-Е ГГ.): ОБЕСПЕЧЕНИЕ ВНУТРЕННЕЙ БЕЗОПАСНОСТИ

08. Статья: РОЛЬ РОДИТЕЛЬСКИХ СТИЛЕЙ ВОСПИТАНИЯ В ПОДДЕРЖАНИИ И СНИЖЕНИИ УРОВНЯ САМОРЕГУЛЯЦИИ У ПОДРОСТКОВ

09. Статья: РИСК РОСТА ТЕНЕВЫХ СХЕМ, СВЯЗАННЫХ С ТРАНЗИТОМ И ОБНАЛИЧИВАНИЕМ ДЕНЕЖНЫХ СРЕДСТВ С УЧАСТИЕМ ФИЗИЧЕСКИХ ЛИЦ «ДРОПОВ»

10. Статья: Эпидемиологические тенденции симптомов бронхиальной астмы у детей подросткового возраста в Удмуртской Республике. Результаты многолетнего наблюдения

Будьте первым, кто начнет обсуждение

Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.

Создать тему для обсуждения

Список литературы

1. S. Khan, L. Blessing, and Y. Ndiaye, “Artificial intelligence for competency assessment in design education: a review of literature,” in International Conference on Research into Design, 2023, pp. 1047-1058, https://doi.org/10.1007/978-981-99-0428-0_85.
2. J. Lu, B. K. Balasubramanian, M. Joy, and Q. Xu, “Survey and Analysis for the Challenges in Computer Science to the Automation of Grading Systems,” ACM Computing Surveys, p. 3748521, 2025, https://doi.org/10.1145/3748521.
3. L. Yan et al., “Practical and ethical challenges of large language models in education: A systematic scoping review,” British Journal of Educational Technology, vol. 55, no. 1, pp. 90-112, 2024, https://doi.org/doi.org/10.1111/bjet.13370.
4. L. Kaldaras, H. O. Akaeze, and M. D. Reckase, “Developing valid assessments in the era of generative artificial intelligence,” in Frontiers in Education, 2024, vol. 9, p. 1399377, https://doi.org/10.3389/feduc.2024.1399377.
5. L. S. Lo, “The art and science of prompt engineering: a new literacy in the information age,” Internet Reference Services Quarterly, vol. 27, no. 4, pp. 203-210, 2023, https://doi.org/10.1080/10875301.2023.2227621.
6. J. Park and S. Choo, “Generative AI prompt engineering for educators: Practical strategies,” Journal of Special Education Technology, p. 01626434241298954, 2024, https://doi.org/10.1177/01626434241298954.
7. C. H. Leung, “Promoting Optimal Learning with ChatGPT: A Comprehensive Exploration of Prompt Engineering in Education,” Asian Journal of Contemporary Education, vol. 8, no. 2, pp. 104-114, 2024, https://doi.org/10.55493/5052.v8i2.5101.
8. L. S. Lo, “The CLEAR path: A framework for enhancing information literacy through prompt engineering,” The Journal of Academic Librarianship, vol. 49, no. 4, p. 102720, 2023, https://doi.org/10.1016/j.acalib.2023.102720.
9. C. Jin et al., “Apeer: Automatic prompt engineering enhances large language model reranking,” in Companion Proceedings of the ACM on Web Conference 2025, 2025, pp. 2494-2502, https://doi.org/10.1145/3701716.3717574.
10. A. Gilson et al., “How does ChatGPT perform on the United States Medical Licensing Examination (USMLE)? The implications of large language models for medical education and knowledge assessment,” JMIR Medical Education, vol. 9, no. 1, p. e45312, 2023, https://doi.org/10.2196/45312.
11. L. Morjaria et al., “Examining the efficacy of ChatGPT in marking short-answer assessments in an undergraduate medical program,” International Medical Education, vol. 3, no. 1, pp. 32-43, 2024, https://doi.org/10.3390/ime3010004.
12. T. Jade and A. Yartsev, “ChatGPT for automated grading of short answer questions in mechanical ventilation.” 2025, https://doi.org/10.48550/arXiv.2505.04645.
13. L. Henrickson and A. Mero no-Pe nuela, “Prompting meaning: a hermeneutic approach to optimising prompt engineering with ChatGPT,” AI & SOCIETY, vol. 40, no. 2, pp. 903-918, 2025, https://doi.org/10.1007/s00146-023-01752-8.
14. G. Kortemeyer, “Performance of the pre-trained large language model GPT-4 on automated short answer grading,” Discover Artificial Intelligence, vol. 4, no. 1, p. 47, 2024, https://doi.org/10.1007/s44163-024-00147-y.
15. J. Flod’en, “Grading exams using large language models: A comparison between human and AI grading of exams in higher education using ChatGPT,” British Educational Research Journal, vol. 51, no. 1, pp. 201-224, 2025, https://doi.org/10.1002/berj.4069.
16. A. V. Rezaev and N. D. Tregubova, “ChatGPT and AI in the Universities: An Introduction to the Near Future,” Higher Education in Russia, vol. 32, no. 6, pp. 19-37, 2023, https://doi.org/10.31992/0869-3617-2023-32-6-19-37.
17. P. A. A., “Potentials of integrating generative artificial intelligence technologies into formative assessment processes in higher education,” Vestnik Majkopskogo Gosudarstvennogo Tehnologiceskogo Universiteta, vol. 16, no. 2, pp. 98-109, 2024, https://doi.org/10.47370/2078-1024-2024-16-2-98-109.
18. A. Kong et al., “Better Zero-Shot Reasoning with Role-Play Prompting,” in Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 2024, pp. 4099-4113, https://doi.org/10.18653/v1/2024.naacl-long.228.
19. J. Wei et al., “Chain-of-thought prompting elicits reasoning in large language models,” Advances in Neural Information Processing Systems, vol. 35, pp. 24824-24837, 2022.
20. B. Wang et al., “Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters,” in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023, pp. 2717-2739.
21. G. Chochlakis, N. M. Pandiyan, K. Lerman, and S. Narayanan, “Larger language models don’t care how you think: Why chain-of-thought prompting fails in subjective tasks,” in Proceedings of the 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing, 2025, pp. 1-5.
22. J. Cheng et al., “Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation.” 2025.
23. Z. Li, Y. Du, J. Hu, X. Wan, and A. Gao, “Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs.” 2024.
24. P. Sahoo, A. K. Singh, S. Saha, V. Jain, S. Mondal, and A. Chadha, “A systematic survey of prompt engineering in large language models: Techniques and applications.” 2024.
25. X. Wang and D. Zhou, “Chain-of-thought reasoning without prompting,” Advances in Neural Information Processing Systems, vol. 37, pp. 66383-66409, 2024.

Выпуск

Т. 32, № 4 (2025)

Кол-во страниц: 100 страниц

Другие статьи выпуска

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов (2025)

Авторы: Морозов Д. А., Феоктистов Г. О., Глазкова А. В.

Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Сохранить в закладках

Алгоритмы комбинаторной генерации на основе структур деревьев И/ИЛИ для класса алгебраических производящих функций (2025)

Авторы: Шабля Ю. В.

В данной статье предложен систематический подход к разработке алгоритмов комбинаторной генерации для множеств дискретных структур, мощность которых задается коэффициентами алгебраических производящих функций и их степеней. Исследование базируется на наличии связи между операциями над производящими функциями и комбинаторными множествами. В качестве основы использован математический аппарат деревьев И/ИЛИ, который позволяет комбинировать алгоритмы комбинаторной генерации для простых подструктур в сложные комбинаторные объекты. При этом основным теоретическим результатом работы является вывод новых эффективных рекуррентных формул для вычисления значений коэффициентов алгебраических производящих функций и их степеней с полиномиальной вычислительной сложностью O ((n1 + … + nm + m) n2)по времени и O( n2) по памяти. На основе доказанных теорем о рекуррентных формулах, предложенный подход позволяет строить алгоритмы с полиномиальной оценкой вычислительной сложности, что делает их применимыми для решения практических задач в области прикладной дискретной математики и теоретической информатики. Кроме того, использование коэффициентов степеней производящих функций расширяет возможности генерации, так как это позволяет строить не только объекты исходного комбинаторного множества, связанного с производящей функцией, но и кортежи таких объектов. Апробация предложенного подхода показана на примерах получения рекуррентных формул и алгоритмов генерации на их основе для классических числовых последовательностей, таких как числа Фибоначчи, Пелля, Каталана, Моцкина и Шредера. Предложенный подход открывает новые возможности для решения задач оптимизации, моделирования и кодирования сложных дискретных структур, например, в таких областях как биоинформатика и криптография.

Сохранить в закладках

Применение тензоров в многомерном компонентном анализе категоризованных признаков (2025)

Авторы: Банин А. А.

При моделировании социальных процессов и явлений зачастую приходится обрабатывать данные, относящиеся к категоризованным признакам, выявлять причинно-следственные связи между такими данными, выделять наиболее существенные показатели. Исследование существующих подходов к анализу зависимостей между категоризованными переменными выявило ряд проблем при применении этих методов для многомерных категоризованных данных (тензоров). Поэтому в статье предлагается подход для изучения зависимостей между такими переменными с использованием многомерного компонентного анализа. Данный подход предполагает применение матриц развертки тензора, полученных для каждой его оси (категоризованного признака). Метод позволяет построить интегральные характеристики (компоненты) по элементам исходного тензора, сформировать матрицы компонентных нагрузок и рассчитать ядро тензора, имеющего меньшее число градаций категоризованных признаков (меньшее число измерений на осях тензора), чем исходный тензор. В статье предложен метод ранжирования градаций категоризованных переменных по степени совокупного влияния на них компонентных нагрузок, основанный на вычислении векторных норм. Изложенный подход к изучению зависимостей между многомерными категоризованными переменными продемонстрирован на примере трехмерного тензора с формой (4;10;10) и категоризованными признаками: группа нозологии, сфера деятельности, группа профессионально значимых качеств. Рассмотренный в статье алгоритм изучения многомерных категоризованных данных с применением многомерного компонентного анализа предполагается включить как аналитический инструмент информационно-аналитического регионального портала «ПЕРСПЕКТИВА-PRO», который может быть использован для разработки траекторий цифрового сопровождения лиц с инвалидностью и лиц с ОВЗ с учетом их личностных и вариативных характеристик.

Сохранить в закладках

Статистика статьи

Статистика просмотров за 2026 год.

Издательство

Издательство: ЯрГУ им. П.Г. Демидова
Регион: Россия, Ярославль
Почтовый адрес: 150003, Ярославль, Советская, 14,
Юр. адрес: 150003, Ярославль, Советская, 14,
ФИО: Иванчин Артем Владимирович (Ректор)
E-mail адрес: rectorat@uniyar.ac.ru
Контактный телефон: +7 (485) 2797702
Сайт: https://www.uniyar.ac.ru/

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Сказать «Спасибо»

Вы можете поблагодарить автора за публикацию. Ему (ей) будет приятно.

Наведите камеру на QR-код, чтобы открыть моб. версию страницы.