Научный архив: статьи

Философско-методологический анализ бенчмаркинга как средства оценки больших языковых моделей (2025)

Представлен анализ методологии бенчмаркинга и проблематики его применения для оценки эффективности больших языковых моделей (БЯМ). Этот метод получил широкое распространение в различных научных областях — как гуманитарных, так и технических. Отмечено, что в сфере машинного обучения бенчмаркинг применяется давно и считается основным способом определения качества моделей и оценки их способностей решать разноплановые задачи, однако отсутствует строгая методология создания бенчмарков, организации процесса тестирования и интерпретации полученных результатов. Показано, что бенчмаркинг представляет собой многоаспектный и комплексный процесс, подверженный влиянию социокультурной, экономической и политической среды. Изучение данной проблематики имеет высокую актуальность как для разработки БЯМ, так и для всей области искусственного интеллекта, поскольку корректная методология оценки позволит минимизировать риски интеграции моделей в различные сферы человеческой деятельности. Рассмотрены отдельные этапы становления и развития бенчмаркинга. Особое внимание уделено критическому анализу современных методов оценки, их ограничениям и потенциальным искажениям при определении реальных возможностей интеллектуальных систем. Сформулированы концептуальные аспекты для философского осмысления бенчмаркинга и намечены направления дальнейших исследований, что составляет научную новизну данной работы.

Выпуск: № 3 (113) (2025)
Автор(ы): Батин Р. Е.