Статья посвящена исследованию способности больших языковых моделей (LLM) интерпретировать референцию пословиц в русском языке на материале фразеологических выражений «первый блин комом» и «своя рука владыка». В рамках исследования предлагается классификация типов референции (конкретная, абстрактная, смешанная, неопределенная) и описывается методика классификации, реализованная в эксперименте с применением моделей GPT-5 и DeepSeek-3.1. Исследование выявило, что общая точность автоматической классификации типов референции пословиц не превышает 33 %, при этом модели демонстрируют уклон в пользу абстрактной референции и затрудняются в идентификации неопределенного типа. Более высокие показатели зафиксированы при бинарной классификации (конкретная / абстрактная; до 60 % у GPT-5), однако объяснение выбора типа часто связано с концептуальными ошибками, прежде всего с систематическим смешением оппозиции «конкретная / абстрактная референция» и «прямое / переносное значение». Делается вывод о том, что LLM имитируют процесс понимания, воспроизводя жанровые шаблоны и избегая риска некорректной интерпретации. Значимость результатов определяется возможностью дальнейшего совершенствования методик оценки интерпретационных способностей LLM в задачах анализа смысловой структуры устойчивых выражений.