Исследование семи передовых моделей подтвердило иррациональность Больших языковых моделей
Большие языковые модели (БЯМ), обеспечивающие работу генеративных платформ вроде ChatGPT, дают разные ответы на один и тот же вопрос теста на логику и не исправляются, даже если в их распоряжении появляется дополнительный контекст. К таким выводам пришли исследователи из Британии, проверившие когнитивные способности БЯМ. Их результаты подчеркивают: надо сначала понять, как происходит процесс «размышления» у ИИ, прежде чем поручать им выполнять важные задачи.
За последние пару лет способности БЯМ пережили взрывной рост. Они научились генерировать тексты, изображения, аудио- и видеоматериалы, которые могут выглядеть так же убедительно, как созданные людьми. И тем не менее, ИИ продолжают выдумывать «факты», давать непоследовательные ответы и ошибаться в арифметических задачках.
Исследователи из Университетского колледжа Лондона подвергли семь БЯМ (GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b и Llama 2 70b) систематическому анализу на наличие рационального мышления. Согласно принятому авторами определению, рациональный агент — тот, кто рассуждает в соответствии с правилами логики и вероятности. Модели должны были ответить на 12 психологических тестов, в частности, на задачу выбора Уэйсона, проблему Линды и парадокс Монти Холла. Обычно люди с трудом решают верно эти задачи.
Многие ответы моделей продемонстрировали их иррациональность. К примеру, они давали десять разных ответов на один и тот же вопрос, заданный десять раз. Они совершали ошибки в простых задачах на сложение и путали согласные с гласными, сообщает Science Daily.
Правильные ответы на задачу выбора Уэйсона колебались от 90% (GPT-4) до 0% (GPT-3.5 и Google Bard). Модель Llama 2 70b, ответившая верно в 70% случаев, принимала букву К за согласную и поэтому ошибалась. Хотя многие люди тоже не могут правильно решить эту задачу, едва ли это происходит по той же причине.
«На основании результатов нашего исследования и других исследований БЯМ можно с уверенностью сказать, что эти модели пока не „думают“ так, как люди, — сказала Оливия Макмилла-Скотт, первый автор. — При этом модель с самой большой базой данных — GPT-4 — справилась намного лучше, чем другие модели. Это значит, что они быстро развиваются. Однако, сложно сказать, как мыслит эта конкретная модель, потому что это замкнутая система».
Дополнительный контекст, который обычно помогает людям и который исследователи предоставляли моделям для решения задач, тоже не улучшил результаты БЯМ.
Некоторые модели отказывались отвечать на невинные вопросы, мотивируя свой отказ этическими причинами. Вероятнее всего, это пример защитных параметров, работающих не так, как положено.