Исследование Apple показало, что ИИ-модели лишь имитируют мышление
Исследование, проведённое учёными Apple, показало, что большие языковые модели, такие как ChatGPT, на самом деле не думают и не рассуждают так, как это делает человек. Несмотря на способности решать простые математические задачи, как выяснили исследователи, БЯМ легко сбить с толку, добавив в задачу лишнюю или несущественную информацию. Это открытие ставит под сомнение способность ИИ к логическому мышлению и выявляет его уязвимости при работе с изменёнными условиями.
В статье под названием «Понимание ограничений математического мышления в больших языковых моделях» сообщается следующее: ИИ способен корректно решить задачу с базовыми числами, но при добавлении, казалось бы, незначительных деталей, модель начинает выдавать неправильные ответы.
Например, если задать языковой модели такую задачу: «Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу. Сколько киви собрал Оливер?» — модель легко решит её, посчитав 44 + 58 + (44 * 2) = 190. Однако, как только в условие добавляют лишнюю деталь, например: «…но 5 из этих киви были немного меньше среднего размера», — модель сразу теряется. Вместо того чтобы игнорировать несущественную информацию, как это сделал бы человек, ИИ ошибочно вычитает эти 5 киви из общего числа, хотя это не требуется для решения.
Один из авторов исследования Мехрдад Фараджтабар пояснил, что подобные ошибки демонстрируют неспособность к подлинному логическому мышлению.
Модель пытается следовать уже существующим шаблонам и логическим связям, записанным в её данных, вместо того, чтобы анализировать новые аспекты задачи и адаптировать свои выводы. Хотя в некоторых случаях можно улучшить результаты с помощью методов оптимизации запросов, исследователи утверждают, что для более сложных задач потребуется слишком много контекстной информации, чтобы устранить ошибки.
Другие исследователи, в том числе представители OpenAI, высказали мнение, что правильные ответы можно получить с помощью точной настройки запросов (prompt engineering), но даже эта техника сталкивается с проблемами при более сложных условиях. ИИ может «рассуждать», но в очень ограниченных рамках, что подчёркивает его неспособность адаптироваться к непривычным ситуациям, как это может сделать человек.
Это исследование поднимает вопрос о том, что именно означает «мышление» для искусственного интеллекта и может ли он достичь уровня настоящего логического анализа. Хотя БЯМ демонстрируют впечатляющие способности к решению задач, их основная слабость заключается в имитации шаблонов, а не в осмысленном рассуждении.
Источник: https://hightech.plus/