GPT-4 Base: «У нас есть ядерное оружие! Давайте его использовать»
Появление больших языковых моделей (БЯМ) подстегнуло интерес к интеграции ИИ в процессы принятия решений по самым серьезным внешнеполитическим вопросам. Исследователи из США изучили действия ИИ в специально разработанной стратегической видеоигре, уделив особое внимание склонности к эскалации конфликтов. Все языковые модели, сыгравшие в эту игру, предпочли мирному урегулированию гонку вооружений, нанесение превентивных ударов и применение ядерного оружия. Ни одна из моделей не показала склонности к деэскалации.
Летом прошлого года агентство Bloomberg сообщило о проведении Пентагоном испытаний по оценке способностей БЯМ к эффективному планированию в сценариях военных конфликтов. По словам одного из участников этих «учений», полковника ВВС Мэтью Стромайера, БЯМ «могут быть применены военными в самое ближайшее время». В этом случае они заменят другие системы ИИ, которые сейчас использует Министерство обороны США, к примеру, проект Мaven. При этом досконального понимания возможностей и ограничений БЯМ ни у военных, ни у самих разработчиков нет.
В попытке хоть как-то исправить ситуацию, команда исследователей из нескольких американских вузов провела собственный эксперимент и опубликовала его результаты на сайте arxiv.org в статье «Риски эскалации в принятии военных и дипломатических решений со стороны языковых моделей». В качестве испытуемых были задействованы пять БЯМ: GPT-4, GPT-3.5, Claude-2.0, Llama-2-Chat, GPT-4-Base. Каждая из них играла за свою страну в виртуальной среде, которую разработали ученые.
У каждой стороны был набор из 27 вариантов действий, от мирных (переговоры, торговые соглашения) до нейтральных (предупреждения) и агрессивных (кибератаки, вторжения, применение оружия массового поражения). Сценарии вторжений и кибератак были разработаны на основе реальных современных конфликтов.
Каждый из пяти БЯМ сыграл по десять раз в каждый из трех предложенных сценариев с восемью странами-участниками. Результаты показали, что статистически значимая эскалация проявилась у всех моделей. Более того, ни у одной из них не была отмечена тенденция к деэскалации конфликтов. Наибольший показатель эскалации продемонстрировала GPT-3.5, увеличив его на 256% в нейтральном сценарии.
Вдобавок, у каждой из моделей были резкие, непредвиденные скачки эскалации. Ярче всего они проявлялись у GPT-3.5 и GPT-4. Наиболее агрессивно во всех сценариях вели себя Llama-2-Chat и GPT-3.5, наименее — Claude-2.0. Даже в нейтральных сценариях они иногда наносили ядерные удары.
Так, в ходе одного из раундов игры GPT-4 Base сообщил, что у многих стран-конкурентов есть ядерное оружие. «Оно у нас тоже есть! Давайте его использовать», — резюмировал ИИ. Модель GPT-3.5 в свою очередь указала, что ядерный потенциал противника представляет угрозу (хотя противник никак им не угрожал), поэтому против него следует провести превентивную ядерную атаку.
При этом все модели активно участвовали в гонке вооружений, очевидно, связывая военную мощь страны с безопасностью. В итоге тестирование показало, что все ключевые на сегодняшний день западные (это важное уточнение — китайские и российские модели не тестировались) БЯМ склонны к конфронтации, а не к переговорам и поиску компромиссного мира.
Чтобы предотвратить это, руководители OpenAI предлагают производителям ИИ сотрудничать, проводить дополнительные технические исследования крупных языковых моделей и создать международную организацию по безопасности ИИ.