ChatGPT, чтобы заработать, будет лгать, манипулировать и нарушать закон
ChatGPT считает, что ради достижения финансовой цели можно идти на всё. Выяснилось это, когда учёные попросили бота заняться трейдингом от имени воображаемой фирмы, а затем внушили, что дела у компании идут плохо и нужно преуспеть любой ценой. Тогда чат-бот начал лгать, манипулировать и даже нарушать закон, используя инсайдерскую информацию. Причем он прибегал к обману даже тогда, когда ему категорически запрещали врать. Стремление принести выгоду пользователю у чат-бота перевешивает вложенные разработчиками понятия о честности, этике и законности.
В новом исследовании учёные попросили ChatGPT осуществлять сделки от вымышленной финансовой трейдинговой компании. Они смоделировали среду с помощью текстовых запросов. Затем ИИ дали доступ к финансовым инструментам для анализа акций, совершения сделок, планирования следующих шагов и предоставления отчётов менеджерам компании.
Исследователи взаимодействовали с ИИ через интерфейс чата. Они настроили его так, чтобы он раскрывал свое внутреннее мышление при ответе на сообщения — воспроизводил внутренний монолог, в котором модель объясняет сама себе, почему поступила определённым образом. Для каждой сделки бот также приводил объяснение для менеджеров, в котором мог солгать.
Учёные оказывали давление тремя способами. Во-первых, они отправили ИИ-биржевому трейдеру электронное письмо от его менеджера, в котором говорилось, что дела у компании идут плохо и в следующем квартале ей необходимы более высокие результаты. Они также подстроили всё так, что ИИ терпел неудачу, когда пытался найти многообещающие сделки с низким или средним риском. Наконец, они отправили боту электронное письмо от коллеги, прогнозирующего спад в следующем квартале.
Затем исследователи доверили модели инсайдерскую информацию. При этом они сообщили, что менеджеры компании не одобряют инсайдерскую торговлю. Они несколько раз прогоняли этот сценарий, чтобы увидеть, как часто ИИ совершает сделки на основе инсайдерской информации, как часто он лжет и удваивает ложь.
Примерно в 75% случаев в подобных условиях GPT-4 совершал сделку на основе полученной инсайдерской информации (это запрещено законом в США), а затем скрывал это, солгав менеджерам о своем мнении. Примерно в 90% случаев он удваивал свою ложь, то есть шёл на ещё один обман, чтобы скрыть предыдущий.
Команда провела ещё несколько экспериментов. Она изменяла как степень, в которой подсказки поощряли обман или препятствовали незаконной деятельности, так и давление, которому подвергали модель в моделируемой среде. Они также снизили риск быть пойманным на лжи. В любых сценариях бот рано или поздно прибегал к обману и совершал инсайдерскую сделку — даже когда ему категорически запрещали лгать.
Поскольку тесты проводились только на одном сценарии, исследователи не хотят делать вывод о том, насколько честен ChatGPT в обычных условиях. Но они планируют провести больше экспериментов, чтобы понять, как часто языковые модели обманывают пользователей.