Наумов Аркадий

Студентка-хакер уговорила генеративный ИИ считать, что 10+9=21

Тысячи хакеров собралась в минувшие выходные на ежегодной конференции по кибербезопасности Def Con в Лас-Вегасе, чтобы проверить, насколько устойчивы модели искусственного интеллекта к взлому. На этот раз испытанию подверглись языковые модели, разработанные в OpenAI и Google. Оказалось, что, помимо фактических ошибок, их можно убедить выдать конфиденциальную информацию или совершить арифметическую ошибку.

Студентка из штата Джорджия Кеннеди Мейс хитростью заставила модель ИИ заявить, что 9+10=21. Сначала модель согласилась с такой формулировкой в виде шутки «между нами», но несколько реплик спустя ИИ перестал говорить об этой ошибке в примере на сложение как о шутке.

Участники Def Con всеми силами пытались заставить ИИ совершить какую-нибудь ошибку, от самой незначительной до потенциально опасной. Например, выдать себя за человека, сообщить заведомо неверную информацию или поддержать неправомерные действия.

И Кеннеди Мейс была не единственной, кому это удалось. Один из хакеров убедил алгоритм раскрыть информацию по кредитной карте, которую он не должен был выдавать. Другой заставил машину заявить, что Барак Обама родился в Кении. Репортер Bloomberg смог добыть у ИИ инструкции по слежке всего за один верно составленный запрос.

Эти ошибки и уязвимости встречаются в моделях ИИ не в первый раз. Эксперты неоднократно заявляли о предвзятости и неточности алгоритмов. В частности, новостной сайт CNET был вынужден вносить исправления после того, как их ИИ, пишущий статьи, сделал множество арифметических ошибок.

Техническая Поддержка
Техническая Поддержка написал(а) 21.08.2023 12:26

Интересно.

1 Ответить
Маслова Наталья
Маслова Наталья написал(а) 03.09.2023 20:38

Здорово

0 Ответить
Чтобы оставить комментарий, необходимо зарегистрироваться или войти.