Ученые предупредили о возможном вырождении ИИ
Всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании мира либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе. Однако прежде большие данные, которые скармливали таким моделям, как GPT, Stable Diffusion или Midjourney — книги, статьи, фотографии — были созданы человеком. С ростом числа ИИ появится все больше контента, сгенерированного машинами. Что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Как оказалось, их неизбежно ждет вырождение.
Группа исследователей из Британии и Канады изучила эту проблему и опубликовала статью в журнале arXiv. Они пришли к выводу, что такая ситуация вызывает тревогу за технологию генеративного ИИ и его будущее: «Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам в будущем поколении моделей».
Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей — процесс вырождения, при котором со временем модели забудут настоящее распределение данных. (…) Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».
Постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. «Мы удивились, когда увидели, как быстро произошел коллапс моделей: модели могут быстро забыть большинство оригинальных данных, на которых они обучались в самом начале», — сказал Илья Шумайлов, один из авторов статьи, в беседе с Venture Beat.
Другими словами, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.
Он проиллюстрировал проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов — десять из них были с голубой шерстью, 90 — с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные. Со временем оригинальная черта — голубой мех — выветривается в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.
«Мы собираемся наполнить интернет чушью, — сказал другой автор, Росс Андерсон из Университета Кембриджа и Университета Эдинбурга. — Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество».
Авторы предлагают пару решений этой проблемы, которые, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. Сейчас так никто не делает.