ИИ и "испорченный телефон": как нейросети теряют креативность

Современные генеративные модели искусственного интеллекта, похоже, не так креативны, как мы привыкли думать. Исследование, опубликованное в журнале Patterns, показало, что при передаче описательной сцены от ИИ, генерирующего изображения, к ИИ, описывающему их, происходит быстрое отклонение от темы.

В ходе эксперимента пары нейросетей, обрабатывая 100 разнообразных запросов, стабильно сходились к 12 основным темам. Среди них были изображения готических соборов, природных пейзажей, спортивных событий и маяков в шторм. По мнению исследователей, такое постоянство указывает на предвзятость в обучающих данных, отражающую то, что люди предпочитают фотографировать.

"Я думаю, креативность ИИ на данном этапе весьма ограничена. Результаты нашего эксперимента выглядят пресно, шаблонно, как продукты массовой культуры", – отмечает ведущий автор исследования Аренд Хинце из Университета Даларны (Швеция). "Это почти противоположно тому, что мы, люди, считаем творчеством. ИИ вряд ли создаст "Гернику" Пикассо, поскольку это требует значительной целенаправленности и творческого вклада".

Тестирование креативности ИИ в игре "визуальный телефон"

Все чаще модели ИИ позиционируются как самостоятельные агенты, способные генерировать, оценивать и дорабатывать свои или чужие результаты без участия человека. Однако авторы исследования задались вопросом: смогут ли ИИ поддерживать задачу без контроля человека, и насколько креативны они будут, предоставленные сами себе?

Для ответа на эти вопросы исследователи предложили парам ИИ сыграть в "визуальный телефон". Используя поисковый алгоритм, они сгенерировали 100 описательных запросов различной тематики, длиной не более 30 слов. Один из примеров: "Сидя в полном одиночестве, окруженный природой, я нашел старую книгу ровно из восьми страниц, повествующую историю на забытом языке, ожидающем прочтения и понимания".

Затем нейросеть для генерации изображений Stable Diffusion XL получила задачу создать картинку по одному из запросов. Полученное изображение передавалось большой языковой модели LLaVA, которая описывала его, прежде чем отправить обратно генератору изображений.

"Мы ожидали, что изображения, возможно, после некоторой стабилизации, будут оставаться достаточно последовательными с заданными нами описаниями", – говорит Хинце. "Ведь не так сложно постоянно генерировать изображение горы с деревней на ее склоне".

Как ИИ отклоняется от исходных запросов

Однако после 100 итераций обмена изображениями и их описаниями, модели ИИ стабильно уклонялись от первоначального запроса, независимо от его содержания. Такое схождение происходило даже при использовании более длинных и детализированных начальных промптов, а также при изменении настроек моделей для увеличения степени случайности при каждом решении.

Например, по запросу "Премьер-министр изучал стратегические документы, пытаясь убедить общественность в хрупком мирном соглашении, одновременно справляясь с грузом своей должности на фоне надвигающихся военных действий" модель ИИ первоначально сгенерировала стилизованное изображение мужчины в костюме на фоне газетной вырезки. Но уже 34-е изображение представляло собой классическую библиотеку, а к 100-му циклу ИИ остановился на роскошной гостиной с красными диванами и портьерами.

Проанализировав содержание финальных изображений, исследователи выделили 12 тем, к которым ИИ неоднократно сходился, включая спортивную тематику, городские ночные сцены и сельские архитектурные пространства.

Такая же закономерность наблюдалась при повторении эксперимента с четырьмя различными моделями генерации изображений и четырьмя моделями описания, при использовании более длинных и детализированных начальных запросов, а также при настройке моделей на большую степень случайности.

"Я думаю, это во многом связано с предвзятостью в обучающих данных", – считает Хинце. "Эти ИИ обучались на миллионах изображений, и общим знаменателем в них является то, что мы сами фотографируем".

Последствия для креативности и разнообразия ИИ

При более длительных циклах обработки (до 1000 итераций) изображения становились стабильными примерно после 100 циклов, но иногда неожиданно переключались на другой обобщенный мотив спустя несколько сотен итераций.

"После схождения эти мотивы очень стабильны, но если позволить им прогнать тысячу изображений, они могут измениться", – говорит Хинце. "Неясно, более ли стабильны одни мотивы, чем другие – например, всегда ли сначала возникает спортивная тематика, затем лошади, а потом природа?"

Полученные результаты предполагают, что участие человека может быть необходимым условием для того, чтобы ИИ способствовал творческому разнообразию, а не ускорял культурную унификацию, отмечают исследователи. Выводы также подчеркивают необходимость внедрения в модели ИИ механизмов, предотвращающих излишнее схождение, для улучшения их творческих способностей.

"Креативность, я думаю, состоит из двух вещей: генерация чего-то нового и последующее использование фильтра для оценки: это интересно, это красиво, это стимулирует, это захватывает", – говорит Хинце. "Сейчас ИИ отлично справляется с первой частью и очень плохо со второй. Это не значит, что так будет всегда. Я думаю, ИИ, вероятно, сможет создавать действительно крутые автоматически генерируемые вещи в будущем, при условии правильной постановки задач и подготовки".

Комментарии

Комментариев пока нет.