ИИ не понимает юмор: исследование раскрывает иллюзию понимания
Новое исследование показывает, что мощные системы искусственного интеллекта (ИИ), такие как ChatGPT и Gemini, имитируют понимание комедийной игры слов, но на самом деле не «улавливают» суть шутки.
Исследователи стремились выяснить, способны ли большие языковые модели (LLM) понимать каламбуры — игру слов, основанную на двойных значениях или созвучных словах, — для достижения юмористического или риторического эффекта. Хотя предыдущие исследования предполагали, что LLM могут обрабатывать этот тип юмора аналогично людям, команда из Кардиффского университета и Университета Ка' Фоскари в Венеции обнаружила, что системы ИИ в основном запоминают знакомые структуры шуток, а не понимают их по-настоящему.
Методический анализ, проведенный в Кардиффе, когда авторы Алессандро Зангари и Маттео Маркуццо были приглашенными исследователями в 2024–2025 годах, подверг модели испытанию, раскрывая, насколько хорошо они справляются с этой игривой стороной языка.
Основные выводы исследования: ограничения ИИ
Результаты команды, представленные на Конференции по эмпирическим методам обработки естественного языка 2025 года, показывают, что, несмотря на их кажущийся интеллект, этим моделям по-прежнему не хватает истинной креативности и глубокого понимания. Соавтор, профессор Хосе Камачо-Колладос из Школы компьютерных наук и информатики Кардиффского университета, отметил: «Наше исследование, вероятно, является первым, которое показывает, насколько хрупко понимание юмора LLM на самом деле. В каком-то смысле это было неожиданно, учитывая их постоянно растущие возможности и предыдущие исследования по этой теме».
«Наши наблюдения намекали на обратное, и в конечном итоге мы обнаружили, что их понимание каламбуров — это всего лишь иллюзия. Например, когда они видят предложение, похожее на каламбур, например „Старые X никогда не умирают, они просто X“, они настаивают, что это смешно, и это особенно верно, если предложение выглядит как каламбур, но не имеет смысла или лишено комедийного намерения или двойного значения».
Тестирование ИИ с усовершенствованными наборами данных
Более ранние исследования предполагали, что модели ИИ «понимают» юмор так же, как люди, но наборы данных, использованные для тестирования интерпретации каламбуров ИИ, не были идеально подходящими, утверждает команда. Для своего анализа они усовершенствовали существующие наборы данных и создали новые для более глубокого изучения.
Команда подавала моделям каламбуры, такие как «Длинные сказки имеют тенденцию затягиваться (dragon)», и заменяла ключевое слово, создавая бессмыслицу, например «Длинные сказки имеют тенденцию драконовать (wyvern)». Они обнаружили значительное снижение точности и неправильную классификацию каламбуров, а также ошибочные фонетические и контекстуальные сигналы в процессе принятия решений моделями.
Последствия для креативности ИИ и будущей работы
«Перед лицом незнакомых каламбуров их коэффициент успеха в различении каламбуров от предложений без каламбура может упасть до 20% — намного хуже, чем 50%, которые вы ожидаете от случайного угадывания. Мы также выявили чрезмерную уверенность в предположении моделей о том, что они обрабатывают что-то действительно смешное. Это было особенно заметно в случае каламбуров, которые они раньше не видели», — поясняет Мохаммад Тахер Пилехвар, еще один автор статьи из Школы компьютерных наук и информатики Кардиффского университета.
Авторы предостерегают от использования LLM в приложениях, выходящих за рамки того, что LLM запомнили из существующего текста, что может потребовать творческого мышления, такого как понимание юмора, эмпатии или культурных нюансов.
«Это напоминание о том, что, в целом, к выводам этих моделей следует относиться с долей скептициса», — сказал Камачо-Колладос. «Хотя ИИ становится все более мощным, возможно, безопасно сказать, по крайней мере, на основании нашего исследования, что люди всегда будут иметь последнее слово, когда дело доходит до комедии».
Команда планирует расширить свою работу за пределы каламбуров, охватив другие задачи, требующие творческого и оригинального мышления. Создание систем ИИ с большей самосознательностью — еще одна цель команды, которая, по их словам, позволит моделям распознавать то, чего они на самом деле не понимают.
Статья «Pun Unintended: LLMs and the Illusion of Humor Understanding» опубликована в материалах EMNLP 2025.
Комментарии
Комментариев пока нет.