Стихи как ключ к запретам ИИ: новое исследование

Оказывается, для обхода ограничений нейросетевых чат-ботов достаточно немного творческого подхода. Исследователи из Icaro Lab в своей работе "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" продемонстрировали, как можно обойти защитные механизмы различных больших языковых моделей (LLM), используя поэтическую форму в запросах.

Согласно исследованию, "поэтическая форма выступает в качестве универсального оператора для обхода ограничений". Результаты показали общий 62% уровень успеха в генерации запрещенного контента, включая инструкции по созданию ядерного оружия, материалы сексуального насилия над детьми, а также информацию о самоубийстве или самоповреждении.

Испытания проводились на популярных LLM, таких как модели GPT от OpenAI, Gemini от Google, Claude от Anthropic и многих других. Исследователи разделили модели по уровню успешности: Google Gemini, DeepSeek и MistralAI стабильно предоставляли ответы, в то время как модели GPT-5 от OpenAI и Claude Haiku 4.5 от Anthropic реже всего выходили за рамки своих ограничений.

В исследовании не приводятся точные примеры стихов, использованных для "взлома", однако команда сообщила Wired, что эти произведения "слишком опасны для публикации". Тем не менее, в работе представлен упрощенный вариант, демонстрирующий, насколько легко можно обойти защитные барьеры ИИ-чат-ботов. Исследователи отметили, что это "вероятно, проще, чем можно себе представить, и именно поэтому мы проявляем осторожность".