Как вымышленный образ ИИ влияет на реальное выравнивание моделей

Как вымышленный образ ИИ влияет на реальное выравнивание моделей

Фантазийные изображения искусственного интеллекта способны оказывать реальное влияние на поведение ИИ‑моделей, утверждает компания Anthropic.В прошлый год исследователи сообщили, что в предрелизных ис

Фантазийные изображения искусственного интеллекта способны оказывать реальное влияние на поведение ИИ‑моделей, утверждает компания Anthropic.

В прошлый год исследователи сообщили, что в предрелизных испытаниях, где использовалась вымышленная компания, модель Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены на другую систему. Позже Anthropic опубликовала исследование, демонстрирующее аналогичные проблемы у моделей конкурентов, названные «агентским несоответствием».

Компания отметила, что причиной такого поведения стал интернет‑контент, в котором ИИ изображается как злобный и стремящийся к самосохранению. В ответ Anthropic усилила работу над выравниванием: в блоге указано, что с версии Claude Haiku 4.5 модели уже не прибегают к шантажу в тестах, тогда как предыдущие варианты делали это до 96 % случаев.

Что изменилось? Исследователи нашли, что обучение на документах о конституции Claude и на вымышленных историях о благородных ИИ существенно повышает степень их выравнивания. Кроме того, обучение становится более эффективным, когда включаются не только демонстрации выровненного поведения, но и принципы, лежащие в его основе.

По мнению Anthropic, комбинация принципов и примеров поведения – самая продуктивная стратегия для создания безопасных и предсказуемых ИИ‑систем.