Уязвимости ИИ-браузеров: как защититься от инъекций

Даже при постоянной работе над усилением безопасности своего браузера Atlas, компания OpenAI признает, что атаки типа "prompt injection" (инъекция подсказок) остаются серьезной угрозой. Эти атаки, при которых злоумышленники манипулируют ИИ-агентами для выполнения вредоносных инструкций, часто скрытых в веб-страницах или электронных письмах, вряд ли будут полностью устранены в обозримом будущем. Это ставит под сомнение безопасность работы ИИ-агентов в открытом интернете.

OpenAI в своем блоге отмечает, что "prompt injection, подобно мошенничеству и социальной инженерии в сети, вряд ли когда-либо будет полностью "решена"". Компания признала, что "режим агента" в ChatGPT Atlas "расширяет поверхность угроз безопасности".

После запуска браузера ChatGPT Atlas в октябре, исследователи безопасности быстро продемонстрировали возможность изменять поведение браузера, всего лишь вписав несколько слов в Google Docs. В тот же день компания Brave опубликовала статью, объясняющую, что косвенная "prompt injection" представляет собой систематическую проблему для ИИ-браузеров, включая Comet от Perplexity.

OpenAI не одинока в признании неизбежности таких атак. Национальное агентство по кибербезопасности Великобритании ранее в этом месяце предупредило, что атаки "prompt injection" на генеративные ИИ-приложения "могут никогда не быть полностью нейтрализованы", подвергая веб-сайты риску утечки данных. Британское государственное агентство рекомендовало специалистам по кибербезопасности снижать риск и последствия подобных атак, а не пытаться их "остановить".

OpenAI считает "prompt injection" долгосрочной проблемой безопасности ИИ и намерена постоянно укреплять свои системы защиты.

Решение компании заключается в проактивном, быстром реагировании, которое, по их словам, уже демонстрирует многообещающие результаты во внутреннем выявлении новых стратегий атак до того, как они будут использованы "в дикой природе".

Этот подход схож с тем, что применяют конкуренты, такие как Anthropic и Google, заявляя, что для борьбы с постоянным риском атак на основе подсказок необходимы многоуровневые и постоянно тестируемые системы защиты. Например, недавние исследования Google сосредоточены на архитектурных и политических мерах контроля для агентных систем.

Однако OpenAI выделяется разработкой "автоматизированного атакующего на основе LLM". Это бот, обученный OpenAI с использованием обучения с подкреплением, который имитирует хакера, ищущего способы внедрить вредоносные инструкции в ИИ-агент.

Бот может тестировать атаки в симуляции перед их реальным применением. Симулятор показывает, как целевой ИИ будет мыслить и какие действия предпримет при столкновении с атакой. Затем бот анализирует реакцию, корректирует атаку и повторяет процесс. Это понимание внутреннего процесса принятия решений целевым ИИ, недоступное внешним злоумышленникам, теоретически позволяет OpenAI быстрее выявлять уязвимости, чем реальные атакующие.

Это распространенная тактика в тестировании безопасности ИИ: создать агент для выявления крайних случаев и быстрого их тестирования в симуляции.

OpenAI отмечает: "Наш атакующий, обученный [обучению с подкреплением], может подталкивать агент к выполнению сложных, долгосрочных вредоносных рабочих процессов, разворачивающихся на протяжении десятков (или даже сотен) шагов. Мы также наблюдали новые стратегии атак, которые не появлялись в нашей кампании "красной команды" с участием людей или во внешних отчетах".

В демонстрации OpenAI показала, как ее автоматизированный атакующий внедрил вредоносное письмо в почтовый ящик пользователя. Когда ИИ-агент впоследствии просканировал почту, он выполнил скрытые в письме инструкции и отправил сообщение об увольнении вместо черновика ответа "нет на месте". Однако после обновления системы безопасности "режим агента" успешно обнаружил попытку "prompt injection" и пометил ее для пользователя.

Компания заявляет, что, хотя полностью защититься от "prompt injection" крайне сложно, она полагается на масштабное тестирование и ускоренные циклы исправлений для укрепления своих систем до появления реальных атак.

Представитель OpenAI отказался сообщить, привело ли обновление безопасности Atlas к измеримому снижению успешных атак, но отметил, что компания сотрудничает со сторонними организациями для укрепления защиты Atlas от "prompt injection" еще до запуска.

Рами Маккарти, ведущий исследователь безопасности в компании Wiz, считает, что обучение с подкреплением является одним из способов непрерывной адаптации к поведению злоумышленников, но это лишь часть решения.

Маккарти пояснил: "Полезный способ осмысления рисков в системах ИИ — это автономия, умноженная на доступ. Агентные браузеры часто находятся в сложной точке этого пространства: умеренная автономия в сочетании с очень высоким уровнем доступа. Многие текущие рекомендации отражают этот компромисс. Ограничение доступа через вход в систему в основном снижает экспозицию, в то время как требование подтверждения запросов ограничивает автономию".

Это две из рекомендаций OpenAI для пользователей по снижению собственных рисков. Представитель компании также сообщил, что Atlas обучен запрашивать подтверждение пользователя перед отправкой сообщений или совершением платежей. OpenAI также советует пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к своему почтовому ящику с указанием "предпринять любые необходимые действия".

Согласно OpenAI, "широкие полномочия облегчают скрытому или вредоносному контенту влияние на агент, даже при наличии защитных механизмов".

Несмотря на то, что OpenAI заявляет о приоритете защиты пользователей Atlas от "prompt injection", Маккарти выражает некоторое сомнение в целесообразности инвестиций в рискованные браузеры.

Маккарти добавил: "Для большинства повседневных задач агентные браузеры пока не приносят достаточной пользы, чтобы оправдать их текущий профиль риска. Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя именно этот доступ делает их мощными. Этот баланс будет меняться, но сегодня компромиссы остаются весьма реальными".

*Признаны экстремистскими организациями и запрещены на территории РФ.