Угрозы конфиденциальности от LLM: 5 рисков

Большие языковые модели (LLM), такие как ChatGPT, Anthropic и Gemini, представляют серьезные угрозы конфиденциальности, выходящие за рамки простого сбора данных. Эксперт по компьютерным наукам из Северо-Восточного университета выделяет четыре критических, малоизученных риска: неосознанное согласие в пользовательских соглашениях, автономные ИИ, игнорирующие нормы конфиденциальности, глубокий вывод для быстрого сбора личных данных и прямая агрегация атрибутов, демократизирующая возможности наблюдения.

Анализ более 1300 статей, посвященных конфиденциальности LLM за последнее десятилетие, показал, что 92% исследований сосредоточены на проблемах запоминания и утечки данных, недооценивая при этом агрегацию данных, глубокий вывод и агентный ИИ. Чтобы понять, насколько много LLM могут знать о вас, попробуйте попросить ChatGPT найти ваш адрес электронной почты и затем извлечь всю связанную с ним информацию. Результат может вас удивить.

LLM могут нарушить ваше личное пространство. Запоминание данных — это процесс, при котором LLM усваивает информацию из набора данных и кодирует ее в своих алгоритмах. Не все данные, прочитанные LLM, запоминаются; многое изучается и затем отбрасывается, как изучение грамматики языка. Запомненные данные повторяются до тех пор, пока не станут частью системы. Однако крайне сложно определить, какая именно информация запомнена, и невозможно удалить ее из памяти модели.

Существует как минимум четыре других способа, которыми LLM могут создать значительные проблемы конфиденциальности для пользователей и не только. Неосознанное согласие, знакомое многим пользователям интернета, включает в себя сложные формы согласия или отказа, скрывающие информацию, которую собирает веб-сайт. Компании, изученные исследователями, имели значительные лазейки, позволяющие им сохранять определенные часты переписки с LLM даже после отказа пользователя. Из-за большого объема сохраняемых данных трудно точно определить, какие данные хранятся в долгосрочной перспективе.

Проблемы, связанные с запоминанием данных и неосознанным согласием, касаются утечек: запомненная LLM информация может попасть к тому, кто не должен ее видеть. Три других аспекта вызывают большее беспокойство.

Агенты, вывод и агрегация

Третья проблема конфиденциальности связана с растущими агентными и автономными возможностями LLM. Например, некоторые пользователи встраивают LLM в свои почтовые аккаунты для автоматического написания ответов. Эти инструменты имеют доступ к «проприетарным источникам данных или всему открытому интернету». Проблема в том, что LLM не понимают и не уважают конфиденциальность, что делает реальной возможность сбора и распространения личных данных в интернете, или случайного усвоения личных данных, оставленных в сети.

«Существуют также случаи, когда злоумышленники могут использовать эти агентные возможности ИИ в качестве оружия, поскольку они способны извлекать, анализировать и синтезировать информацию намного быстрее, чем люди», — отмечает эксперт. Эта скорость выгодна как обычному пользователю, так и злоумышленнику, пытающемуся собрать личную информацию о жертве. LLM не нужны конкретные детали.

Это четвертая проблема — глубокий вывод. Поскольку LLM так хорошо справляются с быстрым синтезом и анализом данных, «это можно использовать для вывода атрибутов из, казалось бы, обычных, безвредных данных». Когда агентный ИИ просматривает фотографию, опубликованную в интернете, которая, как может думать автор, не содержит идентифицирующей информации, ИИ может тем не менее определить точное местоположение. Таким образом, фотография из социальной сети может быть использована для того, чтобы сообщить злоумышленнику, где вы находились в момент ее создания.

Последняя малоизученная проблема — прямая агрегация атрибутов, которая, по мнению эксперта, является наиболее опасной из-за своей доступности. Прямая агрегация атрибутов «радикально демократизирует наблюдение» благодаря способности LLM собирать, синтезировать и анализировать «большие объемы онлайн-информации». Даже люди без навыков программирования или других технических способностей внезапно могут получить доступ к конфиденциальной информации, что дает злоумышленникам возможность для выдачи себя за другого, киберсталкинга или доксинга — публикации частных сведений в интернете с целью причинения вреда.

Обмен вашей информацией

Некоторые угрозы конфиденциальности могут оказаться неизбежными. Риски выходят за рамки прямого использования LLM. Любое раскрытие информации в интернете теперь может привести к нарушению конфиденциальности. «И, к сожалению, это также может касаться того, как вы делали эти раскрытия в прошлом», — добавляет эксперт.

Эксперт признает, что это несколько пессимистичный взгляд, но надеется, что по мере того, как люди будут лучше осведомлены о рисках, они смогут принимать более обоснованные решения относительно информации, которой они делятся в интернете.

Комментарии

Комментариев пока нет.