AI: Как заставить нейросети забывать ненужное
Современные системы искусственного интеллекта, особенно те, что работают с изображениями и текстом (Vision-Language Models, VLM), обладают поразительной способностью к обобщению. Они легко распознают объекты на фотографиях, иллюстрациях и даже набросках. Однако эта универсальность может обернуться риском. Например, VLM, идентифицируя и реальный автомобиль, и его изображение как «машину», может привести к опасным ситуациям, если такая система установлена, скажем, в автомобиле, и он воспримет нарисованный автомобиль на рекламном щите как реальное препятствие.
Чтобы сделать ИИ безопасным и надежным для широкого применения, необходимо научиться контролировать его знания. Исследователи из Токийского университета науки под руководством доцента Го Ири предложили алгоритм приблизительного доменного забывания (Approximate Domain Unlearning, ADU). Эта технология позволяет VLM «забывать» определенные категории данных, делая их распознавание невозможным.
«Мы привыкли стремиться к тому, чтобы ИИ мог распознавать объекты во всех возможных контекстах, – говорит профессор Ири. – Но универсальность VLM заставила нас пересмотреть этот подход. Так возникла идея ADU – намеренного «забывания» моделью определенных доменов, когда это необходимо».
Основная сложность заключается в том, что домены внутри VLM не всегда четко разделены. Их признаки могут пересекаться в так называемом пространстве признаков, что затрудняет избирательное удаление знаний. Команда исследователей разработала метод Domain Disentangling Loss, который способствует разделению доменов в этом пространстве, позволяя лучше различать их характеристики.
Дополнительно, с помощью генератора промптов для каждого экземпляра, алгоритм ADU снижает точность распознавания ненужных доменов, сводя к минимуму их влияние. Это обеспечивает гибкость настройки ИИ под конкретные задачи. К примеру, можно научить систему игнорировать изображения автомобилей на иллюстрациях, сохраняя при этом ее способность распознавать реальные транспортные средства.
Исследование ADU открывает новые горизонты в управлении рисками, связанными с ИИ. Вместо того чтобы бороться с ограничениями моделей, исследователи предлагают использовать их обобщающую способность как инструмент для повышения безопасности. ADU предоставляет основу для создания гибких систем ИИ, которые можно адаптировать к различным сценариям использования, гарантируя как безопасность, так и функциональность.
«По мере того как ИИ становится все более совершенным, важно адаптировать его к реальным условиям для устойчивого промышленного применения, – заключает профессор Ири. – Мы считаем, что наша система, позволяющая свободно контролировать функции, поможет внедрить безопасные и надежные технологии ИИ во всем мире».
Комментарии
Комментариев пока нет.