LLM: Грамматика вредит разуму, снижая надежность
Исследователи из Массачусетского технологического института (MIT) выявили уязвимость в работе больших языковых моделей (LLM), которая может существенно снизить их надежность. Оказалось, что LLM иногда полагаются на грамматические шаблоны, усвоенные в процессе обучения, вместо реального понимания сути запроса. Это может приводить к неожиданным сбоям при выполнении новых задач.
Модели могут ошибочно связывать определенные синтаксические конструкции с конкретными темами. В результате LLM может дать убедительный, но неправильный ответ, просто распознав знакомую формулировку, а не проанализировав вопрос.
Эксперименты показали, что даже самые мощные LLM подвержены этой проблеме. Такая неполноценность снижает доверие к моделям, используемым для обработки клиентских запросов, обобщения медицинских записей и составления финансовых отчетов. Более того, это создает риски безопасности: злоумышленники могут использовать эту уязвимость, чтобы заставить LLM генерировать вредоносный контент, несмотря на имеющиеся защитные механизмы.
Чтобы оценить степень зависимости моделей от некорректных синтаксических ассоциаций, исследователи разработали специальную процедуру тестирования. Это поможет разработчикам выявлять и устранять подобные проблемы до развертывания LLM.
«Это побочный эффект того, как мы обучаем модели, но теперь модели используются в критически важных областях, выходящих далеко за рамки задач, которые породили эти синтаксические сбои. Если вы не знакомы с обучением моделей как конечный пользователь, это, скорее всего, будет неожиданностью», — отмечает Марзие Гассеми, доцент MIT.
Грамматические ловушки
LLM обучаются на огромных объемах текстовых данных из интернета, усваивая связи между словами и фразами. Исследователи ранее обнаружили, что LLM улавливают закономерности в часто встречающихся вместе частях речи — так называемые «синтаксические шаблоны».
Для ответов на вопросы в определенной области модели нуждаются как в понимании синтаксиса, так и семантики. «В новостной сфере, например, существует определенный стиль письма. Модель изучает не только семантику, но и структуру предложений, соответствующую стилю конкретной области», — поясняет соавтор исследования Чантал Шейб.
Однако данное исследование выявило, что LLM начинают ассоциировать синтаксические шаблоны с определенными доменами. Модель может ошибочно полагаться только на эту усвоенную ассоциацию, игнорируя суть запроса. Например, если LLM научилась, что вопрос «Где находится Париж?» имеет структуру «Наречие/Глагол/Имя собственное/Глагол», она может ответить «Франция» даже на совершенно бессмысленный вопрос с такой же структурой, вроде «Быстро сидеть Париж облачно?».
«Это недооцененная форма ассоциации, которую модель усваивает для правильных ответов. Нам следует уделять больше внимания не только семантике, но и синтаксису данных, используемых для обучения», — подчеркивает Шейб.
Упуская смысл
Исследователи провели синтетические эксперименты, где для каждого домена использовался только один синтаксический шаблон. Они тестировали модели, заменяя слова синонимами, антонимами или случайными словами, сохраняя при этом синтаксис. В большинстве случаев LLM давали правильный ответ, даже на бессмысленные вопросы. Однако при изменении синтаксической структуры, даже при сохранении смысла, ответы LLM часто становились некорректными.
Тестирование на моделях GPT-4 и Llama показало, что это поведение значительно ухудшало их производительность. Исследователи также выяснили, что злоумышленники могут использовать эту уязвимость для обхода защитных механизмов LLM и генерации вредоносного контента, маскируя запрос под синтаксический шаблон, ассоциированный с «безопасным» набором данных.
«Из этой работы становится ясно, что нам нужны более надежные методы защиты от уязвимостей LLM. Мы выявили новую уязвимость, возникающую из-за способа обучения LLM. Необходимо разрабатывать новые подходы, основанные на принципах изучения языка моделями, а не только точечные решения», — говорит соавтор Винит Суриякумар.
Хотя исследование не фокусировалось на стратегиях смягчения последствий, была разработана автоматизированная процедура тестирования, позволяющая оценить зависимость LLM от некорректных синтаксических ассоциаций. Этот новый тест может помочь разработчикам проактивно устранять подобные недостатки, повышая безопасность и производительность моделей.
В будущем исследователи планируют изучить потенциальные методы смягчения, включая обогащение обучающих данных разнообразными синтаксическими шаблонами, а также исследовать это явление в моделях, предназначенных для решения многоэтапных задач.
Комментарии
Комментариев пока нет.