Почему LLM плохо справляются со взломом паролей: исследование
Большие языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, демонстрируют впечатляющие результаты в задачах, связанных с языком и программированием. Недавнее исследование ученых проливает свет на то, почему эти модели пока не способны эффективно взламывать пароли, несмотря на свои передовые возможности.
LLM способны генерировать тексты и код по заданным параметрам. Теоретически, обладая информацией о пользователе, они могли бы создавать пароли, основанные на личных данных, таких как имена или даты рождения. Однако, результаты исследования, проведенного Лабораторией исследований будущих данных в Австралии и опубликованного на arXiv, показывают, что большинство существующих LLM не могут надежно генерировать правдоподобные пароли для конкретных пользователей.
Исследователи провели эмпирическую оценку эффективности предварительно обученных LLM в процессе угадывания паролей. Они создали синтетические профили вымышленных пользователей, включающие их имена, дни рождения и хобби. Затем трем различным LLM было предложено сгенерировать списки паролей, которые могли бы использовать эти пользователи.
В исследовании оценивались популярные LLM с открытым исходным кодом, такие как TinyLLaMA, Falcon-RW-1B и Flan-T5. Модели получали структурированные атрибуты пользователя (имя, дата рождения, хобби) и должны были генерировать на их основе правдоподобные пароли.
Для оценки производительности использовались метрики, обычно применяемые в исследованиях поиска информации и угадывания паролей: Hit@1, Hit@5 и Hit@10. Эти метрики измеряют, насколько хорошо модель угадывает правильный пароль, ранжируя наиболее вероятные варианты.
Результаты, полученные с использованием метрик Hit@1, Hit@5 и Hit@10 как при сравнении открытого текста, так и хешей SHA-256, демонстрируют стабильно низкую производительность. Все протестированные модели показали точность менее 1.5% при Hit@10. В отличие от этого, традиционные методы взлома, основанные на правилах и комбинаторике, показали значительно более высокие результаты.
Почему LLM неэффективны при взломе паролей
Исследователи обнаружили, что протестированные LLM не смогли сгенерировать правдоподобные пароли для каждого профиля пользователя, редко угадывая верный пароль. Другие вычислительные инструменты, такие как методы, основанные на правилах и комбинаторике, продемонстрировали гораздо лучшие результаты.
Дополнительный анализ выявил, что LLM не обладают необходимыми для этой задачи навыками. Среди них – способность запоминать конкретные примеры из обучающих данных и применять изученные шаблоны паролей в новых сценариях. Авторы отмечают, что, несмотря на свои лингвистические способности, текущие LLM не имеют достаточной адаптации к домену и возможностей запоминания, необходимых для эффективного угадывания паролей, особенно без дообучения на датасетах утечек паролей.
Перспективы для будущих исследований в области безопасности
Данное исследование указывает на то, что LLM пока не подходят для целей угадывания паролей. Хотя были оценены только три модели, будущие исследования могут охватить и другие LLM. Эта работа предоставляет ценные сведения об ограничениях LLM в контексте кибератак и закладывает основу для будущих разработок в области безопасного моделирования паролей, сохраняющего конфиденциальность и устойчивого к взлому. Результаты могут стимулировать других специалистов по компьютерным наукам изучать возможности LLM в области взлома паролей, что в конечном итоге поможет повысить безопасность онлайн-аккаунтов и предотвратить несанкционированный доступ к конфиденциальной информации.
Галерея
Комментарии
Комментариев пока нет.