ИИ и люди: одинаковая реакция на сложный код

Исследователи из Саарландского университета и Института программных систем Макса Планка впервые продемонстрировали, что реакции людей и больших языковых моделей (LLM) на сложный или вводящий в заблуждение программный код удивительно схожи. Сравнение мозговой активности участников исследования и показателей неопределенности моделей подтвердило это наблюдение.

На основе этих данных команда разработала автоматический метод для выявления таких проблемных участков кода. Это многообещающий шаг к созданию более совершенных ИИ-помощников для разработки программного обеспечения.

Команда под руководством профессора инженерии программного обеспечения Саарландского университета Свена Апеля и исследователя Института программных систем Макса Планка Марии Тоневой изучала, как люди и большие языковые модели реагируют на запутанный программный код. Характеристики такого кода, известные как "атомы путаницы", хорошо изучены: это короткие, синтаксически корректные конструкции, которые вводят в заблуждение людей и могут сбить с толку даже опытных разработчиков.

Чтобы выяснить, "думают" ли LLM и люди об одних и тех же "подводных камнях", исследовательская группа применила междисциплинарный подход. С одной стороны, были использованы данные предыдущего исследования Апеля и его коллег, в котором участники читали как запутанные, так и корректные варианты кода, а их мозговая активность и внимание измерялись с помощью электроэнцефалографии (ЭЭГ) и айтрекинга. С другой стороны, анализировалась "замешательство" или неопределенность LLM с помощью так называемых значений перплексии. Перплексия – это устоявшаяся метрика для оценки языковых моделей, количественно определяющая их неуверенность при предсказании последовательностей текстовых токенов на основе их вероятности.

Результат оказался поразительным: там, где люди испытывали трудности с кодом, LLM также демонстрировали повышенную перплексию. Сигналы ЭЭГ участников – особенно так называемая "поздняя фронтальная позитивность", которая в лингвистических исследованиях ассоциируется с неожиданными окончаниями предложений – возрастали именно там, где повышалась неопределенность языковой модели.

"Мы были поражены, что пики мозговой активности и неопределенности модели показали значительные корреляции", – говорит Юссеф Абдельсалам, который работал под руководством Тоневой и Апеля и сыграл ключевую роль в проведении исследования в рамках своей докторской работы.

Основываясь на этом сходстве, исследователи разработали автоматизированный метод, который выявляет и подсвечивает неясные участки кода. Более чем в 60% случаев алгоритм успешно идентифицировал известные, вручную аннотированные "путающие" паттерны в тестовом коде и даже обнаружил более 150 новых, ранее нераспознанных паттернов, которые также совпадали с повышенной мозговой активностью.

"Этой работой мы делаем шаг к лучшему пониманию согласованности между людьми и машинами", – отмечает Мария Тонева из Института Макса Планка. "Если мы знаем, когда и почему LLM и люди спотыкаются в одних и тех же местах, мы можем разрабатывать инструменты, которые сделают код более понятным и значительно улучшат сотрудничество человека и ИИ", – добавляет профессор Свен Апель. Таким образом, исследователи строят мост между нейронаукой, инженерией программного обеспечения и искусственным интеллектом. Исследование было принято к публикации на Международной конференции по инженерии программного обеспечения (ICSE).

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 28 ноября 2025
Категория:
Просмотров: 15