PaTH Attention: новый метод для LLM

Большинство языков используют позицию слов и структуру предложений для извлечения смысла. Например, «Кошка села на коробку» отличается от «Коробка была на кошке». На протяжении длинного текста, такого как финансовый документ или роман, синтаксис этих слов, вероятно, эволюционирует.

Аналогично, человек может отслеживать переменные в фрагменте кода или следовать инструкциям с условными действиями. Это примеры изменений состояния и последовательного рассуждения, в которых мы ожидаем, что современные искусственные системы будут преуспевать; однако существующий передовой механизм внимания в трансформерах — основной архитектуре, используемой в больших языковых моделях (LLM) для определения важности слов — имеет теоретические и эмпирические ограничения, когда речь заходит о таких возможностях.

Механизм внимания позволяет LLM возвращаться к более ранним частям запроса или документа и, основываясь на своем обучении, определять, какие детали и слова имеют наибольшее значение; однако сам по себе этот механизм не понимает порядок слов. Он «видит» все входные слова, или токены, одновременно и обрабатывает их в том порядке, в котором они представлены, поэтому исследователи разработали методы для кодирования информации о позиции.

Это ключевой момент для областей, которые сильно структурированы, как язык. Но преобладающий метод кодирования позиции, называемый роторным кодированием позиции (RoPE), учитывает только относительное расстояние между токенами в последовательности и не зависит от входных данных. Это означает, что, например, слова, находящиеся на расстоянии четырех позиций друг от друга, как «кошка» и «коробка» в примере выше, будут получать одно и то же фиксированное математическое вращение, специфичное для этого относительного расстояния.

Теперь исследование, возглавляемое Массачусетским технологическим институтом (MIT) и MIT-IBM Watson AI Lab, представило технику кодирования, известную как «PaTH Attention», которая делает информацию о позиции адаптивной и контекстно-зависимой, а не статической, как в RoPE.

«Трансформеры позволяют точно и масштабно моделировать многие области, но они имеют эти ограничения в отношении отслеживания состояния — класса явлений, который, как считается, лежит в основе важных возможностей, которые мы хотим видеть в наших системах ИИ. Поэтому важный вопрос: как мы можем сохранить масштабируемость и эффективность трансформеров, одновременно обеспечивая отслеживание состояния?» — говорит старший автор статьи Юн Ким, доцент кафедры электротехники и компьютерных наук (EECS), член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и исследователь MIT-IBM Watson AI Lab.

Новая статья об этой работе была представлена в начале этого месяца на конференции по нейронным информационным системам (NeurIPS 2025). Среди соавторов Кима — ведущий автор Сонглин Янг, аспирант EECS и бывший стажер программы MIT-IBM Watson AI Lab; Кайюэ Вэнь из Стэнфордского университета; Лилиан Рен из Microsoft; и Икан Шэнь, Шон Тан, Майанк Мишра и Рамесвар Панда из IBM Research и MIT-IBM Watson AI Lab. Статья также доступна на сервере препринтов arXiv.

Путь к пониманию

Вместо того чтобы назначать каждому слову фиксированное вращение на основе относительного расстояния между токенами, как это делает RoPE, PaTH Attention является гибким, рассматривая промежуточные слова как путь, состоящий из небольших, зависящих от данных преобразований. Каждое преобразование, основанное на математической операции, называемой отражением Хаусхолдера, действует как крошечное зеркало, которое настраивается в зависимости от содержимого каждого проходящего через него токена. Каждый шаг в последовательности может влиять на то, как модель интерпретирует информацию позже. Совокупный эффект позволяет системе моделировать, как смысл меняется вдоль пути между словами, а не только то, насколько далеко они находятся.

Этот подход позволяет трансформерам отслеживать, как сущности и отношения изменяются со временем, давая им своего рода «позиционную память». Представьте себе это как прохождение по пути, испытывая свое окружение и то, как оно на вас влияет. Кроме того, команда также разработала аппаратно-эффективный алгоритм для более эффективного вычисления оценок внимания между каждой парой токенов, чтобы совокупное математическое преобразование от PaTH Attention сжималось и разбивалось на более мелкие вычисления, чтобы оно было совместимо с быстрой обработкой на GPU.

Затем исследователи MIT-IBM изучили производительность PaTH Attention на синтетических и реальных задачах, включая рассуждения, тесты на длинный контекст и полное обучение LLM, чтобы увидеть, улучшил ли новый метод способность модели отслеживать информацию во времени. Команда протестировала его способность следовать последней команде «записать», несмотря на множество отвлекающих шагов и многоэтапные тесты на припоминание — задачи, которые сложны для стандартных методов кодирования позиции, таких как RoPE.

Исследователи также обучали LLM среднего размера и сравнивали их с другими методами. PaTH Attention улучшил перплексию и превзошел другие методы в тестах на рассуждения, на которых он не обучался. Они также оценили извлечение, рассуждения и стабильность при вводе десятков тысяч токенов. PaTH Attention последовательно демонстрировал способность к контентной осведомленности.

«Мы обнаружили, что как на диагностических задачах, разработанных для проверки ограничений трансформеров, так и на реальных задачах языкового моделирования, наш новый подход смог превзойти существующие механизмы внимания, сохранив их эффективность», — говорит Ким. Более того, «мне было бы интересно увидеть, улучшат ли подобные зависящие от данных позиционные кодировки, такие как PATH, производительность трансформеров в структурированных областях, таких как биология, при [анализе] белков или ДНК».

Мышление в большем масштабе и более эффективно

Затем исследователи изучили, как механизм PaTH Attention будет работать, если он будет более точно имитировать человеческое познание, когда мы игнорируем старую или менее релевантную информацию при принятии решений. Для этого они объединили PaTH Attention с другой схемой кодирования позиции, известной как Forgetting Transformer (FoX), которая позволяет моделям выборочно «забывать». Получившаяся система PaTH-FoX добавляет способ понижения веса информации зависящим от данных образом, достигая сильных результатов в тестах на рассуждения, понимание длинного контекста и языковое моделирование. Таким образом, PaTH Attention расширяет выразительную мощь архитектур трансформеров.

Ким говорит, что подобные исследования являются частью более широких усилий по разработке «следующей большой вещи» в ИИ. Он объясняет, что основным двигателем как революции в глубоком обучении, так и революции в генеративном ИИ стало создание «универсальных строительных блоков, которые могут применяться в широких областях», таких как «сверточные слои, рекуррентные нейронные сети (RNN)», а совсем недавно — трансформеры.

Заглядывая в будущее, Ким отмечает, что такие соображения, как точность, выразительность, гибкость и масштабируемость оборудования, были и будут важны. Как он выражается, «основная задача исследований в области современных архитектур — это поиск новых примитивов, которые сохраняют или улучшают выразительность, будучи при этом масштабируемыми».

*Признаны экстремистскими организациями и запрещены на территории РФ.