ИИ-коллаборация: маленькие модели решают большие задачи

Современные языковые модели (ЛМ) демонстрируют впечатляющие успехи в генерации изображений, ответах на вопросы и выполнении простых математических задач. Однако, когда дело доходит до сложного логического мышления, они пока значительно уступают человеку. Возьмем, к примеру, игру Судоку: ИИ может испытывать трудности с самостоятельным заполнением ячеек или делать это крайне неэффективно, хотя способен проверить правильность ваших решений.

В задачах, требующих строгого следования правилам, таких как решение продвинутых головоломок, разработка молекулярных структур или создание математических доказательств, ЛМ часто лучше предлагают пользователю стратегию, нежели пробуют решить проблему самостоятельно. Требуется учитывать множество вариантов при соблюдении ограничений. Небольшие ЛМ не справляются с этим надежно. Большие языковые модели (LLM), особенно оптимизированные для логических задач, могут, но работают медленно и потребляют много вычислительных ресурсов.

Чтобы преодолеть эти ограничения, исследователи из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (MIT) разработали инновационный подход. Он основан на сотрудничестве: одна LLM выступает в роли планировщика, а затем распределяет задачи между несколькими меньшими моделями. Этот метод позволяет ЛМ предоставлять более точные ответы, превосходящие даже ведущие LLM, и достигать точности топовых систем для решения логических задач, при этом будучи более эффективным.

Система, получившая название DisCIPL (Distributional Constraints by Inference Programming with Language Models), действует подобно найму подрядчика. Вы ставите задачу «главной» модели, которая тщательно продумывает план ее выполнения. Затем LLM четко передает эти инструкции и рекомендации меньшим моделям, корректируя их работу при необходимости. Например, если одна модель предлагает неподходящую фразу для стихотворения, «главная» модель может заменить ее лучшим вариантом от другой.

Взаимодействие между моделями осуществляется с помощью языка программирования LLaMPPL, разработанного в 2023 году в рамках Проекта вероятностного вычисления MIT. Этот язык позволяет кодировать специфические правила, направляющие модель к желаемому результату. Например, LLaMPPL может использоваться для создания безошибочного кода, включая правила конкретного языка программирования в инструкции. Команды вроде «напиши восемь строк стихотворения, где в каждой строке ровно восемь слов» кодируются в LLaMPPL, и меньшие модели получают задания для разных частей ответа.

Гэбриел Гранд, ведущий автор исследования и аспирант MIT, отмечает, что DisCIPL позволяет ЛМ совместно работать над лучшими ответами, повышая общую эффективность. «Мы стремимся улучшить эффективность вывода ЛМ, особенно в современных приложениях, где требуется генерация выходных данных с учетом ограничений», — добавляет Гранд. «Языковые модели потребляют все больше энергии, поэтому нам нужны модели, способные давать точные ответы при минимальном использовании вычислительных мощностей».

Алан Сухр, профессор Калифорнийского университета в Беркли, не участвовавший в исследовании, высоко оценивает новые подходы к языковому моделированию. «Эта работа открывает новые возможности для языкового моделирования и LLM, значительно снижая задержку вывода за счет параллелизации, требуя значительно меньше параметров, чем современные LLM, и даже улучшая производительность задач по сравнению со стандартным последовательным выводом», — говорит Сухр. «Работа также предоставляет возможности для исследования прозрачности, интерпретируемости и управляемости выходных данных моделей, что остается актуальной проблемой при внедрении этих технологий».

Неожиданный успех небольших моделей

Может показаться, что более крупные LLM превосходят маленькие в точности и эффективности при работе со сложными запросами. DisCIPL предлагает неожиданный контраргумент: комбинирование сильных сторон небольших моделей может обеспечить схожие результаты при значительном повышении эффективности.

Исследователи отмечают, что теоретически в рамках DisCIPL можно задействовать десятки ЛМ любого размера. В экспериментах по письму и логическому мышлению в качестве «планировщика» использовалась GPT-4o, одна из моделей, помогающих ChatGPT. Она генерировала план для нескольких моделей Llama-3.2-1B (меньших систем, разработанных Meta), которые затем формировали ответ слово за словом.

Этот коллективный подход сравнивался с тремя другими: базовым вариантом, использующим только Llama-3.2-1B; GPT-4o, работающей самостоятельно; и передовой системой o1, которая помогает ChatGPT решать более сложные задачи, такие как программирование и математика.

DisCIPL продемонстрировала способность создавать предложения и абзацы, соответствующие заданным правилам. Моделям давались очень конкретные задания, например: написать предложение ровно из 18 слов, где четвертое слово — «Glasgow», восьмое — «in», а одиннадцатое — «and». Система удивительно точно справлялась с этой задачей, генерируя связные ответы с точностью и согласованностью, сравнимой с o1.

Быстрее, дешевле, лучше

Эксперимент также показал, что ключевые компоненты DisCIPL значительно дешевле передовых систем. В то время как существующие модели для логического мышления, такие как o1 от OpenAI, выполняют его в текстовом формате, DisCIPL «рассуждает» путем написания кода Python, что является более компактным решением. Исследователи обнаружили, что DisCIPL сокращает время логического вывода на 40,1% и снижает затраты на 80,2% по сравнению с o1.

Эффективность DisCIPL частично обусловлена использованием небольших моделей Llama в качестве исполнителей, стоимость которых за токен в 1000–10000 раз ниже, чем у сопоставимых моделей для логического мышления. Это делает DisCIPL более «масштабируемой» — исследователи смогли запустить десятки моделей Llama параллельно при значительно меньших затратах.

Помимо этого, система показала хорошие результаты на реальных задачах, таких как составление списков ингредиентов, планирование маршрутов путешествий и написание грантовых заявок с ограничением по количеству слов. В то же время GPT-4o испытывала трудности с этими запросами, а при написании тестов часто не могла правильно разместить ключевые слова в предложениях. Базовый вариант, использующий только Llama, занял последнее место практически во всех категориях из-за сложностей с соблюдением инструкций.

«За последние несколько лет мы видели впечатляющие результаты подходов, использующих языковые модели для «автоматической формализации» задач в математике и робототехнике путем их представления в виде кода», — говорит старший автор исследования Джейкоб Андреас. «Меня больше всего восхищает в этой работе тот факт, что теперь мы можем использовать ЛМ для автоматической формализации самого процесса генерации текста, что обеспечивает те же преимущества в эффективности и гарантии, которые мы видели в других областях».

В будущем исследователи планируют расширить framework до более рекурсивного подхода, где одна и та же модель может выступать как в роли лидера, так и исполнителя. Гранд добавляет, что DisCIPL может быть адаптирована для задач математического мышления, где ответы труднее проверить. Они также намерены протестировать систему на способность соответствовать нечетким предпочтениям пользователей, а не только строгим ограничениям, которые невозможно явно закодировать. В более глобальных планах команда надеется использовать самые мощные доступные модели, хотя и отмечает, что такие эксперименты требуют значительных вычислительных ресурсов.

*Признаны экстремистскими организациями и запрещены на территории РФ.