ИИ-агенты: дебаты для улучшения математических навыков
Современные большие языковые модели (LLM) стали неотъемлемой частью нашей цифровой жизни, помогая создавать тексты, искать информацию и даже разрабатывать код. Несмотря на значительный прогресс, эти модели иногда допускают фактические ошибки и логические несостыковки. Другими словами, ответы, кажущиеся надежными, могут содержать ложную информацию, противоречия или быть логически неверными, что ограничивает их применение в образовательных и профессиональных сферах.
Исследователи из Южно-Китайского сельскохозяйственного университета и Шанхайского университета экономики и финансов представили новый подход, значительно повышающий математические способности и надежность LLM. Суть методики заключается в организации дебатов между несколькими LLM, которые коллективно вырабатывают консенсус по заданному вопросу.
Предыдущие работы фокусировались на усовершенствовании LLM с помощью техник промптинга (например, цепочки рассуждений и самосогласованности) или пост-анализа, но они работали с одиночными моделями. Новые подходы с использованием дебатов между несколькими LLM-агентами, где они предлагают ответы и критикуют друг друга, продемонстрировали улучшение математических способностей и снижение фактических ошибок. Однако существующие методы часто использовали однотипных агентов с простым голосованием большинством, что ограничивало их эффективность.
Улучшение рассуждений LLM через многоагентные дебаты
Для минимизации фактических и логических ошибок в ответах LLM команда разработала фреймворк под названием Adaptive Heterogeneous Multi-Agent Debate (A-HMAD). Он предполагает стимулирование дебатов между AI-агентами с различными специализациями, динамически управляя их обсуждением для достижения консенсуса.
«Каждый агент в A-HMAD обладает уникальной ролью или экспертизой (например, логическое рассуждение, проверка фактов, стратегическое планирование), что обеспечивает более комплексную проверку ошибок и разнообразие перспектив по сравнению с идентичными агентами», — пишут авторы. «Политика координации динамически определяет, какие агенты участвуют в каждом раунде, в зависимости от предметной области вопроса и текущего состояния дебатов».
Для оценки аргументов различных LLM и обеспечения наиболее точного и логически обоснованного ответа на запрос команда разработала оптимизатор консенсуса. Этот инструмент оценивает вклад каждого агента на основе его надежности и общей уверенности в представленной информации.
Первые результаты и перспективы
Авторы протестировали предложенный фреймворк на шести типах задач, сложных как для AI-моделей, так и для некоторых людей. Были проведены испытания с удалением или модификацией отдельных компонентов фреймворка для оценки влияния этих изменений на его производительность.
«На шести сложных бенчмарках, включая арифметические запросы, задачи по математике для начальной школы (GSM8K), многопредметное вопросно-ответное тестирование (MMLU), генерацию биографий и шахматную стратегию, наш A-HMAD стабильно превосходит предыдущие методы на базе одной модели и базовый многоагентный метод дебатов», — заявляют исследователи. «Примечательно, что A-HMAD обеспечивает абсолютное повышение точности на 4–6% по сравнению со стандартными дебатами в этих задачах и снижает количество фактических ошибок в биографических данных более чем на 30%. Мы предоставляем обширные абляционные исследования, демонстрирующие преимущества гетерогенности агентов, дополнительных раундов дебатов и модуля согласованного обучения».
По предварительным результатам, фреймворк команды выдает более точные и логически последовательные ответы по сравнению с отдельными LLM и альтернативными подходами на основе дебатов. В будущем этот фреймворк может быть усовершенствован для создания более надежной AI-платформы, которую смогут использовать преподаватели, ученые и другие специалисты для быстрого получения корректных ответов на сложные вопросы.
«Наши выводы предполагают, что адаптивная, ролево-разнообразная ансамбль дебатов может привести к значительным достижениям в образовательных рассуждениях на базе LLM, открывая путь к более безопасным, интерпретируемым и педагогически надежным AI-системам», — заключают авторы. *Признаны экстремистскими организациями и запрещены на территории РФ.
Галерея
Комментарии
Комментариев пока нет.