ИИ мыслит как человек: стоимость мышления
Современные большие языковые модели (LLM), такие как ChatGPT, способны мгновенно создавать эссе или составлять меню. Однако ранее они часто не справлялись со сложными математическими задачами и логическими рассуждениями. Недавно ситуация кардинально изменилась: эти модели демонстрируют значительные успетки в решении подобных задач.
Новое поколение LLM, так называемые модели рассуждений, обучаются решать комплексные проблемы. Подобно людям, им требуется время для обдумывания, и, как выяснили ученые из Института мозга Макговерна Массачусетского технологического института (MIT), задачи, требующие наибольшей вычислительной мощности от таких моделей, совпадают с теми, над которыми люди размышляют дольше всего.
Исследователи опубликовали в журнале PNAS выводы о том, что «стоимость мышления» для модели рассуждений сопоставима с «стоимостью мышления» человека. Руководитель группы, Эвелина Федоренко, доцент кафедры наук о мозге и когнитивных наук, отмечает, что, по крайней мере, в одном важном аспекте, модели рассуждений демонстрируют человекоподобный подход к мышлению. При этом, по ее словам, это происходит не намеренно.
«Люди, создающие эти модели, не ставят цели добиться сходства с человеческим мышлением. Они стремятся создать систему, которая будет надежно работать в различных условиях и давать корректные ответы», — поясняет Федоренко. «Сходство в подходах весьма примечательно».
Модели рассуждений, как и многие другие формы искусственного интеллекта, представляют собой искусственные нейронные сети — вычислительные инструменты, обучающиеся обрабатывать информацию на основе предоставленных данных и решаемой задачи.
Искусственные нейронные сети достигли значительных успехов во многих задачах, с которыми хорошо справляется и мозг человека. В некоторых случаях нейробиологи обнаружили, что наиболее эффективные сети имеют определенные общие черты в обработке информации с мозгом. Тем не менее, некоторые ученые считали, что искусственный интеллект еще далек от освоения более сложных аспектов человеческого интеллекта.
«До недавнего времени я тоже придерживалась мнения, что модели отлично справляются с задачами вроде восприятия и языка, но до моделей, способных к рассуждениям, еще далеко», — говорит Федоренко. «Затем появились большие модели рассуждений, которые демонстрируют значительно лучшие результаты во многих задачах, связанных с мышлением, таких как решение математических задач и написание программного кода».
Андреа Грегор де Варда, научный сотрудник Центра K. Lisa Yang ICoN и постдок в лаборатории Федоренко, объясняет, что модели рассуждений решают задачи поэтапно. «В какой-то момент люди поняли, что моделям нужно больше пространства для выполнения вычислений, необходимых для решения сложных проблем», — говорит он. «Производительность значительно возросла, когда моделям позволили разбивать задачи на части».
Для того чтобы модели могли поэтапно решать сложные задачи и получать правильные ответы, инженеры используют обучение с подкреплением. В процессе обучения модели получают вознаграждение за правильные ответы и штрафуются за ошибки. «Модели сами исследуют пространство задач», — поясняет де Варда. «Действия, ведущие к положительному подкреплению, усиливаются, что позволяет им чаще выдавать корректные решения».
Модели, обученные таким образом, значительно чаще, чем их предшественники, приходят к тем же ответам, что и человек, при выполнении задач на рассуждение. Их пошаговое решение задач означает, что модели рассуждений могут находить ответ несколько дольше, чем предыдущие LLM. Однако, поскольку они получают верные ответы там, где предыдущие модели ошибались, ожидание того стоит.
Необходимость моделей тратить время на решение сложных задач уже намекает на параллель с человеческим мышлением: если попросить человека мгновенно решить сложную проблему, он, скорее всего, тоже потерпит неудачу.
Де Варда решил изучить эту взаимосвязь более систематически. Он предложил моделям рассуждений и добровольцам-людям один и тот же набор задач, отслеживая не только правильность ответов, но и время и усилия, затраченные на их получение.
Время против токенов
Это означало измерение времени, которое требовалось людям для ответа на каждый вопрос, с точностью до миллисекунд. Для моделей де Варда использовал другую метрику. Измерение времени обработки было нецелесообразным, поскольку оно в большей степени зависит от аппаратного обеспечения компьютера, а не от усилий, которые модель прилагает для решения задачи. Вместо этого он отслеживал токены — элементы внутренней цепочки рассуждений модели. «Они генерируют токены, которые не предназначены для того, чтобы их видел пользователь и работал с ними, а служат лишь для отслеживания внутренних вычислений, которые они выполняют», — объясняет де Варда. «Это похоже на то, как они разговаривают сами с собой».
Людям и моделям рассуждений предлагалось решить семь различных типов задач, включая арифметические и интуитивные рассуждения. Для каждого класса задач им было предложено множество примеров. Чем сложнее была задача, тем больше времени требовалось людям для ее решения. И чем больше времени требовалось людям, тем больше токенов генерировала модель рассуждений по пути к своему решению.
Аналогично, классы задач, на решение которых люди тратили больше всего времени, совпадали с теми классами задач, которые требовали наибольшего количества токенов от моделей: арифметические задачи были наименее сложными, тогда как группа задач под названием «ARC challenge», где пары цветных сеток представляют трансформацию, которую необходимо вывести и затем применить к новому объекту, оказались наиболее затратными как для людей, так и для моделей.
Де Варда и Федоренко считают, что впечатляющее совпадение «стоимости мышления» демонстрирует один из способов, которым модели рассуждений мыслят подобно людям. Однако это не означает, что модели воспроизводят человеческий интеллект.
Исследователи по-прежнему стремятся выяснить, используют ли модели аналогичные представления информации, что и человеческий мозг, и как эти представления трансформируются в решения задач. Их также интересует, смогут ли модели справляться с задачами, требующими знаний о мире, которые не прописаны в текстах, используемых для обучения моделей.
Исследователи отмечают, что, хотя модели рассуждений генерируют внутренние монологи при решении задач, они не обязательно используют язык для мышления. «Если посмотреть на выходные данные, которые эти модели выдают в процессе рассуждений, то они часто содержат ошибки или некоторые бессмысленные фрагменты, даже если модель в конечном итоге приходит к правильному ответу. Таким образом, фактические внутренние вычисления, вероятно, происходят в абстрактном, нелингвистическом пространстве представлений, подобно тому, как люди не используют язык для мышления», — говорит он.
Комментарии