ИИ: Ожидания и реальность в мире "белых воротничков"

Прошло почти два года с тех пор, как генеральный директор Microsoft Сатья Наделла предсказал, что искусственный интеллект (ИИ) заменит офисных работников — специалистов, таких как юристы, инвестиционные банкиры, библиотекари, бухгалтеры и IT-специалисты. Однако, несмотря на значительный прогресс в разработке фундаментальных моделей ИИ, реальные изменения в этой сфере происходят медленно. Модели достигли успехов в глубоких исследованиях и планировании, но большинство профессий "белых воротничков" остаются практически неизменными.

Это одна из самых интригующих загадок в области ИИ. Новые исследования от компании Mercor, специализирующейся на данных для обучения ИИ, проливают свет на эту проблему. Исследование анализирует, как ведущие модели ИИ справляются с реальными задачами, характерными для консалтинга, инвестиционного банкинга и юриспруденции. Результатом стал новый бенчмарк APEX-Agents, который выявил, что пока ни одна из AI-лабораторий не получила удовлетворительную оценку. Даже лучшие модели смогли правильно ответить лишь на четверть вопросов от реальных профессионалов, в подавляющем большинстве случаев предоставляя неверный ответ или вовсе не отвечая.

По словам генерального директора Mercor Брендана Фуди, основным препятствием для моделей стало отслеживание информации из различных источников — задача, являющаяся неотъемлемой частью работы большинства "белых воротничков". "Мы создали всю среду, имитирующую реальные профессиональные сервисы, — пояснил Фуди. — Наша работа заключается не в том, чтобы получать весь контекст от одного человека в одном месте. В реальной жизни мы используем Slack, Google Drive и множество других инструментов". Для многих агентских ИИ-моделей такое многодоменное рассуждение по-прежнему остается ненадежным.

Сценарии для тестирования были взяты из реальных запросов от профессионалов с платформы Mercor, которые также определяли критерии успешного ответа. Сложность задач становится очевидной при взгляде на примеры из бенчмарка. Так, в разделе "Юриспруденция" содержится вопрос, касающийся экспорта персональных данных в США в течение первых 48 минут сбоя производства в ЕС, и требуется определить, соответствуют ли такие действия собственным политикам компании и применимым нормам ЕС.

Правильный ответ — "да", но для его получения необходимо глубокое понимание как внутренних политик компании, так и соответствующих законов ЕС о конфиденциальности. Исследователи стремились смоделировать работу профессионалов в этой области, полагая, что надежное решение подобных вопросов моделями ИИ могло бы в значительной степени автоматизировать работу юристов. "Я считаю, что это, вероятно, самая важная тема в экономике, — отметил Фуди. — Бенчмарк очень точно отражает реальную работу этих специалистов".

OpenAI также пыталась оценить профессиональные навыки с помощью бенчмарка GDPval. Однако APEX-Agents отличается тем, что он измеряет способность системы выполнять продолжительные задачи в узком наборе высокоценных профессий, а не общие знания в широком спектре специальностей. Это делает тест более сложным для моделей, но и более точно связанным с потенциалом автоматизации рабочих мест.

Хотя ни одна из моделей не продемонстрировала готовности заменить инвестиционных банкиров, некоторые показали лучшие результаты. Gemini 3 Flash лидировал с точностью 24% при однократном обучении, за ним следовал GPT-5.2 с 23%. Opus 4.5, Gemini 3 Pro и GPT-5 показали результаты около 18%. Несмотря на текущие результаты, ИИ-индустрия имеет историю быстрого преодоления сложных бенчмарков. Публикация APEX-Agents бросает открытый вызов AI-лабораториям, и ожидается, что в ближайшие месяцы прогресс будет значительным.

"Прогресс идет очень быстро, — добавил Фуди. — Сейчас можно сказать, что ИИ работает как стажер, который угадывает четверть ответов, но еще год назад это был стажер, угадывающий 5-10% ответов. Такой ежегодный прогресс может очень быстро привести к значительным изменениям".

*Признаны экстремистскими организациями и запрещены на территории РФ.