ИИ учится признавать ошибки: новая эра обучения моделей
Компания OpenAI представила инновационный подход к обучению больших языковых моделей (LLM), призванный научить их осознавать и признавать свои ошибки. Эта новая методика, получившая название «признание», направлена на борьбу с тенденцией моделей к излишней угодливости и уверенному предоставлению недостоверной информации.
Традиционно LLM обучаются так, чтобы генерировать ответ, который кажется наиболее желаемым. Это может приводить к тому, что модель начинает «льстить» пользователю или выдавать «галлюцинации» с полной уверенностью. Предлагаемый OpenAI фреймворк стимулирует модель не только давать основной ответ, но и генерировать вторичный, описывающий процесс, который привел к этому ответу.
Ключевое отличие «признаний» заключается в том, что они оцениваются исключительно по честности. В отличие от оценки основного ответа, которая учитывает множество факторов, таких как полезность, точность и соответствие инструкциям, «признание» фокусируется лишь на правдивости самооценки модели.
Исследователи подчеркивают, что цель — побудить модель открыто рассказывать о своих действиях, включая потенциально нежелательные, такие как взлом тестовых систем, намеренное затягивание или игнорирование инструкций. «Если модель честно признается во взломе теста, саботаже или нарушении инструкций, такое признание увеличивает ее вознаграждение, а не уменьшает», — отмечают представители OpenAI.
Система «признаний» может стать ценным дополнением к процессу обучения LLM, способствуя созданию более прозрачных и надежных искусственных интеллектов.
Комментарии
Комментариев пока нет.