BrainBody-LLM: ИИ-алгоритм для продвинутого управления роботами
Большие языковые модели (LLM), подобные той, что лежит в основе ChatGPT от OpenAI, сегодня широко применяются для решения разнообразных задач, от поиска информации до генерации текстов на разных языках и написания кода. Многие ученые и инженеры также начали использовать эти модели для проведения исследований и развития других технологий.
В сфере робототехники LLM показали себя как перспективный инструмент для создания алгоритмов управления роботами на основе пользовательских инструкций. Алгоритмы управления — это, по сути, набор правил, которым робот должен следовать для корректного выполнения заданных действий.
Исследователи из Школы инженерии NYU Tandon представили новый алгоритм под названием BrainBody-LLM. Он использует LLM для планирования и оптимизации выполнения действий робота. Разработка, представленная в публикации Advanced Robotics Research, черпает вдохновение в том, как человеческий мозг планирует действия и со временем тонко настраивает движения тела.
«LLM продемонстрировали глубокое понимание человеческого взаимодействия в реальных условиях», — рассказал Vineet Bhat, один из ведущих авторов статьи, изданию Tech Xplore. «В этой работе мы стремились оценить эту возможность в контексте робототехники, предоставив LLM ограниченный доступ к набору стандартных команд управления роботом. Этот доступ намеренно ограничен для обеспечения безопасного внедрения и тестирования в контролируемой среде».
Алгоритм BrainBody-LLM
Новый алгоритм, разработанный Bhat и его коллегами, имитирует взаимодействие человеческого мозга и тела при планировании и выполнении конкретных движений. Алгоритм состоит из двух основных компонентов: Brain LLM и Body LLM.
Brain LLM отвечает за планирование высокоуровневых задач, разбивая их на более простые и управляемые этапы. Body LLM, в свою очередь, генерирует команды для управления роботами на каждом из этих этапов, позволяя им выполнять желаемые действия и движения.
«Механизм обратной связи в замкнутом контуре обеспечивает постоянный мониторинг реакций окружающей среды и сигналов об ошибках, которые возвращаются в систему для автоматической коррекции», — пояснил Bhat. «Основное преимущество BrainBody-LLM заключается в его замкнутой архитектуре, которая способствует динамическому взаимодействию между компонентами LLM, обеспечивая надежную обработку сложных и сложных задач».
Перспективные результаты в симуляции и реальных условиях
Исследователи протестировали предложенную модель как в симуляции, так и в реальном эксперименте. Симуляции проводились на платформе VirtualHome, где виртуальная версия робота выполняла различные домашние дела. Эксперимент в реальных условиях был проведен с использованием роботизированной руки Franka Research 3.
Результаты команды оказались весьма обнадеживающими: модель повысила скорость выполнения задач роботами на 17% по сравнению с другими передовыми моделями, с которыми проводилось сравнение. Модель позволила роботизированной руке успешно справиться с большинством поставленных задач, показав средний процент успеха в 84%.
«Многие современные агентные фреймворки на основе LLM используют схожие принципы, где цепочка взаимодействующих LLM задействует внешние инструменты для решения сложных пользовательских запросов, таких как решение математических задач или проведение глубокого анализа», — добавил Bhat.
«В настоящее время мы изучаем различные подходы к интеграции дополнительных модальностей в LLM — таких как 3D-зрение, датчики глубины и совместное управление — с целью обеспечения более человекоподобных движений и действий в роботизированных системах».
В будущем разработанный командой BrainBody LLM может быть усовершенствован, применен к другим роботам и протестирован в более широком диапазоне условий. Параллельно эта недавняя работа может вдохновить другие исследовательские группы на разработку аналогичных подходов на основе LLM для робототехнических приложений.
Галерея
Комментарии
Комментариев пока нет.