ИИ и роботы: Создаем предметы по голосовой команде

Впечатляющий прорыв в области генеративного ИИ и робототехники приближает нас к тому дню, когда можно будет просто произнести название нужного предмета, и он будет создан за считанные минуты. Исследователи из Массачусетского технологического института (MIT) разработали систему, позволяющую буквально «оживлять предметы с помощью речи».

Эта инновационная система, управляемая искусственным интеллектом, дает возможность роботизированной руке создавать различные объекты, от мебели до декоративных элементов, всего за пять минут. Пользователь просто озвучивает свой запрос, например, «Я хочу простой стул», и роботизированная рука начинает сборку из модульных компонентов.

«Мы объединили обработку естественного языка, 3D-генеративный ИИ и роботизированную сборку», — поясняет Александр Хтет Кьяу, аспирант MIT и сотрудник Morningside Academy for Design (MAD). «Эти направления стремительно развиваются, и впервые удалось настолько эффективно интегрировать их для создания физических объектов непосредственно из голосовых команд».

Идея зародилась во время обучения Кьяу на курсе «Как создать что угодно» профессора Нила Гершенфельда, где он и приступил к разработке системы. Дальнейшая работа велась в Центре битов и атомов MIT (CBA) под руководством Гершенфельда, в сотрудничестве с аспирантами Се Хваном Йеоном (машиностроение) и Мианой Смит (CBA).

Принцип работы системы:

Процесс начинается с распознавания речи, которое обрабатывает запрос пользователя с помощью большой языковой модели. Затем 3D-генеративный ИИ создает цифровую 3D-модель объекта. Следующий этап — алгоритм вокселизации, разбивающий 3D-сетку на компоненты для сборки.

Далее геометрическая обработка корректирует созданную ИИ модель с учетом реальных ограничений производства, таких как количество деталей, наличие свесов и связность геометрии. Завершающий этап включает определение оптимальной последовательности сборки и автоматическое планирование траектории движения роботизированной руки.

Использование естественного языка делает процесс проектирования и производства доступным даже для тех, кто не обладает навыками 3D-моделирования или программирования роботов. В отличие от 3D-печати, занимающей часы или дни, эта система создает объекты за минуты.

«Этот проект — интерфейс между человеком, ИИ и роботами для совместного формирования нашего мира», — говорит Кьяу. «Представьте: вы говорите «Мне нужен стул», и через пять минут перед вами появляется физический стул».

Будущие перспективы:

Команда планирует улучшить несущую способность мебели, перейдя от магнитных соединений кубиков к более надежным. Также разрабатываются методы преобразования воксельных структур в последовательности сборки для мобильных роботов, что позволит масштабировать технологию на объекты любого размера.

Модульность компонентов призвана минимизировать отходы: объекты можно разбирать и собирать заново, например, превращая диван в кровать. Александр Кьяу, имеющий опыт работы с распознаванием жестов и дополненной реальностью в процессах производства, работает над интеграцией голосового и жестового управления в свою систему.

Вдохновленный «Стартреком» и фильмом «Город героев», Кьяу видит будущее, где «суть материи находится под вашим контролем, а реальность может генерироваться по требованию». Команда представила свою работу «Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly» на симпозиуме ACM Symposium on Computational Fabrication (SCF '25) в MIT.

*Признаны экстремистскими организациями и запрещены на территории РФ.