ИИ свяжет фото с планами зданий: новый метод
Соединение того, что люди видят на земле, с картой является для них естественным процессом. Однако для компьютеров это до сих пор представляло собой значительную проблему. Исследовательская группа из Корнеллского университета представила инновационный метод, который помогает машинам устанавливать эти связи. Это достижение может значительно улучшить работу робототехники, навигационных систем и технологий 3D-моделирования.
Данная разработка, представленная на конференции по нейронным информационным системам в 2025 году и опубликованная на сервере препринтов arXiv, направлена на устранение серьезного недостатка современных инструментов компьютерного зрения. Нынешние системы успешно справляются со сравнением похожих изображений, но показывают низкую производительность при работе с изображениями, значительно отличающимися друг от друга, например, при сопоставлении фотографии с улицы с простой картой или архитектурным чертежом.
Новый подход обучает машины находить совпадения на уровне пикселей между фотографией и планом этажа, даже если эти два представления кардинально различаются. Куан Вэй Хуанг, аспирант в области компьютерных наук, является ведущим автором исследования. Среди соавторов — профессор Корнеллского Технологического Института Ноа Снавели, доцент Корнеллского Колледжа Информатики и Информационных Наук Бхарат Харихаран, а также студент бакалавриата Брэндон Ли, изучающий компьютерные науки.
Команда дала новой модели название C3Po – сокращение от ее полного названия «Cross-View Cross-Modality Correspondence by Pointmap Prediction» (Межвидовое межмодальное соответствие путем предсказания карты точек), что является игривой отсылкой к персонажу из «Звездных войн». Для поддержки этого решения команда создала C3 – масштабный набор данных, содержащий пары фотографий и планы этажей. Этот ресурс обучает компьютеры понимать, как реальные изображения соотносятся с упрощенными картами, что является критически важным навыком для таких технологий, как навигация внутри помещений, движение роботов и цифровая реконструкция пространств.
«В последнее время наблюдается огромный прогресс в 3D-компьютерном зрении, напоминающий прорывы, которые произошли в области больших языковых моделей с языком несколько лет назад», — отметил Снавели. «Теперь у нас есть большие модели машинного обучения, которые могут принимать 2D-изображения — например, несколько фотографий здания — и создавать его 3D-реконструкцию».
Он пояснил, что текущие крупномасштабные модели компьютерного зрения ограничены тем, что они обучались исключительно на фотографиях. При получении изображения вне этой области, такого как план этажа, они работают плохо, просто потому, что никогда не сталкивались с таким типом входных данных.
«Большим фактором в этой проблеме являются ограниченные данные», — сказал он. «Поэтому мы хотели создать набор данных, который связывал бы планы этажей с обычными фотографиями, и это стало основой для набора данных C3».
Для устранения этого пробела команда создала C3, набор данных, включающий 90 000 пар «план этажа — фотография» из 597 сцен. Он содержит 153 миллиона соответствий на уровне пикселей и 85 000 положений камеры. Набор данных был собран путем 3D-реконструкции каждой сцены из больших коллекций интернет-фотографий, с последующим ручным сопоставлением этих реконструкций с общедоступными планами этажей. Такое сопоставление обеспечивает точное отображение между пикселями изображения и координатами на плане этажа, чего ранее не поддерживал ни один набор данных в таком масштабе.
Когда команда тестировала существующие методы, большинство из них испытывали трудности с этой задачей, часто допуская ошибки, превышающие 10% изображения. Чтобы исправить это, исследователи доработали свой подход, чтобы система могла сопоставлять каждый пиксель на фотографии с точкой на плане этажа. Их улучшенная модель, C3Po, сократила количество ошибок на 34% по сравнению с лучшим предыдущим методом и обеспечила более надежные результаты, когда система была уверена в своих предсказаниях.
«В долгосрочной перспективе мы надеемся, что это вдохновит создание больших моделей 3D-компьютерного зрения, которые смогут принимать самые разнообразные входные данные, относящиеся к сцене», — сказал Снавели. «Область исследований 3D-компьютерного зрения обычно отстает на несколько лет от других областей в плане использования последних тенденций из области искусственного интеллекта, и лично я считаю, что это мультимодальное направление, в котором движется ИИ, скоро станет новым рубежом и в 3D-компьютерном зрении».*Признаны экстремистскими организациями и запрещены на территории РФ.
Комментарии
Комментариев пока нет.