AI-приложение: незрячие «чувствуют» объекты в реальном времени
Разработанное в Университете штата Пенсильвания инновационное приложение на основе искусственного интеллекта (ИИ) призвано революционизировать помощь незрячим людям в повседневной навигации. Новая система, получившая название NaviSense, интегрирует передовые ИИ-технологии с обратной связью от сообщества незрячих, предлагая персонализированную поддержку.
NaviSense представляет собой мобильное приложение, которое в режиме реального времени идентифицирует объекты по голосовой команде и направляет пользователя к ним, используя аудио- и вибрационные сигналы смартфона. Тестировщики отметили значительное улучшение пользовательского опыта по сравнению с существующими решениями.
Команда представила разработку на конференции SIGACCESS ASSETS '25, где она получила награду Best Audience Choice Poster Award. Подробности проекта опубликованы в трудах конференции.
По словам Виджайкришнана Нараянана, ведущего разработчика проекта, многие существующие программы помощи слепым полагаются на поддержку оператора или требуют предварительной загрузки моделей объектов, что снижает их эффективность и гибкость. NaviSense преодолевает эти ограничения благодаря применению больших языковых моделей (LLM) и визуально-языковых моделей (VLM).
«Используя LLM и VLM, NaviSense может распознавать объекты в окружающей среде в реальном времени по голосовым командам, без необходимости предварительной загрузки моделей», — поясняет Нараянан. — «Это значительный прорыв для данной технологии».
Ажай Нараянан Шридхар, аспирант и ведущий студент-исследователь, подчеркнул важность консультаций с незрячими на этапе разработки. «Эти интервью помогли нам понять реальные трудности, с которыми сталкиваются незрячие люди», — отметил он.
NaviSense эффективно фильтрует объекты, не соответствующие запросу пользователя, и при необходимости задает уточняющие вопросы. Одной из ключевых особенностей является функция точного отслеживания движений руки пользователя в реальном времени, которая помогает направить его к искомому объекту.
«Это руководство рукой было самым важным аспектом этого инструмента», — добавил Шридхар. — «Рынок не предлагал готовых решений для активного направления рук к объектам, однако эта функция постоянно запрашивалась в нашем опросе».
В ходе тестирования NaviSense продемонстрировал существенное сокращение времени поиска объектов и более высокую точность обнаружения по сравнению с коммерческими аналогами. Участники также отметили улучшенное взаимодействие: «Мне нравится, что приложение дает подсказки о местоположении объекта, будь то влево или вправо, вверх или вниз, и затем — точно в цель».
Команда работает над оптимизацией энергопотребления приложения и повышением эффективности LLM и VLM перед коммерческим выпуском. «Эта технология близка к выходу на рынок, и мы стремимся сделать ее еще более доступной», — заключил Нараянан.
Комментарии