ИИ учится слушать: новые токены речи для понимания LLM
Большие языковые модели (LLM), такие как ChatGPT и Gemini, изначально были разработаны исключительно для работы с текстом. Сегодня они эволюционировали в мультимодальные системы, способные обрабатывать различные типы информации одновременно, включая изображения, аудио, речь и музыку.
Наиболее распространенным способом интеграции речи в мультимодальные модели является преобразование аудио в небольшие элементы, называемые аудиотокенами. Эти токены служат для аудио тем, чем символы являются для текста. Однако аудиотокены сохраняют значительный объем информации, что делает обработку речи более сложной по сравнению с текстом. Несмотря на недавние достижения, интеграция речи в большие языковые модели остается серьезной проблемой.
«Речь — это чрезвычайно богатый и сложный сигнал, — отмечает Лука Делла Либера, аспирант Gina Cody School of Engineering and Computer Science. — Помимо произносимых слов, она несет информацию о наших эмоциях, акценте, идентичности и множестве других нюансов. Из-за этой сложности стандартные аудиотокены часто имеют высокую скорость передачи данных (объем информации, содержащейся в каждой секунде аудио), что затрудняет эффективное обучение больших языковых моделей на основе речи».
Фокус на смысле речи
Делла Либера и его коллеги разработали FocalCodec — новый метод токенизации аудио, который сжимает речь гораздо эффективнее, чем предыдущие подходы. Он сохраняет как звучание, так и смысл слов при сверхнизкой скорости передачи данных.
Вместо сложных этапов обработки система использует простой метод преобразования аудио в компактные единицы (бинарная сферическая квантизация) и технику, которая помогает модели фокусироваться на наиболее значимых частях речи (фокальная модуляция). Это ускоряет анализ и сохраняет основные характеристики голоса.
Для проверки FocalCodec команда провела исследование с участием 33 добровольцев, которые сравнивали различные аудиофрагменты. Участники часто оценивали восстановленную речь как почти идентичную оригинальным записям. Это демонстрирует способность системы значительно сжимать речь без искажения ее естественности.
Признание на ведущей конференции по ИИ
Разработка была принята на Тридцать девятую ежегодную конференцию по системам нейронной обработки информации (NeurIPS 2025), одну из самых престижных конференций в области машинного обучения и искусственного интеллекса. Статья доступна на препринт-сервере arXiv.
«Эта работа особенно важна, поскольку она представляет собой новый подход, который может быть крайне полезен для создания современных мультимодальных LLM, — говорит Мирко Раванелли, доцент и научный руководитель Делла Либеры. — Делая речь легче и проще для интеграции, мы приближаемся к созданию систем ИИ, которые понимают звук с той же уверенностью, с какой они работают с текстом».
Разработка является результатом постоянного сотрудничества между Университетом Конкордия и Институтом искусственного интеллекта Квебека (Mila). В работе также приняли участие Франческо Пайссан, приглашенный исследователь в Mila и студент Университета Тренто, и Сем Субакан, адъюнкт-профессор Университета Конкордия.
Комментарии
Комментариев пока нет.