Мультимодальный ИИ: Баланс текста и изображений
Исследователи из Корейского передового института науки и технологий (KAIST) разработали инновационную технологию обучения для мультимодальных систем искусственного интеллекта (ИИ). Эта технология позволяет моделям ИИ одинаково эффективно обрабатывать как текстовую, так и визуальную информацию, что значительно повышает точность их прогнозов.
Традиционные мультимодальные ИИ, подобно человеку, склонному сначала смотреть на изображение, а затем читать текст, часто отдают предпочтение одному типу данных, что снижает общую производительность. Команда под руководством профессора Стивена Юиджона Вана из Школы электротехники предложила метод аугментации данных, который обучает ИИ одновременно на согласованных и несогласованных выборках с противоречивой семантикой. Такой подход заставляет модель равномерно задействовать все типы входных данных — текст, изображения и даже аудио — независимо от контекста.
Для повышения стабильности работы модели также была внедрена стратегия обучения, которая компенсирует низкое качество данных и одновременно уделяет особое внимание более сложным примерам. Преимущество данного метода заключается в его универсальности: он не привязан к конкретной архитектуре модели и легко применим к различным типам данных, что делает его масштабируемым и практичным решением.
Профессор Ван подчеркивает, что улучшение производительности ИИ — это не только вопрос изменения архитектуры или алгоритмов, но и, в значительной степени, дизайна и использования данных для обучения. Новое исследование демонстрирует, что целенаправленная разработка и усовершенствование самих данных являются эффективным способом помочь мультимодальному ИИ использовать информацию сбалансированно, избегая предвзятости к отдельным модальностям, таким как изображения или текст.
Работа была совместно проведена докторантом Сонг-Хёном Хвангом и магистрантом Соён Чхве, а профессор Стивен Юиджон Ван выступил в качестве ответственного автора. Результаты исследования будут представлены на конференции по нейронным системам обработки информации (NeurIPS 2025), которая пройдет в декабре в Сан-Диего (США) и Мехико (Мексика).
Комментарии