Lemon Slice: видеоаватары для интерактивного общения
Компании все активнее внедряют ИИ-агентов и чат-ботов в свои приложения, однако до сих пор их возможности ограничивались текстовым форматом. Компания Lemon Slice, специализирующаяся на создании цифровых аватаров, стремится добавить видео в эти диалоги с помощью новой диффузионной модели. Эта модель способна генерировать цифровых аватаров на основе всего одного изображения.
Lemon Slice-2, как называется разработка, может создавать цифрового аватара, который работает поверх базы знаний и способен выполнять любую роль, требуемую от ИИ-агента. Он может отвечать на запросы клиентов, помогать с домашними заданиями или даже выполнять роль специалиста по поддержке ментального здоровья.
«На ранних этапах развития GenAI мы с моими соучредителями экспериментировали с различными видеомоделями, и нам стало очевидно, что видео станет интерактивным. Привлекательность таких инструментов, как ChatGPT, заключалась в их интерактивности, и мы хотим, чтобы видео обладало таким же уровнем взаимодействия», — говорит соучредитель Лина Колуччи.
Lemon Slice заявляет, что модель содержит 20 миллиардов параметров и может работать на одном GPU, обеспечивая потоковое видео в реальном времени с частотой 20 кадров в секунду. Компания предоставляет доступ к модели через API и встраиваемый виджет, который компании могут интегрировать на свои сайты одной строкой кода. После создания аватара фон, стиль и внешний вид персонажа можно изменять в любое время.
Помимо аватаров, напоминающих людей, компания также фокусируется на создании нечеловеческих персонажей для различных нужд. Для озвучивания этих аватаров стартап использует технологии ElevenLabs.
Компания Lemon Slice, основанная Линой Колуччи, Сидни Примасом и Эндрю Вайтцем в 2024 году, делает ставку на то, что использование собственной универсальной диффузионной модели (типа генеративной модели, которая учится работать в обратном направлении от зашумленных обучающих данных для создания новых данных) для создания аватаров позволит ей выделиться среди конкурентов.
«На мой взгляд, существующие решения для создания аватаров пока не приносят пользы продукту, — говорит Колуччи. — Они выглядят жутко и неестественно. Они хорошо смотрятся несколько секунд, но как только вы начинаете с ними взаимодействовать, возникает ощущение нереальности, и это не успокаивает. Причина, по которой аватары еще не получили широкого распространения, заключается в том, что они были недостаточно хороши».
Для финансирования этой деятельности компания объявила о привлечении 10,5 миллионов долларов начальных инвестиций от Matrix Partners, Y Combinator, технического директора Dropbox Араша Фердовси, генерального директора Twitch Эммета Шира и группы The Chainsmokers.
Компания уверяет, что имеет встроенные механизмы защиты от несанкционированного клонирования лиц или голоса, а также использует большие языковые модели для модерации контента.
Lemon Slice не стала называть организации, использующие ее технологию, но сообщила, что модель применяется в таких областях, как образование, изучение языков, электронная коммерция и корпоративное обучение.
Стартап сталкивается с серьезной конкуренцией со стороны компаний, занимающихся генерацией видео, таких как D-ID, HeyGen и Sythesia, а также других создателей цифровых аватаров, включая Genies, Soul Machine, Praktika и AvatarOS.
Илья Сухарь, партнер Matrix, считает, что аватары будут полезны в областях, где видео играет значительную роль. Например, люди предпочитают учиться на YouTube, а не читать длинные тексты. Он отметил, что техническое мастерство Lemon Slice и собственный подход дадут компании преимущество перед другими стартапами.
«Это глубоко техническая команда с опытом разработки и внедрения ML-продуктов, а не просто демонстраций и исследований. Многие другие игроки ориентированы на конкретные сценарии или отрасли, в то время как Lemon Slice придерживается общего подхода масштабирования, основанного на «горьком уроке» (данных и вычислительных мощностей), который сработал в других модальностях ИИ», — отметил он.
Джаред Фридман из Y-Combinator полагает, что использование диффузионной модели позволяет Lemon Slice создавать любые типы аватаров, в отличие от некоторых других стартапов, которые сосредоточены на аватарах, похожих на людей, или на игровых персонажей.
«Я считаю, что Lemon Slice — единственная компания, применяющая фундаментальный ML-подход, который в конечном итоге позволит преодолеть «зловещую долину» и пройти тест Тьюринга для аватаров. Они обучают модель того же типа, что и Veo3 или Sora: видеодиффузионный трансформер. Поскольку это универсальная модель, выполняющая весь процесс от начала до конца, у нее нет ограничений по качеству. Другие модели достигают потолка ниже фотореаличности. Она работает как для человеческих, так и для нечеловеческих лиц и требует только одного изображения для добавления нового лица», — пояснил он.
В настоящее время в стартапе работает восемь сотрудников. Планируется использовать привлеченные средства для найма инженеров и специалистов по развитию бизнеса, а также для покрытия расходов на вычисления, необходимые для обучения моделей.
Комментарии
Комментариев пока нет.