Tensormesh: AI-оптимизация с кешированием

В условиях стремительного роста инфраструктуры искусственного интеллекта, как никогда возросло давление на максимальное увеличение производительности при работе с графическими процессорами (GPU). Для исследователей, обладающих глубокими знаниями в определенных технологиях, это прекрасное время для привлечения инвестиций.

Именно эта тенденция частично лежит в основе запуска компании Tensormesh, которая на этой неделе вышла из тени, получив $4,5 миллиона посевных инвестиций. Основным инвестором выступил фонд Laude Ventures, к которому присоединились ангельские инвестиции от пионера в области баз данных Майкла Франклина.

Tensormesh планирует использовать полученные средства для создания коммерческой версии открытой утилиты LMCache, разработанной и поддерживаемой сооснователем Tensormesh Йихуа Чэном. При правильном использовании LMCache может снизить затраты на инференс до 10 раз. Эта мощь сделала ее неотъемлемой частью развертываний с открытым исходным кодом и привлекла интеграции от таких гигантов, как Google и Nvidia. Теперь Tensormesh намерена превратить свою академическую репутацию в жизнеспособный бизнес.

Ядром продукта является ключ-значение кеш (KV cache) — система памяти, используемая для более эффективной обработки сложных входных данных путем их сжатия до ключевых значений. В традиционных архитектурах KV cache отбрасывается после каждого запроса. Однако сооснователь и генеральный директор Tensormesh Джунчен Цзян утверждает, что это является огромным источником неэффективности.

«Это похоже на очень умного аналитика, который читает все данные, но забывает все, что узнал, после каждого вопроса», — говорит Цзян.

Вместо того чтобы отбрасывать этот кеш, системы Tensormesh сохраняют его, позволяя повторно использовать при выполнении моделью аналогичных процессов в отдельных запросах. Поскольку память GPU крайне ценна, это может означать распределение данных по нескольким различным уровням хранения. Однако наградой за это является значительно большая вычислительная мощность для той же нагрузки на сервер.

Это изменение особенно важно для чат-интерфейсов, поскольку моделям необходимо постоянно обращаться к растущему журналу чата по мере развития диалога. Агентные системы сталкиваются с аналогичной проблемой: растущий журнал действий и целей.

Теоретически, эти изменения могут быть реализованы самими AI-компаниями. Однако техническая сложность делает эту задачу пугающей. Учитывая работу команды Tensormesh над исследованием этого процесса и его тонкостей, компания рассчитывает на высокий спрос на готовое решение.

«Сохранение KV cache в системе вторичного хранения и его эффективное повторное использование без замедления всей системы — очень сложная задача», — отмечает Цзян. «Мы видели, как люди нанимали 20 инженеров и тратили три-четыре месяца на создание такой системы. Или они могут использовать наш продукт и сделать это очень эффективно».