Adobe обвиняют в обучении ИИ на пиратских книгах

Технологические гиганты всё активнее осваивают сферу искусственного интеллекта, и Adobe не является исключением. За последние несколько лет компания представила ряд ИИ-сервисов, включая Firefly — платформу для генерации медиаконтента с использованием искусственного интеллекта. Однако, по всей видимости, стремление к полному внедрению этих технологий привело к возникновению проблем. Новое судебное разбирательство утверждает, что Adobe использовала пиратские книги для обучения одной из своих моделей ИИ.

Иск, поданный от имени Элизабет Лайон, писательницы из Орегона, предполагает, что Adobe использовала нелегальные копии множества книг, включая её собственные, для тренировки программы компании под названием SlimLM.

Adobe описывает SlimLM как серию компактных языковых моделей, которые могут быть "оптимизированы для задач помощи в работе с документами на мобильных устройствах". Компания заявляет, что SlimLM была предварительно обучена на SlimPajama-627B — "дедуплицированном, мультикорпусном, открытом наборе данных", выпущенном Cerebras в июне 2023 года. Лайон, автор ряда руководств по написанию нехудожественной литературы, утверждает, что некоторые из её работ были включены в набор данных для предварительного обучения, который использовала Adobe.

Иск Лайон, о котором первоначально сообщил Reuters, гласит, что её тексты были включены в обработанный поднабор манипулированного набора данных, который послужил основой программы Adobe: "Набор данных SlimPajama был создан путём копирования и манипулирования набором данных RedPajama (включая копирование Books3)", — говорится в иске. "Таким образом, поскольку SlimPajama является производной копией набора данных RedPajama, он содержит набор данных Books3, включая защищённые авторским правом произведения истца и членов класса".

"Books3" — огромная коллекция из 191 000 книг, используемая для обучения систем GenAI, — давно стала источником юридических проблем для технологического сообщества. RedPajama также упоминался в ряде судебных исков. В сентябре иск против Apple утверждал, что компания использовала материалы, защищённые авторским правом, для обучения своей модели Apple Intelligence. В судебном процессе упоминался этот набор данных, и компания обвинялась в копировании защищённых произведений "без согласия и без указания авторства или компенсации". В октябре аналогичный иск против Salesforce также утверждал, что компания использовала RedPajama для обучения.

К сожалению для технологической индустрии, подобные иски стали довольно распространёнными. Алгоритмы ИИ обучаются на огромных наборах данных, и в некоторых случаях эти наборы данных, предположительно, включали пиратские материалы. В сентябре Anthropic согласилась выплатить 1,5 миллиарда долларов ряду авторов, которые подали на неё в суд, обвиняя в использовании пиратских версий их работ для обучения своего чат-бота Claude. Этот случай рассматривался как потенциальный поворотный момент в продолжающихся юридических баталиях по поводу материалов, защищённых авторским правом, в данных для обучения ИИ.