
Как и практически все остальные технологические компании, Adobe в последние несколько лет активно внедряет искусственный интеллект. С 2023 года компания запустила ряд различных сервисов на основе ИИ, включая Firefly — свой пакет программ для создания медиаконтента с использованием ИИ. Однако теперь безоговорочное использование компанией этой технологии может привести к проблемам, поскольку в новом судебном иске утверждается, что она использовала пиратские книги для обучения одной из своих моделей ИИ.
В коллективном иске, поданном от имени Элизабет Лайон, писательницы из Орегона, утверждается, что компания Adobe использовала пиратские версии многочисленных книг, включая ее собственную, для обучения работе с программой SlimLM.
Компания Adobe описывает SlimLM как небольшой набор языковых моделей, который можно «оптимизировать для задач помощи в работе с документами на мобильных устройствах». Указывается, что SlimLM был предварительно обучен на SlimPajama-627B, «дедуплицированном, многокорпусном, открытом наборе данных», выпущенном компанией Cerebras в июне 2023 года. Лайон, автор ряда руководств по написанию научно-популярной литературы, говорит, что некоторые из её работ были включены в набор данных для предварительного обучения, который использовала Adobe.
В иске Лион, о котором первоначально сообщило агентство Reuters, говорится, что ее тексты были включены в обработанное подмножество манипулированного набора данных, который послужил основой для программы Adobe: «Набор данных SlimPajama был создан путем копирования и манипулирования набором данных RedPajama (включая копирование Books3)», — говорится в иске. «Таким образом, поскольку он является производной копией набора данных RedPajama, SlimPajama содержит набор данных Books3, включая защищенные авторским правом произведения истца и членов группы истцов».
«Books3» — огромная коллекция из 191 000 книг, использованных для обучения систем GenAI, — постоянно создает юридические проблемы для технологического сообщества. RedPajama также фигурировала в ряде судебных дел. В сентябре в иске против Apple утверждалось, что компания использовала материалы, защищенные авторским правом, для обучения своей модели Apple Intelligence. В иске упоминался набор данных, и технологическую компанию обвиняли в копировании защищенных произведений «без согласия, без указания авторства и без компенсации». В октябре аналогичный иск против Salesforce также утверждал, что компания использовала RedPajama в целях обучения.
К сожалению для технологической индустрии, подобные судебные иски к настоящему времени стали довольно распространенным явлением. Алгоритмы ИИ обучаются на огромных массивах данных, и в некоторых случаях эти наборы данных, как утверждается, содержат пиратские материалы. В сентябре компания Anthropic согласилась выплатить 1,5 миллиарда долларов ряду авторов, которые подали на нее в суд, обвинив в использовании пиратских версий их работ для обучения своего чат-бота Claude. Это дело рассматривалось как потенциальный поворотный момент в продолжающихся судебных баталиях по поводу авторских прав на материалы, используемые в обучающих данных для ИИ, которых существует множество.
Источник: techcrunch.com

























