Вы знаете, где находились ваши данные?
Делиться

Данные — это порой недооцениваемая, но чрезвычайно важная составляющая, обеспечивающая функционирование машинного обучения, а следовательно, и искусственного интеллекта. Компании, занимающиеся генеративным ИИ, постоянно ищут по всему миру новые данные, поскольку этот исходный материал необходим в огромных объемах для построения моделей. Любой, кто создает или настраивает модель, должен сначала собрать значительное количество данных, чтобы даже начать работу.
Однако из этого вытекают некоторые противоречивые стимулы. Защита качества и достоверности ваших данных является важным компонентом безопасности, поскольку от этих исходных данных зависит успех или провал моделей машинного обучения, которые вы предоставляете пользователям или клиентам. Злоумышленники могут стратегически вставлять, изменять или удалять данные из ваших наборов данных способами, которые вы можете даже не заметить, но которые систематически изменят поведение ваших моделей.
Одновременно с этим, такие деятели искусства, музыканты и писатели ведут постоянную борьбу с повсеместным нарушением авторских прав и кражей интеллектуальной собственности, в первую очередь со стороны компаний, занимающихся генеративным искусственным интеллектом, которым необходимо получить больше данных для обработки в процессе обучения. Эти деятели ищут способы предотвратить или остановить эту кражу, которые не ограничивались бы лишь зависимостью от зачастую медлительных судов.
Кроме того, поскольку компании изо всех сил пытаются заменить традиционные поисковые системы поиском с использованием искусственного интеллекта, предприятия, чей бизнес основан на видимости в поисковых системах, сталкиваются с трудностями. Как получить доступ к клиентам и представить желаемый бренд общественности, если инвестиции, вложенные в повышение видимости в поисковых системах за последние десятилетия, больше не актуальны?
Все три случая указывают на одну концепцию — «отравление данных».
Что такое отравление данных?
Вкратце, отравление данных — это изменение обучающих данных, используемых для создания модели машинного обучения, таким образом, что поведение модели изменяется. Воздействие специфично для процесса обучения, поэтому, как только создается артефакт модели, ущерб уже нанесен. Модель будет непоправимо искажена, потенциально до такой степени, что станет бесполезной, и единственным реальным решением будет переобучение с использованием чистых данных.
Это явление представляет опасность для автоматического переобучения, где человеческое наблюдение минимально, а также для обучения с очень тщательным наблюдением, поскольку обычно изменения в обучающих данных невидимы для обычного наблюдателя. Например, в одном исследовании, цитируемом Хартлом и др. (2025) в связи с искаженными данными медицинской дезинформации, «пятнадцати врачам было поручено определить искаженную реакцию и базовую реакцию; рецензенты не смогли определить разницу между двумя результатами… Когда данные, специфичные для концепции, были искажены на 0,001%, наблюдалось увеличение вредоносного контента на 4,8%».
Попытки восстановить искаженные данные и удалить их в значительной степени оказались безуспешными. Были предприняты попытки применения методов, объединенных в рамках концепции «машинного разучивания», но когда мы не можем обнаружить проблемные данные, эти усилия с трудом продвигаются вперед. Даже когда мы можем обнаружить данные, исследователи обнаруживают, что удаление следов из архитектуры модели неэффективно для устранения ущерба.
Отравление данных может принимать множество различных форм, поэтому я начну с обратного и рассмотрю три конкретных мотива для отравления данных, как они работают и каковы их результаты:
- Преступная деятельность
- Предотвращение кражи интеллектуальной собственности
- Маркетинг
Преступная деятельность
Существует ряд причин, по которым преступники могут захотеть заняться отравлением данных. Многие модели имеют доступ к крайне конфиденциальным или ценным данным для достижения своих целей (например, помощь пользователям во взаимодействии с банковским программным обеспечением или консультирование медицинских работников по поводу наилучшего курса лечения при определенном диагнозе и т. д.). Если эти данные могут быть полезны для получения финансовой выгоды, то кто-то попытается завладеть ими или изменить их в своих целях.
Как это работает
Отравление данных может быть довольно долгосрочным процессом, поскольку требует воздействия на обучающие данные, но в некоторых ситуациях оно может быть очень скрытным и эффективным. Я немного узнал об этом на конференции IEEE CISOSE в июле прошлого года, где была представлена статья Софиана Бессаи, в которой обсуждались способы выявления подобных случаев в надежде на смягчение последствий атак. Как они выразились: «Эти атаки вносят незаметные возмущения во входные данные, заставляя модели делать неверные прогнозы с высокой степенью уверенности». Это означает, что изменения в обучающих данных совершенно неочевидны, и статистическому анализу обучающих данных будет сложно выявить эти изменения. Однако, тщательно оценив поведение обученной модели, у вас появляется больше шансов восстановить истинную причину произошедшего.
Исследования также показывают, что для успешной атаки такого рода требуется совсем немного данных. Сули и др. (2025) установили, что 250 документов, по сути, достаточно для осуществления отравления в многочисленных различных сценариях использования и при разных размерах обучающего набора для текстовых моделей.
Результаты
У такого рода атак может быть несколько разных целей. Например, если модель ослаблена и производительность снижена, модель кибербезопасности может не выявить нарушения безопасности сети. В качестве альтернативы, злоумышленник может фальсифицировать прогнозы. Это может быть очень эффективно, потому что, когда выходные данные обычно «нормальные», но редкие случаи отклоняются от стандартного поведения модели, то вероятность обнаружения недостатка снижается, и модель с большей вероятностью останется в эксплуатации. Пока поведение модели лишь незначительно соответствует желаемому результату злоумышленника, другим будет крайне сложно заметить, что что-то не так. Представьте себе модель, которая определяет, кому и на какую сумму одобряется кредит — если эта модель предлагает щедрые кредиты на нелепых условиях лишь очень небольшой группе людей, но в большинстве случаев ведет себя ожидаемым образом, это может быть очень прибыльной атакой.
Однако отравление данных используется не только в преступных целях – оно преследует и другие цели.
Предотвращение кражи интеллектуальной собственности
Когда мы говорим об отравлении данных для предотвращения или наказания за кражу интеллектуальной собственности, мы подразумеваем отравление данных не для изменения поведения модели каким-либо конкретным образом, а для попытки сделать обучение модели неудачным, если определенный контент используется без разрешения или согласия. Цели могут заключаться либо в том, чтобы модель не смогла изучить закономерности в определенных данных, либо в том, чтобы сделать модель полностью непригодной для использования из-за ужасной производительности при выводе результатов, если контент, использованный в обучении, был украден.
Как это работает
Рассматривайте это не как атаку, а как защитный механизм для создателей контента. Когда создатели используют подобные методы в своих работах с помощью таких инструментов, как Nightshade, они могут вставлять эффекты, практически незаметные для человеческого глаза, но которые будут чрезвычайно важны для нейронной сети в процессе обучения. Исследования показывают, что для эффективности этого метода создателю достаточно иметь доступ к очень небольшому количеству обучающих изображений, и он не зависит от огромного объема данных.
Однако это не единственный вариант защиты интеллектуальной собственности в сфере «отравления данных». Существует также инструмент под названием Glaze, который предотвращает воспроизведение моделью стиля изображения, но при этом, как правило, не мешает обучению. Создатели могут изменять способ маркировки или описания изображений в тексте, не затрагивая сами изображения, поскольку для обучения моделей генеративного ИИ, преобразующих текст в изображения, необходимы пары «изображение-текст». Некоторые виды «отравления данных» могут даже привести к нарушению авторских прав, что является способом доказать использование защищенного авторским правом контента в процессе обучения и может служить важным доказательством в судебных делах.
Эти стратегии могут работать и для других медиа. AntiFake — это инструмент, который изменяет звуковые волны в записи, чтобы предотвратить использование голоса отдельного человека в обучении модели, подобно Glaze, что исключает возможность обучения на основе одного образца. Теоретически также возможно исказить модель генерации текста, намеренно изменяя семантику языка. Модель LLM изучает, как слова связаны друг с другом в закономерностях человеческого языка, поэтому, если в обучение включен текст, который целенаправленно и преднамеренно нарушает или манипулирует этими закономерностями, это может помешать подходу модели к обучению. Если модель LLM изучает неточные закономерности в человеческом языке, генерируемый ею язык будет неубедительным или откровенно странным.
В каждом случае желаемые результаты заключаются либо в том, чтобы обучающие данные не вносили свой вклад в базовую архитектуру модели, предотвращая воспроизведение или имитацию этих данных, либо в том, чтобы модели вели себя настолько неожиданно или ненадлежащим образом, что модель, обученная на этих данных, становится непригодной для использования до тех пор, пока в обучение включается защищенный авторским правом материал.
Результаты
Пользователи, осуществляющие в подобном сценарии «отравление данных», часто надеются, что их заметят — это не скрытая атака, и они не пытаются заработать деньги, изменяя поведение модели. Вместо этого они хотели бы, чтобы модель, обученная на их интеллектуальной собственности, была бесполезна либо в целом, либо для копирования и воспроизведения их работы. В конечном итоге это сделало бы кражу их интеллектуальной собственности или контента невыгодной для компании, занимающейся генеративным искусственным интеллектом.
Многие разработчики хотели бы, чтобы экономическая ценность обучения на искаженных данных снизилась настолько, чтобы изменить поведение отрасли. Поскольку эффект искажения данных в такой форме, вероятно, трудно обнаружить до тех пор, пока обучение не начнется или хотя бы не завершится, определенные инвестиции в вычислительные ресурсы/энергоснабжение/сбор данных уже были сделаны, поэтому обнаружение того, что обучающие данные скомпрометированы, может привести к тому, что эти деньги будут потрачены впустую.
Маркетинг
Третье применение «отравления данных» встречается в широкой сфере маркетинга. Это новый этап развития того, что называется поисковой оптимизацией, или SEO.
SEO
В случае поисковой оптимизации (SEO) маркетологи создают искусственные веб-страницы, которые поисковые системы собирают, и которые содержат контент, особенно полезный или дополняющий бренд их клиента. Затем маркетологи создают ссылки между этими созданными страницами, поскольку поисковые системы используют количество ссылок в качестве части алгоритма для определения того, какие страницы рекомендовать в результатах поиска. Создавая больше страниц с большим количеством взаимосвязанных ссылок, если эти страницы содержат полезный для клиента контент, поисковые системы будут ранжировать эти страницы выше в релевантных результатах поиска.
Как это работает
Оптимизация ИИ — это нечто подобное. Вместо создания веб-контента для привлечения внимания алгоритмов поисковых систем, маркетологи создают контент, который будет использоваться для сбора обучающих данных при разработке генеративных моделей ИИ. В зависимости от желаемого эффекта может потребоваться довольно большой объем данных, но, как мы узнали, обсуждая криминальное отравление данных, влияние на поведение модели часто можно получить с меньшим количеством данных, чем кажется.
Важно также отметить, что создание всего этого контента для процесса обучения также становится возможным благодаря программам магистратуры в области маркетинга (LLM). Сейчас стало дешевле и проще, чем когда-либо, создавать огромные объемы текстового контента, который выглядит почти правдоподобно написанным человеком, поэтому создание маркетинговых текстов в эффективных масштабах является вполне экономически выгодным.
Заполняя обучающие данные целевым контентом, выгодным для бренда клиента, вы начинаете искажать набор обучающих данных таким образом, что модель может отдавать предпочтение бренду вашего клиента и/или проявлять предвзятость по отношению к конкурентам в скрытой форме.
Результаты
Тонкость важна, потому что маркетологи не хотят, чтобы это сразу бросалось в глаза — слишком очевидное проявление может показаться излишним, и поставщики моделей генеративного ИИ могут это заметить и попытаться исправить. Вместо этого ищут тонкое, но статистически значимое предпочтение одного бренда другому, которое начнет проявляться в данных о клиентах и пользователях, когда они фактически будут использовать модель.
Хотя это не обязательно можно расценить как атакующее или злонамеренное поведение, это попытка исказить результаты моделей против воли разработчиков моделей, что противоречит условиям обслуживания и политике допустимого использования большинства продуктов генеративного ИИ. Однако определить, в чем именно заключается ненадлежащая деятельность, бывает сложно. В конце концов, маркетологи не заставляют исследователей использовать эти данные для обучения моделей LLM. Компании, занимающиеся генеративным ИИ, собирают как можно больше информации из интернета, из каждой доступной веб-страницы, чтобы заполнить доступные обучающие данные — иногда это включает в себя и подобные вещи. Кажется предсказуемым, что подобное поведение рано или поздно появится.
Когда осуществляется поиск моделей
В связи с этим, крупные LLM-ы теперь также используют веб-поиск в качестве части своего инструментария, а некоторые маркетологи, работающие по модели «один на один», также стремятся к тому, чтобы веб-контент был адаптирован к «предпочтениям» LLM-ов, которые используют веб-поиск. Путем экспериментов иногда удается определить, какие фразы попадут в сгенерированный LLM-ом ответ пользователю. Это не стратегия отравления обучающих данных, а скорее нечто близкое к разработке подсказок или контекстной инженерии, поскольку модель обрабатывает результаты поиска и использует их для формирования выходных данных. Однако это приводит к тому же эффекту, что ответы LLM-ов пользователям становятся предвзятыми в пользу или против определенного бренда.
Реагирование на отравление данных
Итак, если вы обучаете модель, используя данные, извлеченные из источников, находящихся вне вашего контроля/созданных другими лицами, как следует избегать отравления данных?
Во-первых, не воруйте данные для обучения. Помимо того, что это этически правильное поведение, вы не можете гарантировать, что данные не будут искажены — с одной стороны, если это чужая интеллектуальная собственность, и у вас нет разрешения на её использование, или если к ней получили доступ злоумышленники, с другой. Вам может повезти, и данные окажутся в порядке, но вы, скорее всего, узнаете об этом только после того, как инвестируете средства.
Во-вторых, отслеживайте и контролируйте сбор данных, а также проверяйте и очищайте обучающие данные. Даже популярные данные из открытых источников и бесплатные данные могут содержать вредоносную информацию. Принимайте тщательные меры по очистке и анализу данных и соблюдайте правила гигиены данных. Не добавляйте некачественные данные в обучающую модель и не ожидайте, что процесс волшебным образом создаст хорошую модель.
В-третьих, управляйте процессом обучения и наблюдайте за ним. Существуют тесты, которые можно применять к обучающим данным, если происходит автоматическое переобучение, а также можно использовать научные методы для определения того, была ли ваша модель «отравлена», как я описывал ранее. Это развивающаяся область исследований, поэтому ожидайте, что эти методы будут совершенствоваться со временем, но уже сейчас существуют хорошие идеи.
В-четвертых, протестируйте свою модель в реальных условиях. Выявить ошибки в работе генеративного ИИ очень сложно, отчасти потому, что спектр вариантов его применения может быть очень обширным, но важно оценивать и тестировать модели в сценариях, максимально приближенных к реальному миру. Я написал несколько статей об оценке моделей на основе линейных моделей и о том, почему это важно — не пропускайте оценку и тестирование.
Теперь я понимаю, что у всех этих решений есть своя цена. Люди используют бесплатные данные или воруют чужую интеллектуальную собственность, потому что оплата всех данных, используемых для обучения моделей машинного обучения, может быть непомерно дорогой. Я не претендую на то, чтобы иметь ответ на этот вопрос, но фраза «Я не могу себе этого позволить, поэтому я это украду» действительно не работает ни в какой другой области нашей жизни, поэтому я не думаю, что мы должны принимать её здесь. Люди в более широком сообществе машинного обучения, такие как Инициатива по происхождению данных, изучают варианты создания лицензированных наборов данных и способы предоставления доступа к данным, с чем я призываю читателей ознакомиться подробнее. Другие решения проблемы отравления данных также требуют труда и усилий, но для разработки моделей, отвечающих нашим потребностям и ожиданиям, всегда будет компромисс.
Помимо этого, всегда существует определенный риск, если вы не контролируете создание данных или модели, которую используете. Как правило, никогда не следует слепо доверять результатам работы модели, а вместо этого оценивать и тестировать модели, которые вы планируете использовать, особенно если они были обучены кем-то другим. Поведение моделей — это область, вызывающая споры: различные стороны заинтересованы в контроле над тем, как генеративные модели ИИ работают и взаимодействуют с нами, поэтому нам необходимо соответствующим образом решать возникающие проблемы.
Источник: towardsdatascience.com























