Изображение Уробороса — змея, кусающая свой хвост, символ вечности и бесконечности.

Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

Исследователи Оксфордского университета заявляют, что использование контента, созданного ИИ, для обучения новых нейросетей грозит коллапсом модели. Это происходит, когда сгенерированные данные «приводят к необратимым дефектам в новых моделях», и они начинают выдавать бессмыслицу.

Как указывается в статье под руководством Ильи Шумайлова, исследователя Google DeepMind и Оксфордского постдокторанта, ИИ часто не распознаёт данные, которые встречаются в обучающих датасетах сравнительно редко. Это означает, что последующие модели, обученные на выходных данных, будут ещё меньше их учитывать. Обучение новых моделей на выходных данных более ранних моделей таким образом превращается в рекурсивную петлю.

Эмили Венгер, доцент кафедры электротехники и вычислительной техники в Университете Дьюка, проиллюстрировала коллапс модели на примере генераций картинок с собаками. По её словам, модель ИИ будет стремиться воссоздать породы собак, которые чаще встречались в её тренировочном датасете, и будет чаще генерировать золотистых ретриверов по сравнению с, например, малыми вандейскими бассет-гриффонами, учитывая относительную распространённость двух пород.

«При достаточном количестве циклов с переизбытком золотистых ретриверов модель вообще “забудет” о существовании малоизвестных пород собак и будет генерировать только картинки ретриверов. В конце концов произойдёт коллапс модели, когда она окажется неспособна генерировать осмысленный контент».

Подобные тенденции присутствуют и в работе с текстовыми датасетами. Авторы статьи привели пример, в котором первая модель генерировала тексты о европейской архитектуре в средние века, а младшая модель через восемь поколений могла выдать только бред про зайцев.

Шумайлов и его коллеги считают, что обучение модели на сгенерированных данных возможно, но отрасль должна разработать эффективные средства фильтрации контента.

«Необходимость отличать сгенерированные данные от других данных поднимает вопросы о контенте, взятом из интернета: неясно, как отслеживать сгенерированные данные в таком масштабе», — говорится в статье.

Источник: habr.com

Источник: ai-news.ru

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Image Not Found
Трое людей используют смартфоны на складе, один в жилете, все с беспроводными наушниками.

Компания DeepL, известная своими функциями перевода текста, теперь хочет переводить и ваш голос.

Источник изображения: DeepL Компания DeepL, специализирующаяся на переводе и известная своими текстовыми инструментами, сегодня выпустила…

Апр 16, 2026
ideipro logotyp

Лучшая камера GoPro (2026): компактная, бюджетная, аксессуары

Вы — герой боевиков, и вам нужна соответствующая камера. Мы поможем вам разобраться во всех моделях, дадим рекомендации по аксессуарам и…

Апр 16, 2026
Родео: ковбой на скачущей лошади в загоне, стильная обработка изображения.

Почему мнения об ИИ так разделились

Стефани Арнетт/MIT Technology Review | Getty Images Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об…

Апр 16, 2026
ideipro logotyp

Вложенное древовидное пространство: геометрическая основа для кофилогении

arXiv:2604.05056v2 Тип объявления: replace-cross Аннотация: Вложенные (или согласованные) филогенетические деревья моделируют…

Апр 16, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO