Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

aa48332e853894bb06644ec7720ff99a

Исследователи Оксфордского университета заявляют, что использование контента, созданного ИИ, для обучения новых нейросетей грозит коллапсом модели. Это происходит, когда сгенерированные данные «приводят к необратимым дефектам в новых моделях», и они начинают выдавать бессмыслицу.

Как указывается в статье под руководством Ильи Шумайлова, исследователя Google DeepMind и Оксфордского постдокторанта, ИИ часто не распознаёт данные, которые встречаются в обучающих датасетах сравнительно редко. Это означает, что последующие модели, обученные на выходных данных, будут ещё меньше их учитывать. Обучение новых моделей на выходных данных более ранних моделей таким образом превращается в рекурсивную петлю.

Эмили Венгер, доцент кафедры электротехники и вычислительной техники в Университете Дьюка, проиллюстрировала коллапс модели на примере генераций картинок с собаками. По её словам, модель ИИ будет стремиться воссоздать породы собак, которые чаще встречались в её тренировочном датасете, и будет чаще генерировать золотистых ретриверов по сравнению с, например, малыми вандейскими бассет-гриффонами, учитывая относительную распространённость двух пород.

«При достаточном количестве циклов с переизбытком золотистых ретриверов модель вообще “забудет” о существовании малоизвестных пород собак и будет генерировать только картинки ретриверов. В конце концов произойдёт коллапс модели, когда она окажется неспособна генерировать осмысленный контент».

Подобные тенденции присутствуют и в работе с текстовыми датасетами. Авторы статьи привели пример, в котором первая модель генерировала тексты о европейской архитектуре в средние века, а младшая модель через восемь поколений могла выдать только бред про зайцев.

Шумайлов и его коллеги считают, что обучение модели на сгенерированных данных возможно, но отрасль должна разработать эффективные средства фильтрации контента.

«Необходимость отличать сгенерированные данные от других данных поднимает вопросы о контенте, взятом из интернета: неясно, как отслеживать сгенерированные данные в таком масштабе», — говорится в статье.

Источник: habr.com

Источник: ai-news.ru

✅ Найденные теги: Данные, Деградация, ИИ, новости, Обучение, ученые

Добавить комментарий

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле Архив рубрики ~Лента новостей~: Рассматриваем первую фотографию контактной площадки процессоров Intel Nova Lake