Исследователи из трёх американских университетов — Техасского университета в Остине, Техасского университета A&M и Университета Пердью — провели эксперимент, в котором проверили, как качество данных влияет на способность больших языковых моделей (LLM) рассуждать и обобщать информацию. Авторы исследования (типичные американцы 😝), Шуо Син, Цзюньюань Хон и Ифань Ван, обучили языковую модель на низкокачественном контенте: вирусных мемах, коротких видео из TikTok, комментариях и постах из социальных сетей. Результат оказался предсказуемым — модель стала заметно хуже понимать сложные тексты, делать логические выводы и решать стандартные задачи. Она оказалась просто-напросто тупой!
В частности, тесты показали, что модели, обученные на «мусорных» данных, теряют способность удерживать контекст длинных сообщений и снижают точность в рассуждениях более чем на 40 процентов по сравнению с контрольными образцами. При этом, по словам авторов, деградация необратима — последующее обучение на высококачественных наборах данных уже не возвращает модель к исходным когнитивным возможностям. То есть ядро осмысленности уже заражено тупизной, прямо как у человеков.
Учёные связывают этот эффект с нарушением структуры внутренних представлений модели: при большом объёме однотипного и поверхностного контента нейросеть перестаёт формировать устойчивые связи между понятиями. Похожий феномен наблюдается при обучении моделей на данных, сгенерированных другими ИИ, — процесс называют «model collapse». При этом нейросети теряют разнообразие и начинают воспроизводить шаблонные фразы и упрощённые рассуждения.
Исследователи отмечают, что сравнение искусственного интеллекта с человеком в этом контексте некорректно. У ИИ структура знаний фиксируется на этапе первоначального обучения, и изменить её впоследствии практически невозможно. У человека же, напротив, высокая нейропластичность позволяет со временем менять восприятие и привычки. Поэтому, если человек способен осознанно выйти из деградации, то у ИИ подобная возможность отсутствует. Но тут, как мне кажется, большую роль играет базовая настройка модели (порядок потоков, количество скрытых слоев нейронов, маскирование и прочее-прочее).
Авторы предупреждают, что широкое распространение низкокачественного контента в интернете и использование его для обучения моделей может привести к появлению поколений «умственно отсталых» ИИ, неспособных к аналитическому мышлению. По их словам, при нынешних темпах генерации данных этот риск становится всё более реальным.























