📉 Нейросетям скоро станет нечего читать: данные для обучения ИИ подходят к концу
Глава лаборатории T-Bank AI Research Даниил Гаврилов рассказал о нарастающей проблеме индустрии — открытые текстовые данные для прокачки моделей практически исчерпаны . Чем умнее становятся нейросети, тем больше информации им требуется, и интернет-тренировки больше не работают.
В чём проблема:
🧠 Моделям нужно не просто больше слов, а качественное и разнообразное знание мира. Даже если учить ИИ только русскому языку, ему всё равно требуется понимание контекста, фактов и логики — а это требует огромных массивов данных .
Что говорят цифры:
📊 Исследования Epoch AI подтверждают: запасы высококачественного текста, созданного людьми, могут иссякнуть уже в 2026–2032 годах . Объём данных для обучения растёт в 2,5 раза в год, а новых текстов в интернете появляется всё меньше .
Чем это грозит:
🔻 Развитие ИИ может замедлиться, если не найти новые источники.
🔄 Использование «синтетических данных» (текстов, сгенерированных самим ИИ) ведёт к «коллапсу модели» — когда нейросеть учится на собственных ошибках и выхолащивается .
💰 Доступ к уникальным данным станет конкурентным преимуществом, и разработка сместится в сторону специализированных моделей под конкретные задачи .
Вывод:
Золотой век безлимитного интернет-обучения заканчивается. Дальше — борьба за качественные данные и новые архитектуры.




















