Петля обучения на AI-коде: почему Хотц и Карпаты на одной неделе сказали противоположное
За одну неделю мая два заметных голоса сказали про ИИ в разработке противоположное. Андрей Карпаты 19 мая в Anthropic: ИИ-агенты уже изменили программирование. Джордж Хотц (geohot) 24 мая в эссе «The Eternal Sloptember»: массовое внедрение агентов — одна из самых дорогих ошибок в истории софта. Один и тот же тренд — выводы врозь.

Месяц назад я разбирал вайб-кодинг против AI-first разработки и доказывал, что AI-first масштабируется, а вайб-кодинг копит технический долг. Я по-прежнему так считаю. Но в споре Хотца и Карпаты есть этаж, которого та статья не касалась. И эти двое не противоречат друг другу — они говорят про разные уровни.
Что увидел Хотц
Хотц не против ИИ в принципе — сами модели он называет лучшим в мире поиском. Его пессимизм узкий, про конкретное: про production-код. Полгода он гонял агентов на своём проекте tinygrad и на реверсе USB↔PCIe и описал эффект «рычага игрового автомата»: агент будто выдаёт почти весь прогресс сразу, в начале. Первые 80% выглядят как магия, а дотяжка до рабочего результата не приходит — последние проценты приходится доделывать руками, и часто дешевле было сразу написать самому.
Тревожится он не за себя — сильный инженер слоп заметит. Опасность он видит в крупных компаниях, где слабый разработчик не отличит правдоподобный код от рабочего и зальёт его в продакшен.
Риск, который не виден на уровне команды
И вот этаж, который дисциплина на уровне команды не закрывает: петля обучения. Модели всё чаще учатся на коде, который сгенерировали такие же модели.
Communications of the ACM в феврале 2026 зафиксировал случаи деградации — «model collapse уже происходит»: ответы беднеют по смыслу, становятся более однообразными. Разбор AgentMarketCap (апрель 2026) даёт отрезвляющую цифру: достаточно 0,1% синтетических данных в обучающем наборе, чтобы через несколько итераций получить измеримую деградацию. При этом уже в 2025 около 27% коммитов на GitHub шли с участием ИИ, и это заниженная оценка — один Claude Code даёт около 4%. Прогноз простой: через 12–24 месяца большинство нового публичного кода будет AI-сгенерированным. Модели всё больше учатся на самих себе.
Академики описали это раньше. Базовая работа Ильи Шумайлова и коллег (Nature, 2023): рекурсивное обучение на синтетике ведёт к коллапсу. Свежее исследование Knowledge Collapse раскладывает деградацию на три стадии, и средняя — самая коварная: модель «уверенно врёт». Формат ответа идеальный, факты внутри гниют. Для бизнеса это опаснее явной ошибки: явную видно сразу, уверенную — нет. Способы оттянуть предел есть: например, метод ForTIFAI меняет обучение так, чтобы модель меньше доверяла собственным синтетическим ответам, и отодвигает порог деградации в 2,3 раза. Но это отсрочка, а не лекарство.
Три стадии Knowledge CollapseСпор не закрыт
Консенсуса «всё пропало» здесь нет, и контраргументы весомые — их стоит проговорить.
Начать стоит с оптимиста. Дарио Амодеи, глава Anthropic, ещё в январе в Давосе заметил: нарратив «ИИ уперся в стену, всё сейчас посыпется» возвращается каждые несколько месяцев, а кривая возможностей при этом растёт ровно, без обвалов. По его словам, часть инженеров Anthropic уже не пишет код руками, только правит сгенерированное, и продуктивность от этого выросла. Полезное напоминание: не каждый тревожный сигнал означает разворот тренда.
Данные. Лаборатории не скрейпят интернет вслепую: они платят за чистые датасеты и фильтруют синтетику. Доля мусора в обучении — управляемая величина, а не стихия.
Метод обучения. Карпаты на Hacker News прямо пишет, что страхи 2024 года интуитивно ведут не туда. При дообучении с подкреплением (task RL) модель учится на проверяемом результате, а не копирует чужой текст вслепую.
Отбор. Исследование Beyond Model Collapse (ICLR 2025) показывает: если синтетику пропускать через верификаторы и оставлять только корректные примеры, коллапс предотвратим.
Точнее всего сказать так: предел на горизонте виден, но он не предопределён. Индустрия пока просто не умеет обходить его в больших масштабах.
Цена дисциплины растёт
Свежий разбор Constraint Decay (конец мая) добавляет неожиданный штрих. Когда модели навязывают жёсткие рамки — спецификации, карантинные зоны, обязательные ревью и тесты, — она тратит заметно больше токенов на ту же работу. А ведь это ровно те практики, на которых держится аккуратная разработка с ИИ.
Получается, у дисциплины есть цена, и она растёт: чем сильнее модель опирается на синтетику, тем дороже в токенах и времени обходится удерживать её в рамках. Это не значит, что подход перестаёт работать — он работает. Просто делать аккуратно стоит дороже, чем год назад, и эту стоимость стоит закладывать в проект заранее.
Что делать сегодня
Не паниковать и не переписывать процессы. Три практичных шага для тех, кто строит на ИИ:
- Читать model cards новых релизов: какая доля синтетики в предобучении. Не раскрывают — это флаг.
- Не считать свежий снапшот автоматически лучше прежнего. Сравнивать на своих задачах, а не на общих бенчмарках.
- Беречь ground-truth: документацию, тесты и форки кода, написанные людьми до эпохи LLM. Завтра это станет ценностью, а не балластом.
Вывод: потолок передвинулся
Хотц прав на уровне индустрии — макро-вектор тревожный. Карпаты прав на уровне человека — продуктивность сильного разработчика с ИИ растёт кратно. Это не противоречие, а два этажа одного здания. За свой micro отвечает команда, и здесь AI-first остаётся правильным выбором. За macro отвечают лаборатории и индустрия — и пока отвечают не системно.
Выбирать сторону тут не нужно. Аккуратность в работе с ИИ из приятного преимущества превращается в базовое условие — хотя бы чтобы не утонуть в собственном слопе. На своём уровне это в наших руках: выбор моделей, проверки, бережное отношение к проверенному коду. На уровне индустрии — пока открытый вопрос, и честнее держать его открытым, чем закрывать лозунгом.
FAQ
Значит, ИИ-модели скоро станут хуже?
Не обязательно. Риск реальный и задокументированный, но у лабораторий есть способы фильтровать данные и отбирать синтетику. Вопрос не «деградируют или нет», а успеет ли индустрия масштабировать защиту быстрее, чем растёт доля AI-кода в обучении.
Тогда стоит ли вообще отказаться от ИИ в разработке?
Нет. На уровне вашей команды AI-first остаётся выгодным. Это риск уровня индустрии, на который вы влияете косвенно — выбором моделей и тем, насколько бережёте свои проверенные данные.
Новые исследования по теме и разборы в Telegram — @dmitra_ai.
Источник: vc.ru

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.