
Инструменты для программирования ИИ быстро совершенствуются. Если вы не работаете с кодом, вам может быть сложно заметить, насколько сильно всё меняется, но GPT-5 и Gemini 2.5 открывают целый ряд новых возможностей для автоматизации разработки, а на прошлой неделе Sonnet 2.4 сделал это снова.
В то же время другие навыки развиваются медленнее. Если вы используете ИИ для написания электронных писем, вы, вероятно, получаете от этого ту же пользу, что и год назад. Даже когда модель совершенствуется, продукт не всегда выигрывает, особенно если это чат-бот, выполняющий одновременно десяток различных задач. ИИ всё ещё развивается, но его применение не так равномерно, как раньше.
Разница в прогрессе проще, чем кажется. Приложения для программирования получают выгоду от миллиардов легко измеряемых тестов, которые могут научить их создавать работоспособный код. Это обучение с подкреплением (RL), которое, пожалуй, стало главным драйвером прогресса ИИ за последние шесть месяцев и постоянно усложняется. Обучение с подкреплением можно проводить с участием людей-оценщиков, но лучше всего оно работает, если есть чёткая метрика «зачёт/незачёт», чтобы можно было повторять его миллиарды раз без необходимости вмешательства человека.
Поскольку отрасль всё больше полагается на обучение с подкреплением для улучшения продуктов, мы видим реальную разницу между возможностями, которые можно автоматически оценить, и теми, которые нельзя. Навыки, подходящие для обучения с подкреплением, такие как исправление ошибок и соревновательная математика, быстро совершенствуются, в то время как такие навыки, как письмо, развиваются лишь постепенно.
Короче говоря, существует разрыв в подкреплении — и он становится одним из важнейших факторов, определяющих, что могут и чего не могут делать системы ИИ.
В некотором смысле разработка программного обеспечения — идеальный объект для обучения с подкреплением. Ещё до появления искусственного интеллекта существовала целая дисциплина, посвящённая тестированию программного обеспечения на устойчивость к нагрузкам — в основном потому, что разработчикам нужно было убедиться в работоспособности кода перед его внедрением. Поэтому даже самый элегантный код всё равно должен пройти модульное тестирование, интеграционное тестирование, тестирование безопасности и так далее. Разработчики-люди регулярно используют эти тесты для проверки своего кода, и, как недавно сказал мне старший директор Google по инструментам разработки, они так же полезны для проверки кода, сгенерированного искусственным интеллектом. Более того, они полезны для обучения с подкреплением, поскольку уже систематизированы и воспроизводимы в больших масштабах.
Не существует простого способа проверить правильность написанного электронного письма или ответа чат-бота; эти навыки по своей природе субъективны и их сложнее измерить в масштабе. Но не каждая задача однозначно попадает в категории «легко тестировать» или «сложно тестировать». У нас нет готового набора инструментов для тестирования квартальных финансовых отчетов или актуарной науки, но хорошо капитализированный стартап в области бухгалтерского учета, вероятно, мог бы создать его с нуля. Конечно, некоторые наборы инструментов будут работать лучше других, и некоторые компании будут более разумно подходить к решению проблемы. Но тестируемость базового процесса станет решающим фактором в том, можно ли превратить его в функциональный продукт, а не просто в увлекательную демонстрационную версию.
Некоторые процессы оказываются более податливыми к тестированию, чем вы могли бы подумать. Если бы вы спросили меня на прошлой неделе, я бы отнёс видео, сгенерированное ИИ, к категории «сложно тестируемых», но огромный прогресс, достигнутый новой моделью Sora 2 от OpenAI, показывает, что это может быть не так сложно, как кажется. В Sora 2 объекты больше не появляются и не исчезают из ниоткуда. Лица сохраняют свою форму, выглядя как конкретный человек, а не просто набор черт. Видеоматериалы Sora 2 подчиняются законам физики как очевидным, так и неявным образом. Подозреваю, что если бы вы заглянули за кулисы, то обнаружили бы надёжную систему обучения с подкреплением для каждого из этих качеств. В совокупности они составляют разницу между фотореализмом и развлекательной галлюцинацией.
Для ясности: это не непреложное правило искусственного интеллекта. Это результат центральной роли обучения с подкреплением в разработке ИИ, которая может легко измениться по мере развития моделей. Но пока обучение с подкреплением остаётся основным инструментом вывода продуктов ИИ на рынок, разрыв в подкреплении будет только увеличиваться, что повлечёт серьёзные последствия как для стартапов, так и для экономики в целом. Если процесс окажется на правильной стороне разрыва в подкреплении, стартапы, вероятно, преуспеют в его автоматизации, и любой, кто занимается этой работой сейчас, может в итоге искать новую карьеру. Например, вопрос о том, какие медицинские услуги поддаются обучению с подкреплением, имеет огромное значение для облика экономики в ближайшие 20 лет. И если сюрпризы, подобные Sora 2, хоть как-то указывают, нам, возможно, не придётся долго ждать ответа.
Источник: techcrunch.com



























