Image

Разрыв в подкреплении: почему некоторые навыки ИИ развиваются быстрее других

Круг, образованный изогнутыми стрелками, как символ переработки отходов, 3D-иллюстрация, горизонтальное изображение
Авторы изображений: Леонардо Пенуэла Бернал / Getty Images

Инструменты для программирования ИИ быстро совершенствуются. Если вы не работаете с кодом, вам может быть сложно заметить, насколько сильно всё меняется, но GPT-5 и Gemini 2.5 открывают целый ряд новых возможностей для автоматизации разработки, а на прошлой неделе Sonnet 2.4 сделал это снова.

В то же время другие навыки развиваются медленнее. Если вы используете ИИ для написания электронных писем, вы, вероятно, получаете от этого ту же пользу, что и год назад. Даже когда модель совершенствуется, продукт не всегда выигрывает, особенно если это чат-бот, выполняющий одновременно десяток различных задач. ИИ всё ещё развивается, но его применение не так равномерно, как раньше.

Разница в прогрессе проще, чем кажется. Приложения для программирования получают выгоду от миллиардов легко измеряемых тестов, которые могут научить их создавать работоспособный код. Это обучение с подкреплением (RL), которое, пожалуй, стало главным драйвером прогресса ИИ за последние шесть месяцев и постоянно усложняется. Обучение с подкреплением можно проводить с участием людей-оценщиков, но лучше всего оно работает, если есть чёткая метрика «зачёт/незачёт», чтобы можно было повторять его миллиарды раз без необходимости вмешательства человека.

Поскольку отрасль всё больше полагается на обучение с подкреплением для улучшения продуктов, мы видим реальную разницу между возможностями, которые можно автоматически оценить, и теми, которые нельзя. Навыки, подходящие для обучения с подкреплением, такие как исправление ошибок и соревновательная математика, быстро совершенствуются, в то время как такие навыки, как письмо, развиваются лишь постепенно.

Короче говоря, существует разрыв в подкреплении — и он становится одним из важнейших факторов, определяющих, что могут и чего не могут делать системы ИИ.

В некотором смысле разработка программного обеспечения — идеальный объект для обучения с подкреплением. Ещё до появления искусственного интеллекта существовала целая дисциплина, посвящённая тестированию программного обеспечения на устойчивость к нагрузкам — в основном потому, что разработчикам нужно было убедиться в работоспособности кода перед его внедрением. Поэтому даже самый элегантный код всё равно должен пройти модульное тестирование, интеграционное тестирование, тестирование безопасности и так далее. Разработчики-люди регулярно используют эти тесты для проверки своего кода, и, как недавно сказал мне старший директор Google по инструментам разработки, они так же полезны для проверки кода, сгенерированного искусственным интеллектом. Более того, они полезны для обучения с подкреплением, поскольку уже систематизированы и воспроизводимы в больших масштабах.

Не существует простого способа проверить правильность написанного электронного письма или ответа чат-бота; эти навыки по своей природе субъективны и их сложнее измерить в масштабе. Но не каждая задача однозначно попадает в категории «легко тестировать» или «сложно тестировать». У нас нет готового набора инструментов для тестирования квартальных финансовых отчетов или актуарной науки, но хорошо капитализированный стартап в области бухгалтерского учета, вероятно, мог бы создать его с нуля. Конечно, некоторые наборы инструментов будут работать лучше других, и некоторые компании будут более разумно подходить к решению проблемы. Но тестируемость базового процесса станет решающим фактором в том, можно ли превратить его в функциональный продукт, а не просто в увлекательную демонстрационную версию.

Некоторые процессы оказываются более податливыми к тестированию, чем вы могли бы подумать. Если бы вы спросили меня на прошлой неделе, я бы отнёс видео, сгенерированное ИИ, к категории «сложно тестируемых», но огромный прогресс, достигнутый новой моделью Sora 2 от OpenAI, показывает, что это может быть не так сложно, как кажется. В Sora 2 объекты больше не появляются и не исчезают из ниоткуда. Лица сохраняют свою форму, выглядя как конкретный человек, а не просто набор черт. Видеоматериалы Sora 2 подчиняются законам физики как очевидным, так и неявным образом. Подозреваю, что если бы вы заглянули за кулисы, то обнаружили бы надёжную систему обучения с подкреплением для каждого из этих качеств. В совокупности они составляют разницу между фотореализмом и развлекательной галлюцинацией.

Для ясности: это не непреложное правило искусственного интеллекта. Это результат центральной роли обучения с подкреплением в разработке ИИ, которая может легко измениться по мере развития моделей. Но пока обучение с подкреплением остаётся основным инструментом вывода продуктов ИИ на рынок, разрыв в подкреплении будет только увеличиваться, что повлечёт серьёзные последствия как для стартапов, так и для экономики в целом. Если процесс окажется на правильной стороне разрыва в подкреплении, стартапы, вероятно, преуспеют в его автоматизации, и любой, кто занимается этой работой сейчас, может в итоге искать новую карьеру. Например, вопрос о том, какие медицинские услуги поддаются обучению с подкреплением, имеет огромное значение для облика экономики в ближайшие 20 лет. И если сюрпризы, подобные Sora 2, хоть как-то указывают, нам, возможно, не придётся долго ждать ответа.

Источник: techcrunch.com

✅ Найденные теги: новости, Разрыв
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых