
Искусственный интеллект уже оказывает колоссальное влияние на то, как пишется программное обеспечение, и большая часть рутинной работы по программированию теперь выполняется роями агентов и субагентов. Но по мере того, как разработчики экспериментируют с новыми интерфейсами и форм-факторами для взаимодействия человека и ИИ, даже самым передовым лабораториям ИИ становится трудно идти в ногу со временем.
В настоящее время наблюдается тенденция к разработке программного обеспечения с использованием агентов — систем, в которых агенты ИИ могут независимо работать над задачами программирования, — примером чего являются приложения Claude Code и Cowork. Тем временем компания OpenAI постепенно развивает свой инструмент Codex, который был запущен в апреле прошлого года как инструмент командной строки, а месяц спустя расширился до веб-интерфейса.
Теперь OpenAI делает важный шаг навстречу прогрессу. В понедельник компания запустила новое приложение для macOS, использующее Codex и интегрирующее многие из методов работы с агентами, ставших популярными за последний год. Новое приложение предназначено для параллельной работы с несколькими агентами, интегрируя навыки агентов и другие передовые рабочие процессы. Запуск также состоялся менее чем через два месяца после запуска GPT-5.2-Codex, самой мощной модели кодирования OpenAI, которая, как надеется компания, привлечет пользователей Claude Code.
«Если вы действительно хотите выполнять сложную работу над чем-то комплексным, то версия 5.2 — безусловно, самая мощная модель», — заявил генеральный директор Сэм Альтман журналистам во время пресс-конференции. «Однако ею сложнее пользоваться, поэтому мы считаем, что перенос такого уровня возможностей модели в более гибкий интерфейс будет иметь большое значение».
Хотя уверенность Альтмана в GPT-5.2 понятна, результаты тестов производительности программистов говорят о более сложной картине. GPT-5.2 действительно занимает первое место в TerminalBench (тест, измеряющий, насколько хорошо ИИ справляется с задачами программирования из командной строки), по крайней мере, на момент публикации. Но агенты из Gemini 3 и Claude Opus показали примерно одинаковые результаты — ниже, но в пределах погрешности теста. Результаты SWE-bench, другого теста производительности программистов, проверяющего способность ИИ исправлять реальные программные ошибки, схожи и не показывают явного преимущества GPT-5.2. Однако эффективно оценить производительность агентных сценариев сложно, а современные модели могут значительно различаться по удобству использования.
Приложение Codex также включает в себя ряд новых функций, которые, по словам OpenAI, помогут ему достичь паритета или, в некоторых случаях, превзойти различные приложения Claude. Приложение Codex позволит создавать автоматизации, которые можно настроить на автоматическое выполнение в фоновом режиме по расписанию, а результаты будут помещены в очередь для просмотра после возвращения пользователя. Пользователи также могут выбирать различные типы личности для агента — от прагматичного до эмпатичного — в зависимости от своего стиля работы.
Но для компании главным преимуществом является невероятная скорость разработки, которую обеспечивает ИИ. «Вы можете начать с чистого листа, с нуля, и за несколько часов создать действительно очень сложную программу», — сказал Альтман. «Насколько быстро я могу вводить новые идеи, настолько же ограничены возможности ее реализации».
Источник: techcrunch.com



























