Этот нашумевший релиз вносит ряд улучшений в пользовательский интерфейс ChatGPT. Но до уровня AGI ему всё ещё далеко.

Компания OpenAI наконец-то выпустила GPT-5. Новая система устраняет различие между флагманскими моделями OpenAI и её серией моделей рассуждений, автоматически направляя запросы пользователей к быстрой модели без рассуждений или к более медленной версии с рассуждениями. Теперь она доступна всем через веб-интерфейс ChatGPT, хотя пользователям, не оплатившим подписку, может потребоваться несколько дней, чтобы получить полный доступ к новым возможностям.
Возникает соблазн сравнить GPT-5 с её явным предшественником, GPT-4, но более показательным является сравнение с o1, первой моделью рассуждений OpenAI, выпущенной в прошлом году. В отличие от широкого выпуска GPT-5, o1 изначально была доступна только подписчикам Plus и Team. Эти пользователи получили доступ к совершенно новой языковой модели — модели, которая «обосновывала» свои ответы, генерируя дополнительный текст перед выдачей окончательного ответа, что позволяло ей решать гораздо более сложные задачи, чем её аналоги, не использующие рассуждения.
Связанная история
На этой неделе этот термин встречается повсюду, но его значение, как всегда, расплывчато. Важно разработать определение.
В то время как o1 был крупным технологическим достижением, GPT-5 — это, прежде всего, усовершенствованный продукт. Во время пресс-конференции Сэм Альтман сравнил GPT-5 с дисплеями Retina от Apple, и это уместная аналогия, хотя, возможно, и не совсем в том смысле, в каком он её задумал. Подобно беспрецедентно чёткому экрану, GPT-5 обеспечит более приятный и плавный пользовательский опыт. Это не мелочь, но она далека от преобразующего будущего искусственного интеллекта, которое Альтман расхваливал большую часть прошлого года. В ходе пресс-конференции Альтман назвал GPT-5 «значительным шагом на пути к общему искусственному интеллекту» (AGI), и, возможно, он прав, но если так, то это очень небольшой шаг.
Взять, к примеру, демонстрацию возможностей модели, которую OpenAI представила журналу MIT Technology Review перед её выпуском. Ян Дюбуа, руководитель программы постобучения в OpenAI, попросил GPT-5 разработать веб-приложение, которое помогло бы его партнёрше выучить французский язык, чтобы ей было легче общаться с семьёй. Модель блестяще выполнила его инструкции и создала привлекательное и удобное приложение. Но когда я дал GPT-4o практически идентичную подсказку, она создала приложение с точно такой же функциональностью. Единственное отличие заключалось в том, что оно было не таким эстетичным.
Некоторые другие улучшения пользовательского опыта более существенны. Возможность выбора модели, а не пользователя, применять ли обоснование к каждому запросу, устраняет серьёзную проблему, особенно для пользователей, которые не следят за развитием LLM.
И, по словам Альтмана, GPT-5 вычисляет гораздо быстрее, чем модели серии O. Тот факт, что OpenAI предоставляет его бесплатным пользователям, говорит о том, что его эксплуатация обходится компании дешевле. Это важно: быстрейшее и недорогое использование мощных моделей — сложная задача, и её решение — ключ к снижению воздействия ИИ на окружающую среду.
Компания OpenAI также предприняла шаги по снижению галлюцинаций, которые были постоянной проблемой. Оценки OpenAI показывают, что модели GPT-5 значительно реже делают ложные заявления, чем их предшественники, O3 и GPT-4o. Если это достижение выдержит проверку, оно может проложить путь к созданию более надёжных и заслуживающих доверия агентов. «Галлюцинации могут создавать реальные проблемы безопасности», — говорит Дон Сонг, профессор компьютерных наук Калифорнийского университета в Беркли. Например, агент, вызывающий галлюцинации программных пакетов, может загрузить вредоносный код на устройство пользователя.
GPT-5 достигла высочайшего уровня производительности в нескольких бенчмарках, включая тест агентских способностей и тесты кодирования SWE-Bench и Aider Polyglot. Однако, по словам Клементины Фурье, исследователя искусственного интеллекта в компании HuggingFace, эти тесты близки к насыщению, а это означает, что текущие модели достигли практически максимальной производительности.
«По сути, это как смотреть на результаты старшеклассника по задачам для среднего класса», — говорит она. «Если старшеклассник не справляется, это говорит о чём-то, но если справляется, это мало о чём говорит». Фурье сказала, что была бы впечатлена, если бы система набрала 80% или 85% на SWE-Bench, но она набрала всего 74,9%.
В конечном счёте, главный посыл OpenAI заключается в том, что GPT-5 удобнее в использовании. «Эта модель производит очень хорошее впечатление, и я думаю, что люди это почувствуют, особенно те, кто не тратит время на размышления о моделях», — сказал Ник Тёрли, руководитель ChatGPT.
Однако одни только вибрации не приведут к автоматизированному будущему, обещанному Альтманом. Рассуждение казалось важным шагом на пути к ИИОН. Мы всё ещё ждём следующего.
Источник: www.technologyreview.com



























