
В понедельник на своем Дне разработчиков компания OpenAI представила новые обновления API, представив GPT-5 Pro, свою новейшую языковую модель, новую модель генерации видео Sora 2 и более компактную и дешевую голосовую модель.
Обновления стали частью серии объявлений, направленных на привлечение разработчиков в экосистему OpenAI, включая запуск инструмента для создания агентов и возможность создавать приложения в ChatGPT.
По словам генерального директора OpenAI Сэма Альтмана, добавление GPT-5 Pro может заинтересовать разработчиков, создающих приложения в сфере финансов, юриспруденции и здравоохранения — отраслях, которым требуется «высокая точность и глубина рассуждений».
Альтман также отметил, что голосовые возможности будут играть важную роль в будущем, поскольку они быстро становятся одним из основных способов взаимодействия людей с ИИ. С этой целью OpenAI запускает «gpt-realtime mini» — компактную и более дешёвую голосовую модель в API, которая поддерживает потоковую передачу аудио и речи с низкой задержкой. Новая модель на 70% дешевле предыдущей продвинутой голосовой модели OpenAI, но обещает «то же качество голоса и выразительность».
Наконец, создатели контента, участвующие в экосистеме разработчиков OpenAI, теперь могут воспользоваться предварительным просмотром Sora 2 через API. OpenAI выпустила Sora 2, свой новейший генератор аудио- и видеоконтента, на прошлой неделе, вместе с приложением Sora, конкурентом TikTok, предлагающим короткие видеоролики, созданные искусственным интеллектом. Приложение Sora позволяет пользователям создавать видеоролики с собой, друзьями или чем-либо ещё по заданным подсказкам и делиться ими через алгоритмическую ленту в стиле TikTok.
«[Разработчики] теперь имеют доступ к той же модели, которая обеспечивает потрясающий вывод видео Sora 2, прямо в вашем собственном приложении», — сказал Альтман.
Sora 2 является продолжением предыдущего поколения и предлагает более реалистичные, физически согласованные сцены с синхронизированным звуком и расширенными возможностями творческого контроля — от детального направления камеры до стилизованных визуальных эффектов.
«Например, можно взять изображение с iPhone и попросить Сору расширить его до масштабного, кинематографичного кадра», — сказал Альтман. «Но одна из самых интересных вещей, над которыми мы работали, — это то, насколько хорошо эта новая модель сочетает звук с визуальным рядом, не только речью, но и насыщенными звуковыми ландшафтами, фоновым звуком и синхронизированными эффектами, которые тесно связаны с тем, что вы видите».
Sora 2 позиционируется как инструмент для разработки концепций, будь то визуальная отправная точка для рекламы, основанной на общей атмосфере продукта, или дизайнер Mattel, превращающий набросок в концепцию игрушки — пример, представленный Альтманом на Dev Day, который проливает свет на сделку OpenAI с производителем кукол Барби о внедрении генеративного ИИ в процесс производства игрушек.
Источник: techcrunch.com



























