Узнайте о функциях и настройках GPT-5, а также о том, как оптимально применить их в вашем конкретном случае.
Делиться

GPT-5 — новейшая модель OpenAI, обладающая мощными и полезными функциями. Модель предлагает широкий выбор параметров и опций, которые необходимо правильно подобрать для оптимизации производительности GPT-5 в вашей области применения.
В этой статье я подробно рассмотрю различные варианты использования GPT-5 и помогу вам выбрать оптимальные настройки для вашего сценария использования. Я расскажу о различных способах ввода данных, доступных в GPT-5, таких как инструменты и загрузка файлов, а также о параметрах, которые можно задать для модели.
Эта статья не спонсируется OpenAI и представляет собой просто обобщение моего опыта использования GPT-5 с обсуждением того, как можно эффективно использовать эту модель.

Почему вам следует использовать GPT-5
GPT-5 — очень мощная модель, которую можно использовать для самых разных задач. Например, её можно использовать для создания чат-бота-помощника или для извлечения важных метаданных из документов. Однако GPT-5 также имеет множество различных опций и настроек, о многих из которых вы можете узнать подробнее в руководстве OpenAI по GPT-5. Я расскажу, как ориентироваться во всех этих опциях и оптимально использовать GPT-5 в вашем конкретном случае.
Мультимодальные способности
GPT-5 — это мультимодальная модель, то есть вы можете вводить текст, изображения и аудио, и модель выведет текст. Вы также можете комбинировать различные модальности ввода, например, ввести изображение и запрос с вопросом об этом изображении, а затем получить ответ. Конечно, от LLM ожидается умение вводить текст, но умение вводить изображения и аудио очень ценно.
Как я уже говорил в предыдущих статьях, VLM чрезвычайно эффективны благодаря своей способности напрямую распознавать изображения, что обычно работает эффективнее, чем распознавание текста на изображении с последующим его пониманием. Тот же принцип применим и к аудио. Например, вы можете напрямую отправить аудиоклип и проанализировать не только слова в нём, но и высоту тона, скорость речи и т. д. Мультимодальное понимание позволяет глубже понять анализируемые данные.
Инструменты
Инструменты — ещё одна мощная функция, доступная вам. Вы можете определить инструменты, которые модель будет использовать во время выполнения, что превращает GPT-5 в агента. Примером простого инструмента является функция get_weather():
def get_weather(city: str): return «Солнечно»
Затем вы можете сделать свои собственные инструменты доступными для вашей модели вместе с описанием и параметрами для вашей функции:
tools = [ { «type»: «function», «name»: «get_weather», «description»: «Получить сегодняшнюю погоду.», «parameters»: { «type»: «object», «properties»: { «city»: { «type»: «string», «description»: «Город, для которого вы хотите узнать погоду», }, }, «required»: [«city»], }, }, ]
Важно обеспечить подробную и описательную информацию в определениях функций, включая описание функции и параметры ее использования.
Вы можете определить множество инструментов, которые будут доступны вашей модели, но важно помнить основные принципы определения инструментов ИИ:
- Инструменты хорошо описаны
- Инструменты не перекрываются
- Сделайте так, чтобы модели было очевидно, когда использовать функцию. Неоднозначность делает использование инструмента неэффективным.
Параметры
При использовании GPT-5 следует учитывать три основных параметра:
- Усилия по рассуждению
- Многословие
- Структурированный вывод
Теперь я опишу различные параметры и подходы к их выбору.
Усилия по рассуждению
Усилия по рассуждению — это параметр, в котором вы выбираете из:
- минимальный
- низкий
- середина
- высокий
Минимальный объем рассуждений, по сути, делает GPT-5 моделью, не требующей рассуждений, и ее следует использовать для более простых задач, требующих быстрых ответов. Например, минимальные затраты на рассуждения можно использовать в чат-приложении, где вопросы просты для понимания и пользователи ожидают быстрых ответов.
Чем сложнее ваша задача, тем больше рассуждений следует использовать, однако следует помнить о затратах и задержках, связанных с их применением. Рассуждения учитываются в выходных токенах, и на момент написания этой статьи их стоимость составляла 10 долларов США/млн токенов для GPT-5.
Обычно я экспериментирую с моделью, начиная с минимального уровня затрат на рассуждение. Если я замечаю, что модель испытывает трудности с получением качественных ответов, я перехожу на более высокий уровень затрат на рассуждение, сначала от минимального к низкому. Затем я продолжаю тестировать модель и проверяю её эффективность. Вам следует стремиться к минимальному уровню затрат на рассуждение с приемлемым качеством.
Вы можете задать усилие рассуждения с помощью:
клиент = OpenAI() request_params = { «model» = «gpt-5», «input» = messages, «reasoning»: {«effort»: «medium»}, # может быть: минимальным, низким, средним, высоким } client.responses.create(**request_params)
Многословие
Еще одним важным настраиваемым параметром является детализация, которую можно выбрать из:
- низкий
- середина
- высокий
Уровень детализации определяет количество выходных токенов (исключая токены мышления), которые должна выводить модель. Значение по умолчанию — средний уровень детализации, который, по заявлению OpenAI, фактически использовался в предыдущих моделях.
Предположим, вы хотите, чтобы модель генерировала более длинные и подробные ответы, вам следует установить высокий уровень детализации. Однако я чаще всего выбираю между низким и средним уровнем детализации.
- Для чат-приложений средняя степень детализации хороша, поскольку слишком краткая модель может создать у пользователей ощущение, что она менее полезна (многие пользователи предпочитают более подробные ответы).
- Однако для извлечения данных, когда требуется вывести только конкретную информацию, например, дату из документа, я устанавливаю низкую детализацию. Это помогает гарантировать, что модель выдаст только нужный мне результат (дату), без дополнительных обоснований и контекста.
Вы можете установить уровень детализации с помощью:
клиент = OpenAI() request_params = { «model» = «gpt-5», «input» = messages, «text» = {«verbosity»: «medium»}, # может быть: low, medium, high } client.responses.create(**request_params)
Структурированный вывод
Структурированный вывод — это мощный параметр, который можно использовать для обеспечения ответа GPT-5 в формате JSON. Это также полезно, если вы хотите извлечь конкретные точки данных, а не какой-либо другой текст, например, дату из документа. Это гарантирует, что модель ответит корректным JSON-объектом, который затем можно будет проанализировать. Для извлечения всех метаданных я использую этот структурированный вывод, поскольку он чрезвычайно полезен для обеспечения согласованности. Вы можете использовать структурированный вывод, добавив ключ «text» в параметры запроса к GPT-5, как показано ниже.
клиент = OpenAI() request_params = { «model» = «gpt-5», «input» = messages, «text» = {«format»: {«type»: «json_object»}}, } клиент.responses.create(**request_params)
Обязательно укажите «JSON» в приглашении; в противном случае при использовании структурированного вывода возникнет ошибка.
Загрузка файла
Загрузка файлов — ещё одна мощная функция, доступная через GPT-5. Ранее я уже обсуждал мультимодальные возможности модели. Однако в некоторых сценариях полезно загрузить документ напрямую и поручить его анализ OpenAI. Например, если вы ещё не проводили OCR или не извлекали изображения из документа, вы можете загрузить документ непосредственно в OpenAI и задать ему вопросы. По опыту, загрузка файлов также происходит быстро, и вы обычно получаете быстрые ответы, в основном в зависимости от затраченных усилий.
Если вам нужны быстрые ответы на документы и у вас нет времени на предварительное использование OCR, загрузка файлов — это мощная функция, которую вы можете использовать.
Недостатки GPT-5
У GPT-5 также есть некоторые недостатки. Главный из них, который я заметил во время использования, заключается в том, что OpenAI не делится токенами мышления при использовании модели. Вы можете получить доступ только к сводке мышления.
Это очень ограничивает возможности реальных приложений, поскольку при использовании более высоких затрат на рассуждения (средних или высоких) невозможно передавать пользователю информацию из GPT-5, пока модель находится в состоянии «размышления», что негативно сказывается на пользовательском опыте. В таком случае остаётся вариант использовать более низкие затраты на рассуждения, что приводит к снижению качества результатов. Другие поставщики передовых моделей, такие как Anthropic и Gemini, предлагают токены для рассуждений.
Также было много обсуждений о том, что GPT-5 менее креативен, чем его предшественники, хотя обычно это не является большой проблемой для приложений, над которыми я работаю, поскольку креативность обычно не является обязательным требованием для использования API GPT-5.
Заключение
В этой статье я представил обзор GPT-5 с различными параметрами и опциями, а также рассказал, как наиболее эффективно использовать эту модель. При правильном использовании GPT-5 — очень мощная модель, хотя, естественно, у неё есть и недостатки, главный из которых, на мой взгляд, заключается в том, что OpenAI не использует токены рассуждений совместно с другими. При работе над приложениями LLM я всегда рекомендую иметь резервные модели от других поставщиков передовых моделей. Например, можно использовать GPT-5 в качестве основной модели, но в случае сбоя можно использовать Gemini 2.5 Pro от Google.
👉 Найдите меня в соцсетях:
📩 Подпишитесь на мою рассылку
🧑💻 Свяжитесь с нами
🐦 X / Твиттер
✍️ Средний
Вы также можете прочитать мои другие статьи:
- Как применять мощные аудиомодели искусственного интеллекта в реальных приложениях
- Как последовательно извлекать метаданные из сложных документов
Источник: towardsdatascience.com



























