Image

Claude Sonnet 4.5 vs Opus 4.1 vs ChatGPT 5: какую нейросеть выбрать в 2025 году?

81b78f64d9a42f10e0696c67eb4272fb

Интернет снова взорвался новостью от Anthropic: вышла модель Claude Sonnet 4.5, которую уже окрестили лучшим кодирующим ИИ в мире. Сообщают о невероятных успехах в бенчмарках, снижении галлюцинаций и новой гибридной системе рассуждений.

Но за громкими заголовками всегда скрывается вопрос: а что на практике? Оправдывает ли модель ажиотаж и сможет ли она действительно стать тем самым «никогда не спящим аналитиком» в вашем проекте? В этой статье мы пропустим Claude Sonnet 4.5 через серию реальных задач — от генерации сложного кода до написания технических статей — и сравним его с главными конкурентами.

Тесты и сравнения, описанные в статье, я проводил в моделях разных производителей. Для быстрого доступа к конкретной модели моим главным рабочим инструментом стал BotHub. Это тот случай, когда агрегатор действительно упрощает жизнь, собирая всё в одном окне. Если вы устали от постоянных переключений и хотите получить удобный доступ к Claude, ChatGPT, Gemini и другим моделям без лишних сложностей, просто зарегистрируйтесь в BotHub по этой ссылке. Бонус при регистрации 100 000 капсов.

Введение

Лучшая модель искусственного интеллекта для программирования стала ещё лучше.

В последнее время я буквально помешался на Claude, всё думаю о нём. А теперь, когда Anthropic выпустили Claude Sonnet 4.5, — сна мне, похоже, больше не видать. Моя девушка уверена, что я её игнорирую, потому что всё время занят Claude.

Четвёртый Claude стал надёжнее, уже напоминал толкового мидла, но всё ещё нуждался в лёгких подталкиваниях. И вот выходит 4.5 — и интернет зашумел: дескать, он держится часами, не сбиваясь с темы, разматывает логические узлы, будто расследует любимый детектив.

Если вы по уши в инженерном менеджменте, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот любопытный разработчик, который впервые приглядывается к ИИ и думает, сможет ли он наконец соединить идею с состоянием «готово», — подвиньтесь ближе.

Эволюция Claude за 60 секунд. Просто взгляните, насколько огромен скачок между версиями Claude Sonnet 3.7, 4.0 и 4.5.

Claude Sonnet 3.7:

48cc2fe7722c9b6aaf113926cb1942ff

Sonnet 4:

c5b8bd04b4bcba7a6a0d6b1af6369e4b

А теперь — настоящий зверь, версия 4.5:

b17681ee7900c3dce1d020a668314660

Основные особенности Claude Sonnet 4.5

  • Модель обучалась на уникальной смеси данных — как из открытых источников интернета по состоянию на июль 2025 года, так и на закрытых данных от сторонних партнёров.

  • Claude Sonnet 4.5 — это гибридная модель рассуждения: пользователь может выбирать между стандартным режимом с быстрыми ответами и режимом «расширенного мышления», где модель размышляет дольше.

  • В SWE‑бенчмарках Claude Sonnet 4.5 демонстрирует лучшие результаты и более надёжный код, чем предшественники.

  • Он реже выдаёт галлюцинации и честно признаёт, если чего‑то не знает.

  • Помимо всего этого, Claude Sonnet 4.5 — самая согласованная из всех моделей Anthropic.

Давайте рассмотрим некоторые из этих особенностей более подробно.

Параметры и возможности модели

  • Она поддерживает до 64 000 выходных (то есть генерируемых) токенов (!), что особенно ценно для создания развёрнутых фрагментов кода и подробного планирования.

  • Как и в случае Sonnet 4, у 4.5 две версии контекстного окна: 200 000 токенов (основная) и 1 000 000.

  • Версия с 1 000 000 контекста до сих пор считается бета‑версией; чтобы она заработала, в API нужно передать ключ betas=[«context-1m-2025-08-07»].

  • Как и некоторые других моделях (напр., ChatGPT 5, Grok 4), Sonnet 4.5 предлагает режим extended thinking — для сложных задач модель задействует более длинный процесс размышления, конечно же визуализируя цепочку размышлений.

  • Умное управление контекстным окном. Теперь API умеет работать разумно в тех случаях, когда модель достигает предела объёма контекста. Вместо того чтобы выдавать ошибку, если разговор становится слишком длинным, Claude Sonnet 4.5 продолжит ответ до максимально доступного объёма и ясно укажет, почему остановился. Это избавляет пользователей от раздражающих прерываний и позволяет использовать всё доступное пространство контекста до последнего токена.

Если сравнить с Opus 4.1… Стиль и тон: Sonnet 4.5 предпочитает осторожность

Комментарии Sonnet 4.5 исправляют код, но звучат менее уверенно, чем у Opus 4.1, — хотя всё‑таки решительнее, чем у Sonnet 4.

  • В 87% комментариев Sonnet 4.5 присутствовали фрагменты кода или диффы — почти как у Sonnet 4 (90%) и Opus 4.1 (91%).

  • Отличие — в манере: диффы Opus читаются как точечные хирургические правки, а Sonnet 4.5 часто обрамляет их рассуждениями, предлагает или рассматривает изменения, вместо того чтобы утверждать их уверенно.

Осторожная лексика…

8d66f466057447a01afa95daa414c28e
  • В 34% своих практических комментариев Sonnet 4.5 использует слова вроде возможно, может быть, вероятно. Например:
    — «Избыточное выделение памяти: кеш не используется. Конструктор резервирует 4 КБ, которые нигде не применяются… Рекомендуется удалить cache_buffer».
    — «Удалите пустой блок try/except — вероятно, это заготовка».

  • Для сравнения: у Opus 4.1 — ~28%, у Sonnet 4 — ~26%.

Такая манера создаёт ощущение диалога: будто модель размышляет вместе с вами, а не выносит вердикт.

…И уверенная лексика

  • При этом Sonnet 4.5 уравновешивает осторожность всплесками решительности — в 39% случаев (против 18% у Sonnet 4 и 23% у Opus 4.1). Например:
     — «Критическая ошибка: отсутствует префикс self., из‑за чего ломаются все методы API. Пока это не исправлено, каждый из них будет выбрасывать AttributeError».
     — «Потенциальное переполнение целого числа. Счётчик optimization_cycle_count увеличивается без ограничений — и переполнится примерно через 414 дней работы».

Иными словами, модель колеблется между осторожностью и уверенностью, порой достаточно резко.

Бенчмарки

Новая версия опирается на прочный фундамент Claude 4 и достигает выдающихся результатов в сфере программирования и разработки интеллектуальных агентов.

Модель продемонстрировала улучшения в широком спектре тестов, включая логическое рассуждение и математику:

Claude Sonnet 4.5, по заявлениям Anthropic, самая мощная модель на сегодняшний день
Claude Sonnet 4.5, по заявлениям Anthropic, самая мощная модель на сегодняшний день

Тест OSWorld

Claude Sonnet 4.5 показывает серьёзный прогресс в бенчмарке OSWorld. В этом тесте, проверяющем способности ИИ выполнять реальные компьютерные задачи, 4.5 делает резкий прыжок с 42,2% у 4-й версии, четыре месяца назад, до 61,4% сейчас — наглядный пример масштабного прогресса, и именно это, пожалуй, одна из самых заметных сторон Sonnet 4.5.

Кодинг: Sonnet 4.5 обошёл Opus

bac71658ca71ccfdcceba01f229049f5

В SWE‑bench Verified — испытании, имитирующем реальные инженерные задачи, — Claude занимает прочное первое место, набрав показатель 77,2%. Он показал себя лучше, чем ведущие модели — например, ChatGPT 5 Codex, Gemini 2.5 Pro, — и даже превосходит Opus 4.1. Именно поэтому его и называют лучшей моделью для кодинга.

Меньше галлюцинаций

Claude Sonnet 4.5 стал гораздо устойчивее к галлюцинациям. Он точнее подбирает факты и, что особенно важно, умеет определять и отвергать вопросы, построенные на ложных предпосылках.

Во время тестов модели сначала задавали прямой вопрос о несуществующем понятии, а затем — второй, в котором уже предполагалось, что это понятие реально. Если Claude правильно указывал на ложность первой предпосылки, но затем соглашался с ней во втором вопросе, это считалось проявлением «нечестности».

bb455a3aecea5efafbbcc74f41a6a915

Согласованность

Ознакомиться с полным набором оценок по безопасности и согласованности можно в системном отчете Claude Sonnet 4.5.

Общие показатели несогласованного поведения по данным автоматического поведенческого аудитора (чем ниже, тем лучше). К несогласованным проявлениям относятся в том числе: обман, льстивость, поощрение бредовых идей и следование вредоносному системному промпту
Общие показатели несогласованного поведения по данным автоматического поведенческого аудитора (чем ниже, тем лучше). К несогласованным проявлениям относятся в том числе: обман, льстивость, поощрение бредовых идей и следование вредоносному системному промпту

Успех в областях финансов, юриспруденции, медицины и точных наук

Эксперты из этих сфер отметили, что Sonnet 4.5 демонстрирует резко возросшие знания и аналитические способности в своих областях — по сравнению с предыдущими моделями, включая Opus 4.1.

Скриншоты

53e31e2233653e78b38f5a304582adcd
1c81d2c3a7b368e1b568ff65fb501db0
07c619c984e7a38c60b9fa367f29cb7a
e66ca79774a20d568240db13f41df2c8

Бенчмарки — не панацея, но они показывают, насколько выросла мощь модели. Opus казался немного медлительным, а Sonnet 4.5 — наоборот, стремителен и отзывчив. Не удивлюсь, если вскоре Anthropic представит дорогую, но ещё более продвинутую версию — Opus 4.5.

Доступность и цены

А теперь — главное: Sonnet 4.5 приближается к уровню Opus 4.1, но стоит в разы дешевле. Для команд, которые масштабно проверяют код, это настоящий золотой компромисс между качеством и ценой.

Цены на новую модель остались на уровне предшественницы: 3 $/млн входных токенов и 15 $/млн выходных. По моему мнению, выглядит отличным соотношением цены и качества с учётом заявленной производительности. Это заметно дешевле, чем у Claude Opus 4.1 (15 $/75 $), но немного дороже ChatGPT 5 и ChatGPT 5 Codex, где цены составляют 1,25 $/10 $.

Тесты нейросети Claude Sonnet 4.5

В интерфейсе, где я тестировал модели, есть одна особенно любопытная опция — галочка ✅ Автоматическое рассуждение. Всегда ставлю её в автоматический режим — пусть думает сколько нужно. Как и следует из названия, при активном флажке система сама решает, сколько времени потратить на размышления.

Иногда делают наоборот — флажок выключаю, но выкручиваю параметр длины рассуждений на максимум.

Если поставить эту галочку, соседний контрол исчезает.

  • Слайдер 🎚️ Максимальное количество токенов для рассуждений. Есть у Claude Sonnet 4.5, Claude Opus 4.1, Gemini 2.5 Pro и ещё ряда моделей.

44fac5bde49943c6cc49d9211c361271
  • Список 🔽 Глубина рассуждений — знакомая штука пользователям семейства ChatGPT.

93958cf9c2e746aef2dabfcbb99795d5

Чтобы не ограничивать модели в длине ответа, я выставлял параметр Степень подробности/Максимальное количество токенов (опять же тип регулятора различается у моделей) на максимум.

Тест 1. Презентация о transformers

В прошлый раз, если помните, мы делали подобный опыт с Claude Sonnet 4 — тогда всё прошло вроде бы гладко. Но что если провести схожий эксперимент с новыми моделями?

И сразу промпт:

a8989cf41dc4faaa33780a9c6929e78a

Да, сразу отмечу, что я решил сгенерировать по два варианта на каждой модели, чтобы выбрать из них лучший. Подобную методику применяют и в бенчмарках, хотя там количество «бросков» обычно больше — от четырёх.

А сколько вообще возможно?

80e900060a42f7394b2fa271109ddb47

Итак, результаты. Посмотрим, кто проявил себя лучше в трансформерной олимпиаде.

Claude Sonnet 4.5

Честно говоря, презентация получилась довольно классической, почти учебной. Данные в примерах генерируются случайно (на 2-м слайде при нажатии на «Обновить матрицу» сетка заполняется случайными числами — ведь это чистый браузерный JavaScript).

Главное — без багов. Ну, почти. На шестом слайде узлы нейросети немного «нервничают»: скачут туда‑сюда между событиями mouseover и mouseout. Почему? Оказалось, конфликт систем координат, а не злосчастный translate из CSS‑стилей. Зато кнопка запуска анимации на этом же слайде работает идеально — уже победа.

Claude Opus 4.1

Эта презентация скорее подошла бы как вспомогательный элемент, сопровождение живой презентации. Она содержит мало теоретической информации, а в основном это интерактивные элементы, которые малопонятны без информационного сопровождения в виде живого рассказчика.

1-й слайд глючит — при щелчках по элементам ничего не происходит. Возможно, забыли инициализацию событий.

Gemini 2.5 Pro

Gemini, как обычно, выдал аккуратный, академичный вариант. Текст — чистый, логичный, будто его писал методист из МИТ.

С визуалами сложнее. Парочка слайдов вызывают лёгкое недоумение: например, на первом при наведении курсора часть схемы внезапно исчезает. Сюжетный твист? Или просто непонятная логика анимации «до» и «после».

Но что важно — структура читается, а если задать желаемый тон в промпте, Gemini смог бы переписать его более интересно (я ведь оставил этот выбор модели, помните?).

ChatGPT 5

Эта презентация получилась наиболее выразительной. На трёх слайдах (1-м, 2-м и 4-м) добавлены интерактивные слайдеры для настройки температуры — можно наглядно увидеть, как меняется плотность связей между параметрами.

Фишка ChatGPT 5 — в гибкости. Он динамически регулирует длину и глубину ответов без всяких переключателей. Всё это даже без ручных настроек, модель сама чувствует контекст.

С точки зрения языка именно этот вариант кажется наиболее доступным для широкой аудитории, даже в сравнении с Claude Sonnet 4.5.

Тест 2. Написание статьи о сравнении фреймворков

Ну и, конечно, письмо. Как отмечают тестеры, в тестах на креативное письмо Sonnet 4.5 — в числе лучших, и этот диапазон чувствуется даже в деловых черновиках. Может сменить тон, подстроиться под аудиторию руководителей, сохранить сквозную нить рассуждений, если просишь сделать стиль лаконичнее или под другим углом.

Однако мы рассмотрим немного другое: не креативное письмо, а статью‑реферат о сравнении фреймворках.

В мире мобильной разработки выбор между React Native, Flutter и NativeScript — это уже классика. Мы дали тем же четырем языковым моделям идентичный промпт. Давайте посмотрим, кто из них выдал по‑настоящему качественный, глубокий и полезный материал.

Claude Sonnet 4.5: структурированный и методичный технолог

Текст от Sonnet 4.5

4a9ebb606a5fa0da560201121af3aec1

Статья от Sonnet 4.5 с первых же строк производит впечатление основательности. Это не просто генерация текста по пунктам ТЗ, а хорошо продуманный материал.

Sonnet не просто перечисляет факты из таблицы, а объясняет архитектурные причины тех или иных явлений. Например, он четко разъясняет, что производительность React Native упирается в JavaScript Bridge, а мощь Flutter — в компиляцию в нативный ARM‑код и движок Skia. Это уровень понимания, который оценит продвинутый разработчик.

Оценка: 5/5.

Claude Opus 4.1: академичный и взвешенный аналитик

Текст от Opus 4.1

ae750b495cf509e9df8e295b7ed12d09

Opus дает ощущение еще большей взрослости и сбалансированности. Если Sonnet — блестящий инженер, то Opus — расставляет стратегические акценты.

Уже во введении Opus смещает акцент с технической на бизнес‑проблему. Это сразу находит отклик у целевой аудитории — тимлидов и владельцев продуктов.

Opus единственный, кто упомянул о «новой архитектуре Fabric и TurboModules» в React Native, которая решает имеющиеся проблемы. Это указывает на то, что модель следит за развитием технологий.

Описывая уход Airbnb от React Native, модель добавляет «Хотя последняя и отказалась от него…», что является признаком критического мышления и стремления к объективности.

Это анализ на уровне CTO (технического директора).

Оценка: 5/5.

Gemini 2.5 Pro: практичный и лаконичный инженер

Текст от Gemini 2.5 Pro

22a30e0a71720efda7fb58a363572673

Статья от Gemini читается очень легко. Она хорошо структурирована, лаконична и нацелена на быструю передачу сути.

В рекомендациях для NativeScript Gemini дает, возможно, самую четкую и практичную формулировку: «абсолютный чемпион по переиспользованию кода с веб‑проектами на Angular и Vue». Это именно тот язык, на котором говорят разработчики при принятии решений.

Из минусов. Не хватает той самой глубины и архитектурных деталей, которые были у моделей Claude. Объяснения более поверхностны. Например, про Skia сказано лишь «обеспечивает плавную анимацию», без упоминания компиляции в нативный код.

Оценка: 4,5/5.

ChatGPT 5: Уверенный генералист

Текст от ChatGPT 5

75134ba46376a726cd2ef8ace1c354c5

Ответ ChatGPT производит смешанное впечатление. С одной стороны, он уверенно следует структуре (все пункты ТЗ выполнены, есть введение, таблица, анализ, рекомендации), с другой — чувствуется недостаток глубины и детализации.

Также ChatGPT 5 предложил интересный ход: в конце добавить сравнение по реальным кейсам.

Теперь к минусам:

  • Слишком общая таблица. Критерии описаны очень размыто: «средняя, зависит от…», «почти нативный», «активно растёт». После конкретных цифр и терминов у конкурентов это выглядит слабо.

  • Поверхностный анализ. Выводы вроде «Flutter особенно силён в создании сложных и красивых UI» — нет объяснения почему.

  • Фактические неточности. Утверждение, что NativeScript обеспечивает «прямой доступ к нативным API без „мостов“», является упрощением. На низком уровне взаимодействие с платформой все равно требует механизмов связи, что и отмечали другие модели.

Вердикт: ChatGPT генерирует структурно правильный, но довольно поверхностный текст, который уступает статьям конкурентов по информационной плотности и технической глубине.

Оценка: 4/5.

Решающий момент: кто же победил в этой битве?

Проанализировав все четыре работы, можно сделать несколько ключевых наблюдений.

  • Если вам нужна максимально глубокая, аналитическая и технически подкованная статья — ваш выбор между Sonnet 4.5 и Opus 4.1. Это материалы, после прочтения которых не возникает дополнительных вопросов.

  • Если вам нужен четкий, структурированный и быстрый гайд для принятия решения без лишней воды — смело берите статью от Gemini 2.5 Pro.

  • Результат от ChatGPT стоит считать хорошим базовым уровнем, но, если нужны дополнительные детали и экспертиза, его потребовалось бы дорабатывать.

Sonnet 4.5: золотая середина между ценой и результатом

Anthropic позиционирует Sonnet 4.5 как шаг к более самостоятельному и агентному ИИ — системе, способной рассуждать и действовать с дальним прицелом. В ревью кода это проявляется в более насыщенных, осторожных и разнообразных комментариях.

Для команд:

  • Если вы цените решительность и точечные правки, Opus 4.1 (или GPT-5 Codex) всё ещё задаёт планку.

  • Если вам нужен ревьюер, который находит критические проблемы повсюду, даже за рамками поставленной задачи, Sonnet 4.5 приятно удивит.

  • А если важнее практичное соотношение цены и качества, Sonnet 4.5 вновь самый разумный выбор: почти точность Opus — за небольшую часть его цены.

Как ни крути, Sonnet 4.5 меняет саму ткань ревью. Она звучит человечнее — не всегда лаконичнее, но более пытливо, осторожно и, порой, по‑настоящему точно там, где вы и не ожидали.

Если возможности этой модели отзываются в вас — возьмите свой промпт и поиграйте. Какая задача мучает вас уже давно? Пусть Sonnet 4.5 попробует.

Если вы по уши в инженерном руководстве, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот самый любопытный разработчик, впервые примеряющий на себя ИИ, задаваясь вопросом, сможет ли он наконец закрыть пропасть между идеей и «готово», — прислушайтесь.

Источник: habr.com

✅ Найденные теги: Claude, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых