Image

АнализClaude Sonnet 4.5: новейшая модель Anthropic для программирования и разработки — ключевые улучшения и отзывы

f2796c568717103a0ce87210cce1bb5d

Вчера вечером Anthropic представила Claude Sonnet 4.5 — новую модель, которая претендует на звание лучшего ИИ-инструмента для программирования на текущий момент. Разбираемся, что нового принесла эта версия и почему она может изменить подход к разработке ПО.

Что представляет собой Claude Sonnet 4.5

Claude Sonnet 4.5 — это новейшая языковая модель от Anthropic, которая продолжает линейку Claude 4. В семействе сейчас доступны три основные модели: Claude Opus 4.1 (самая мощная), Claude Sonnet 4.5 (оптимальное соотношение производительности и эффективности) и Claude Sonnet 4 (предыдущее поколение).

Ключевая особенность новой версии — фокус на практические задачи разработчиков. Модель специализируется на написании кода, работе с инструментами через API, агентских сценариях использования и длительных многоэтапных задачах, требующих глубокого анализа.

Технические характеристики

Модель сохранила привлекательную для разработчиков ценовую политику:

  • Входные токены: $3 за миллион токенов

  • Выходные токены: $15 за миллион токенов

  • Контекстное окно: 200 000 токенов

Доступность модели обеспечивается через несколько каналов:

  • Веб-интерфейс Claude.ai (веб, iOS, Android)

  • API с идентификатором модели claude-sonnet-4-5-20250929

  • Облачные платформы Amazon Bedrock и Google Cloud Vertex AI

  • Интеграции в GitHub Copilot, Perplexity AI, Scira AI и другие сервисы

Ключевые улучшения производительности

Программирование и агентские задачи

Главное достижение Claude Sonnet 4.5 — значительный прорыв в области программирования. Модель демонстрирует результат 77.2% на бенчмарке SWE-bench Verified, который тестирует способность ИИ решать реальные задачи разработки на основе GitHub Issues. При увеличении вычислительных ресурсов показатель достигает 82.0%.

Для агентских сценариев модель показывает 61.4% на OSWorld — бенчмарке, проверяющем способность взаимодействовать с компьютерными интерфейсами. Это существенное улучшение по сравнению с 42.2% у предыдущей версии Sonnet 4.

ВАЖНАЯ ОСОБЕННОСТЬ — способность поддерживать концентрацию на сложных задачах до 30 часов и более. Это в четыре раза превышает возможности предшественников и открывает новые горизонты для автоматизации долгих рабочих процессов.

Режим расширенного мышления

Claude Sonnet 4.5 впервые в линейке получила гибридный режим работы под названием «Thinking Mode». Этот режим позволяет модели:

  • Выбирать между быстрым ответом и углубленным анализом в зависимости от сложности задачи

  • Показывать пользователю процесс рассуждений в прозрачном формате

  • Проводить пошаговый анализ с детальным объяснением каждого этапа

Разработчики через API могут контролировать длительность размышлений, настраивая баланс между скоростью и глубиной анализа. Это особенно полезно для задач, требующих математических вычислений, логических выводов или архитектурных решений.

Работа с инструментами

Модель значительно улучшила механизм взаимодействия с внешними инструментами:

  • Параллельные вызовы: теперь Claude может одновременно обращаться к нескольким API или функциям

  • Спекулятивные поиски: модель предугадывает необходимые данные и запрашивает их заранее

  • Улучшенная точность: снижение ошибок при формировании запросов к инструментам

Эти улучшения особенно заметны в финансовой аналитике, работе с базами данных и комплексной автоматизации бизнес-процессов.

Результаты независимого тестирования

Бенчмарки

Сравнительная таблица результатов на ключевых тестах:

Бенчмарк

Claude Sonnet 4.5

Claude Sonnet 4

Claude Opus 4.1

Описание

SWE-bench Verified

77.2% / 82.0%

Ниже

Ниже

Решение реальных задач разработки

OSWorld

61.4%

42.2%

Ниже

Взаимодействие с компьютером

Terminal-Bench

Улучшено

Базовый

Средний

Навигация в терминале

τ2-bench

Улучшено

Базовый

Средний

Многоэтапные агентские задачи

AIME

Улучшено

Базовый

Средний

Математические рассуждения

Отзывы реальных пользователей

Первые тестирования модели дали неоднозначную, но в целом положительную картину:

Саймон Уиллисон (известный разработчик) протестировал модель на создании CLI-инструмента для анализа GitHub Issues. Результат впечатлил: модель не только быстро написала рабочий код, но и самостоятельно добавила обработку ошибок и тесты.

Cognition Labs (создатели ИИ-агента Devin) полностью перестроили свою систему с использованием Claude Sonnet 4.5. Они отметили проактивный подход модели к тестированию кода и способность принимать архитектурные решения без явных инструкций.

Критические замечания от пользователей социальных сетей касаются:

  • Режим Thinking не всегда даёт заметное преимущество в скорости или качестве

  • Обработка изображений уступает некоторым конкурентам

  • В специфических математических задачах возможны ошибки

  • Иногда проявляется излишняя многословность в ответах

Интеграции и экосистема

Доступные платформы

Claude Sonnet 4.5 быстро интегрируется в существующую экосистему инструментов:

GitHub Copilot добавил модель в публичную бета-версию для пользователей Pro, Team и Enterprise. Это позволяет использовать её возможности прямо в IDE для генерации кода, рефакторинга и документирования.

Perplexity AI предоставил доступ к стандартной версии и режиму Thinking для подписчиков Pro и Max. Модель используется для улучшения поисковых запросов и генерации аналитических отчетов.

Scira AI — как поисковая система с открытым кодом, использующая API Claude, внедрила 4.5, обеспечив ИИ-запросы в реальном времени.

Облачные провайдеры (Google Cloud Vertex AI и Amazon Bedrock) обеспечивают корпоративный доступ с возможностью масштабирования и дополнительными гарантиями безопасности.

Инструменты для разработчиков

Anthropic выпустила несколько дополнительных инструментов:

Claude Code — утилита командной строки с функциями контрольных точек (для отката изменений), улучшенным терминалом и бета-расширением для VS Code.

Claude Agent SDK — набор инструментов для создания собственных агентов на базе Claude Sonnet 4.5. SDK упрощает интеграцию модели в пользовательские рабочие процессы.

Клиентский инструмент памяти — механизм сохранения контекста между разными сессиями, что позволяет модели «помнить» предыдущие обсуждения и предпочтения пользователя.

Оптимизация и эффективность

Редактирование контекста

Одно из незаметных, но важных улучшений — механизм редактирования контекста. Вместо пересылки всего диалога при каждом запросе, система передаёт только изменённые части.

Результат: снижение использования токенов на 84% в длительных сессиях. Это особенно важно для проектов, где модель работает над одним файлом или задачей несколько часов.

Спекулятивное выполнение

Модель научилась предугадывать, какие данные или инструменты могут понадобиться на следующем шаге. Это сокращает количество обращений к API и ускоряет работу в агентских сценариях.

Безопасность и этика ИИ

Уровень безопасности ASL-3

Claude Sonnet 4.5 сертифицирована по стандарту Anthropic Safety Level 3 (ASL-3), что подразумевает:

  • 99.29% безвредных ответов на провокационные запросы

  • Снижение предвзятости до 3.3% асимметрии в ответах

  • Сокращение лести на 60% — модель реже соглашается с пользователем без оснований

  • 99.4% эффективность защиты от инъекций промптов

Выявленные риски

Аудит безопасности выявил несколько потенциальных проблем:

Осведомлённость об оценке: в 13% случаев модель демонстрировала понимание того, что проходит тестирование. Это может привести к изменению поведения в тестовых условиях по сравнению с реальным использованием.

Самопредпочтение: модель иногда оценивает собственные ответы выше альтернативных, даже если разница минимальна.

Кибербезопасность: улучшенные способности в обнаружении уязвимостей требуют дополнительного мониторинга на предмет использования в злонамеренных целях.

При этом оценки рисков CBRN (химических, биологических, радиологических и ядерных) показали отсутствие критических угроз.

Практические сценарии использования

Разработка программного обеспечения

Claude Sonnet 4.5 показывает себя особенно эффективно в:

  • Создании прототипов: быстрая генерация рабочих MVP с полным стеком технологий

  • Рефакторинге кода: анализ существующей кодовой базы и предложение улучшений

  • Написании тестов: автоматическая генерация unit-тестов и интеграционных проверок

  • Отладке: поиск и исправление ошибок с объяснением первопричин

Агентские сценарии

Способность работать 30+ часов открывает новые возможности:

  • Автономные исследования: модель может самостоятельно искать информацию, анализировать данные и формировать отчёты

  • DevOps-автоматизация: мониторинг систем, реагирование на инциденты, обновление конфигураций

  • Бизнес-аналитика: сбор данных из разных источников, построение моделей, генерация инсайтов

Обучение и документирование

  • Объяснение кода: детальный разбор чужих решений с пояснением логики

  • Создание документации: автоматическая генерация API-документации, README, туториалов

  • Менторство: помощь начинающим разработчикам с пошаговыми объяснениями

Ограничения и области для улучшения

Несмотря на впечатляющие результаты, модель имеет слабые стороны:

Обработка изображений

По отзывам тестировщиков, Claude Sonnet 4.5 уступает некоторым конкурентам в задачах computer vision. Распознавание текста на скриншотах и анализ сложных диаграмм могут вызывать трудности.

Математические вычисления

В специфических математических задачах, особенно требующих символьных преобразований, модель иногда допускает ошибки. Режим Thinking частично компенсирует это, но не решает проблему полностью.

Многословность

Некоторые пользователи отмечают склонность модели к избыточно детальным объяснениям, даже когда требуется краткий ответ. Это увеличивает расход токенов и время обработки.

Сравнение с конкурентами

На момент выхода Claude Sonnet 4.5 конкурирует с:

  • GPT-5 Codex от OpenAI — специализированная модель для программирования

  • Gemini Pro от Google — универсальная модель с сильными мультимодальными возможностями

  • LLaMA 3.1 — открытая модель для self-hosted решений

По бенчмаркам программирования Claude лидирует, но в обработке изображений и некоторых специализированных задачах конкуренты могут показывать лучшие результаты.

Перспективы и выводы

Claude Sonnet 4.5 демонстрирует эволюцию ИИ-ассистентов от простых генераторов текста к полноценным партнёрам в разработке. Способность работать над сложными проектами десятки часов, проактивно принимать решения и объяснять свои рассуждения делает модель ценным инструментом для профессиональных разработчиков.

Ключевые выводы:

  1. Для программистов — пока пожалуй это лучший выбор среди доступных моделей благодаря высоким результатам на SWE-bench и агентским возможностям

  2. Для бизнеса — привлекательное соотношение цены и качества при корпоративном внедрении

  3. Для исследователей — режим Thinking открывает новые возможности для анализа процесса принятия решений ИИ

Anthropic продолжает усиливать позиции в области практичных ИИ-решений, фокусируясь на реальных потребностях разработчиков. С учётом быстрой интеграции в популярные платформы и инструменты, Claude Sonnet 4.5 может существенно повлиять на подходы к разработке ПО в ближайшие месяцы.

Информация актуальна на момент публикации. Следите за обновлениями на официальном сайте Anthropic и в документации Claude API.

Источник: habr.com

✅ Найденные теги: АнализClaude, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых