«Умнее, дешевле, самостоятельнее»: Anthropic выпустила Claude Sonnet 5 — прорыв для кодинга и агентов. Тестируем по ссылке
НейроБит
Anthropic официально представила Claude Sonnet 5 — новую флагманскую модель среднего класса, которая вплотную приблизилась к возможностям топового Opus 4.8, но стоит почти вдвое дешевле. Sonnet 5 уже доступна в Claude Code, Claude.ai и API, став моделью по умолчанию для бесплатных и Pro-пользователей.
Тестируем новую модель — здесь
Самостоятельность — главная фишка
Anthropic позиционирует Sonnet 5 как «самую агентную модель в линейке Sonnet». Она способна не просто отвечать на вопросы, а строить планы, пользоваться браузером и терминалом, а также автономно выполнять многошаговые задачи на уровне, который ещё несколько месяцев назад требовал более дорогих и тяжёлых моделей.
Ранние тестеры отмечают: Sonnet 5 доводит до конца сложные задачи, на которых предыдущие Sonnet спотыкались и бросали на полпути. Модель сама проверяет свои результаты без явной просьбы и делает это «на удивление дёшево».
Бенчмарки: почти Opus за полцены
Sonnet 5 показывает значительный скачок по сравнению с предшественником Sonnet 4.6 во всех ключевых метриках — рассуждении, программировании, работе с инструментами и интеллектуальном труде.
Ключевые результаты тестов:
Бенчмарк Sonnet 5 vs Sonnet 4.6 vs Opus 4.8
Агентный кодинг (SWE-bench Pro):
Sonnet 5 — (63.2%) Sonnet 4.6 — (58.1%) Opus 4.8 — (69.2%)
На SWE-bench Pro — тесте, где модели решают реальные задачи из поддерживаемых репозиториев с многофайловыми изменениями, — Sonnet 5 набрал 63.2%, что заметно выше 58.1% у Sonnet 4.6. При этом на некоторых задачах по интеллектуальному труду он слегка обходит Opus 4.8.
Цена: 2/10, но спешите
До 31 августа 2026 года действует специальная цена: 10 за 1 млн токенов на выходе.
С 1 сентября стоимость вырастет до 15. Для сравнения: Opus 4.8 стоит 25 — Sonnet 5 минимум на 40% дешевле.
Важный нюанс: Sonnet 5 использует новый токенизатор, который может превращать один и тот же текст в на 10–35% больше токенов — цена за запрос может вырасти, хотя на вводе это частично компенсируется снижением ставки.
Тестируем новую модель — здесь
Где уже доступна?
Модель работает везде: в Claude Code, веб-чате, мобильных приложениях и API.
Claude Code получил Sonnet 5 по умолчанию — разработчики уже предпочитают её Sonnet 4.6 примерно в 82% случаев, отмечая меньше галлюцинаций и более качественный код.
Безопасность: слабее в кибербезопасности — и это хорошо
Sonnet 5 реже галлюцинирует и проявляет угодничество, чем Sonnet 4.6, лучше сопротивляется промпт-инъекциям и реже совершает нежелательные действия в агентных сценариях.
При этом она специально не обучалась на задачах кибербезопасности — в отличие от Opus-моделей. В тестах Sonnet 5 показала 0% при попытке разработать рабочий эксплойт для Firefox. Это осознанный компромисс: модель дешевле и безопаснее для повседневных задач, но не подходит для высокорисковых сценариев.
Итог: новый стандарт для AI-агентов
Sonnet 5 открывает новую эру: агентные возможности становятся доступными по цене среднего класса. Это не просто «улучшенный Sonnet», а модель, которая меняет правила игры для разработчиков и бизнеса:
- · Для кодинга — навигация по большим кодовым базам, многофайловые изменения и долгая отладка без ручного контроля.
- · Для агентов — надёжный backbone для автоматизации, обработка сложных цепочек зависимостей и многошаговое использование инструментов.
- · Для бизнеса — полноценный ИИ-сотрудник, который сам планирует, исполняет и проверяет результат.
Как написал один из тестеров: «Мы дали Sonnet 5 задачу в два этапа — обновить тарифы Salesforce и разослать анонс контактам — и она выполнила всё от начала до конца. Раньше это застревало на полпути».
Тестируем новую модель — здесь
Подпишись на НейроБит, чтобы нейроны работали в такт прогрессу.
t.met.meИсточник: vc.ru
Похожие записи
- Исследование «грибного языка» установило, что самый разговорчивый из грибов — щелелистник обыкновенный
- AI-хакатон в поддержку RUNIT: как сотрудники AGIMA целый месяц разрабатывали онлайн-игры
- Компания Morgan Stanley сократила вдвое объем самой рискованной операции по сверке данных, снизив самостоятельность своих агентов.
Оцените материал:
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
