Архив рубрики ~Лента новостей~

«Умнее, дешевле, самостоятельнее»: Anthropic выпустила Claude Sonnet 5 — прорыв для кодинга и агентов. Тестируем по ссылке

«Умнее, дешевле, самостоятельнее»: Anthropic выпустила Claude Sonnet 5 — прорыв для кодинга и агентов. Тестируем по ссылке
«Умнее, дешевле, самостоятельнее»: Anthropic выпустила Claude Sonnet 5 — прорыв для кодинга и агентов. Тестируем по ссылке

НейроБит

Anthropic официально представила Claude Sonnet 5 — новую флагманскую модель среднего класса, которая вплотную приблизилась к возможностям топового Opus 4.8, но стоит почти вдвое дешевле. Sonnet 5 уже доступна в Claude Code, Claude.ai и API, став моделью по умолчанию для бесплатных и Pro-пользователей.

Тестируем новую модель — здесь

Самостоятельность — главная фишка

Anthropic позиционирует Sonnet 5 как «самую агентную модель в линейке Sonnet». Она способна не просто отвечать на вопросы, а строить планы, пользоваться браузером и терминалом, а также автономно выполнять многошаговые задачи на уровне, который ещё несколько месяцев назад требовал более дорогих и тяжёлых моделей.

Ранние тестеры отмечают: Sonnet 5 доводит до конца сложные задачи, на которых предыдущие Sonnet спотыкались и бросали на полпути. Модель сама проверяет свои результаты без явной просьбы и делает это «на удивление дёшево».

Бенчмарки: почти Opus за полцены

Sonnet 5 показывает значительный скачок по сравнению с предшественником Sonnet 4.6 во всех ключевых метриках — рассуждении, программировании, работе с инструментами и интеллектуальном труде.

Ключевые результаты тестов:

Бенчмарк Sonnet 5 vs Sonnet 4.6 vs Opus 4.8

Агентный кодинг (SWE-bench Pro):

Sonnet 5 — (63.2%) Sonnet 4.6 — (58.1%) Opus 4.8 — (69.2%)

На SWE-bench Pro — тесте, где модели решают реальные задачи из поддерживаемых репозиториев с многофайловыми изменениями, — Sonnet 5 набрал 63.2%, что заметно выше 58.1% у Sonnet 4.6. При этом на некоторых задачах по интеллектуальному труду он слегка обходит Opus 4.8.

Цена: 2/10, но спешите

До 31 августа 2026 года действует специальная цена: 10 за 1 млн токенов на выходе.

С 1 сентября стоимость вырастет до 15. Для сравнения: Opus 4.8 стоит 25 — Sonnet 5 минимум на 40% дешевле.

Важный нюанс: Sonnet 5 использует новый токенизатор, который может превращать один и тот же текст в на 10–35% больше токенов — цена за запрос может вырасти, хотя на вводе это частично компенсируется снижением ставки.

Тестируем новую модель — здесь

Где уже доступна?

Модель работает везде: в Claude Code, веб-чате, мобильных приложениях и API.

Claude Code получил Sonnet 5 по умолчанию — разработчики уже предпочитают её Sonnet 4.6 примерно в 82% случаев, отмечая меньше галлюцинаций и более качественный код.

Безопасность: слабее в кибербезопасности — и это хорошо

Sonnet 5 реже галлюцинирует и проявляет угодничество, чем Sonnet 4.6, лучше сопротивляется промпт-инъекциям и реже совершает нежелательные действия в агентных сценариях.

При этом она специально не обучалась на задачах кибербезопасности — в отличие от Opus-моделей. В тестах Sonnet 5 показала 0% при попытке разработать рабочий эксплойт для Firefox. Это осознанный компромисс: модель дешевле и безопаснее для повседневных задач, но не подходит для высокорисковых сценариев.

Итог: новый стандарт для AI-агентов

Sonnet 5 открывает новую эру: агентные возможности становятся доступными по цене среднего класса. Это не просто «улучшенный Sonnet», а модель, которая меняет правила игры для разработчиков и бизнеса:

  • · Для кодинга — навигация по большим кодовым базам, многофайловые изменения и долгая отладка без ручного контроля.
  • · Для агентов — надёжный backbone для автоматизации, обработка сложных цепочек зависимостей и многошаговое использование инструментов.
  • · Для бизнеса — полноценный ИИ-сотрудник, который сам планирует, исполняет и проверяет результат.

Как написал один из тестеров: «Мы дали Sonnet 5 задачу в два этапа — обновить тарифы Salesforce и разослать анонс контактам — и она выполнила всё от начала до конца. Раньше это застревало на полпути».

Тестируем новую модель — здесь

Подпишись на НейроБит, чтобы нейроны работали в такт прогрессу.

1t.met.me

Источник: vc.ru

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Обо всем~ Компания Morgan Stanley сократила вдвое объем самой рискованной операции по сверке данных, снизив самостоятельность своих агентов. Архив рубрики ~Обо всем~ Нейрохирурги могут вызывать электродом как механический смех, так и «искреннюю» радость Архив рубрики ~Коротко из Telegram~ UPD Для Pro, Max, Team и select Enterprise Fable 5… Архив рубрики ~Коротко из Telegram~ 🚨 Тест, проведённый The Washington Post, показал, что разные AI-модели… Архив рубрики ~Коротко из Telegram~ 🔥 Вышел «народный Opus 4.6» — энтузиасты с Hugging Face… Архив рубрики ~Коротко из Telegram~ Проверяем, готов ли ваш сайт к эпохе ИИ-агентов — Cloudflare… Архив рубрики ~Коротко из Telegram~ Аэропорт «Внуково» завершил импортозамещение программного комплекса для управления багажом, отказавшись… Архив рубрики ~Коротко из Telegram~ Удаленка разрушает отношения: у работающих из дома пар чаще возникают… Архив рубрики ~Коротко из Telegram~ Без особой помпы нам выкатили Sonnet 5. Классно, что пользоваться… Архив рубрики ~Обо всем~ Наверняка вы видели такие зеленовато-голубые огоньки на авто в крупных городах. Что же это такое? Архив рубрики ~Обо всем~ Расширяем наши данные об устойчивости к жаре на более чем 50 городов мира. Архив рубрики ~Обо всем~ Карим ЛАСКРИ: «Наша конечная цель состоит в том, чтобы как можно больше профессиональных энтузиастов поближе познакомились с FSP» Новости робототехники X Square Robot довел свою оценку до $2,8 млрд за четыре последовательных раунда финансирования Новости робототехники Умеют ли трансформеры водить машину Архив рубрики ~Обо всем~ Компания Morgan Stanley сократила вдвое объем самой рискованной операции по сверке данных, снизив самостоятельность своих агентов. Архив рубрики ~Обо всем~ Нейрохирурги могут вызывать электродом как механический смех, так и «искреннюю» радость Архив рубрики ~Коротко из Telegram~ UPD Для Pro, Max, Team и select Enterprise Fable 5… Архив рубрики ~Коротко из Telegram~ 🚨 Тест, проведённый The Washington Post, показал, что разные AI-модели… Архив рубрики ~Коротко из Telegram~ 🔥 Вышел «народный Opus 4.6» — энтузиасты с Hugging Face… Архив рубрики ~Коротко из Telegram~ Проверяем, готов ли ваш сайт к эпохе ИИ-агентов — Cloudflare… Архив рубрики ~Коротко из Telegram~ Аэропорт «Внуково» завершил импортозамещение программного комплекса для управления багажом, отказавшись… Архив рубрики ~Коротко из Telegram~ Удаленка разрушает отношения: у работающих из дома пар чаще возникают… Архив рубрики ~Коротко из Telegram~ Без особой помпы нам выкатили Sonnet 5. Классно, что пользоваться… Архив рубрики ~Обо всем~ Наверняка вы видели такие зеленовато-голубые огоньки на авто в крупных городах. Что же это такое? Архив рубрики ~Обо всем~ Расширяем наши данные об устойчивости к жаре на более чем 50 городов мира. Архив рубрики ~Обо всем~ Карим ЛАСКРИ: «Наша конечная цель состоит в том, чтобы как можно больше профессиональных энтузиастов поближе познакомились с FSP» Новости робототехники X Square Robot довел свою оценку до $2,8 млрд за четыре последовательных раунда финансирования Новости робототехники Умеют ли трансформеры водить машину

Оставить комментарий