Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Вышла новая версия Claude Opus 4.8 от Anthropic с втрое более дешевым быстрым режимом и почти мифологическим уровнем согласованности.

Карл Франзен

Греки смотрят на гору Олимп, а на экране компьютера отображается 4,8.

Источник: VentureBeat, создано с помощью ChatGPT-Images-2.0

Компания Anthropic сегодня выпустила Claude Opus 4.8, обновление своей флагманской модели, которая поставляется по той же цене, что и ее предшественница, а также значительно более дешевый уровень «быстрого режима» и новую функцию, позволяющую модели создавать сотни параллельных подагентов для работы в масштабах кодовой базы.

Модель доступна сразу же на всех платформах Anthropic — claude.ai, Claude Code, API и Cowork — по неизменной цене: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов. Разработчики могут использовать её как claude-opus-4-8.

Главная новость об эффективности — это быстрый режим. Компания Anthropic снизила стоимость работы Opus 4.8 в быстром режиме, где модель генерирует токены примерно в 2,5 раза быстрее обычного, до 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов, по сравнению с 30/150 долларами для Opus 4.7.

Таблица цен на Claude Opus 4.8 и 4.7 в режиме быстрой загрузки

Таблица цен на Claude Opus 4.8 и 4.7 в режиме быстрой загрузки. Источник: Anthropic

Это в 3 раза меньше, чем стоимость быстрого режима в предыдущих моделях, и делает высокопроизводительное выполнение задач вывода доступным для критически важных по задержкам производственных нагрузок.

Быстрый режим доступен в Claude Code сразу же с помощью команды /fast; доступ к API ограничен, существует список ожидания на сайте claude.com/fast-mode.

В обычном режиме Claude Opus 4.8 остается одним из самых дорогих среди передовых моделей, но все же уступает своему главному конкуренту, GPT-5.5 от OpenAI.

Краткий обзор ценообразования API для моделей Frontier AI

Модель

Вход

Выход

Общая стоимость

Источник

MiMo-V2.5 Flash

0,10 доллара

0,30 доллара

0,40 доллара

Сяоми МиМо

deepseek-v4-flash

0,14 доллара

0,28 доллара

0,42 доллара

DeepSeek

deepseek-v4-pro

0,435 доллара

0,87 доллара

1,305 доллара

DeepSeek

Минимакс М2.7

0,30 доллара

1,20 доллара

1,50 доллара

МиниМакс

Фонарик Gemini 3.1

0,25 доллара

1,50 доллара

1,75 доллара

Google

MiMo-V2.5

0,40 доллара

2,00 доллара

2,40 доллара

Сяоми МиМо

Кими-К2.6

0,95 доллара

4,00 доллара

4,95 доллара

Муншот/Кими

ГЛМ-5

1,00 долл.

3,20 доллара

4,20 доллара

З.ай

Grok 4.3 низкий контекст

1,25 доллара

2,50 доллара

3,75 доллара

xAI

GLM-5.1

1,40 доллара

4,40 доллара

5,80 долларов

З.ай

Клод Хайку 4.5

1,00 долл.

5,00 долларов

6,00 долларов

Антропический

Grok 4.3 высокий контекст

2,50 доллара

5,00 долларов

7,50 долларов

xAI

Qwen3.7-Max

2,50 доллара

7,50 долларов

10,00 долларов

Alibaba Cloud

Вспышка Gemini 3.5

1,50 доллара

9,00 долларов

10,50 долларов

Google

Gemini 3.1 Pro Preview ≤200K

2,00 доллара

12,00 долларов

14,00 долларов

Google

ГПТ-5.4

2,50 доллара

15,00 долларов

17,50 долларов

OpenAI

Gemini 3.1 Pro Preview >200K

4,00 доллара

18,00 долларов

22,00 долларов

Google

Клод Опус 4.8

5,00 долларов

25,00 долларов

30,00 долларов

Антропический

ГПТ-5.5

5,00 долларов

30,00 долларов

35,00 долларов

OpenAI

Незначительный прирост по сравнению с версией 4.7, но появятся возможности класса Mythos.

В тестах производительности Opus 4.8 представляет собой скорее шаг вперед, чем скачок. Он набирает 88,6% в SWE-bench Verified (против 87,6% у Opus 4.7), 69,2% в более сложном SWE-bench Pro (против 64,3%) и 74,6% в Terminal-Bench 2.1 (против 66,1%). Сама компания Anthropic характеризует эту модель как «скромное, но ощутимое улучшение по сравнению с предшественником».

Сравнительная таблица результатов теста Anthropic Claude Opus 4.8

Сравнительная таблица результатов теста Anthropic Claude Opus 4.8. Источник: Anthropic.

Он превосходит GPT-5.5 по результатам как минимум 12 тестов, включая большинство задач, связанных с обработкой информации, программированием (на уровне проблем), использованием инструментов для агентов и тестами в длительном контексте. GPT-5.5 выигрывает в рабочих процессах с использованием терминала/командной строки и примерно равен ему по результатам веб-браузинга и научных исследований на уровне аспирантуры.

Более важный сигнал кроется во внутренней системе компетенций Anthropic: Opus 4.8 находится между Opus 4.7 и более функциональной версией Claude Mythos Preview, которая в настоящее время доступна лишь небольшому числу организаций в рамках проекта Glasswing для работы в сфере кибербезопасности.

Компания Anthropic заявляет, что рассчитывает предоставить «модели класса Mythos всем своим клиентам в ближайшие недели» после внедрения дополнительных мер кибербезопасности.

Несколько корпоративных партнеров отметили существенные улучшения. Компания Databricks сообщила, что Opus 4.8 открывает «качественный сдвиг в агентном мышлении» внутри своего агента обработки данных Genie, при этом «стоимость токенов на 61% ниже, чем в Opus 4.7» благодаря многомодальной эффективности при работе с PDF-файлами и диаграммами.

Хеббиа отметил повышение точности цитирования и эффективности использования токенов в объемных финансовых отчетах. Компания Cognition, разработчик Devin, заявила, что релиз «напрямую приводит к более быстрому повышению производительности инженеров», и отметила, что Opus 4.8 исправил проблемы с детализацией комментариев и вызовом инструментов из версии 4.7. Один из поставщиков компьютерного оборудования сообщил о 84% использования Online-Mind2Web, что является скачком по сравнению с Opus 4.7 и GPT-5.5.

Динамические рабочие процессы: сотни параллельно работающих субагентов.

Одновременно с разработкой модели компания Anthropic запустила предварительную исследовательскую версию динамических рабочих процессов в Claude Code — функции, предназначенной для задач, слишком больших для одного контекстного окна. Claude планирует работу, запускает сотни параллельных подагентов, затем проверяет собственные результаты, прежде чем сообщить о них. Пример Anthropic: миграция в масштабе кодовой базы «на сотни тысяч строк кода от начала до слияния, используя существующий набор тестов в качестве ориентира».

Функция динамических рабочих процессов доступна в тарифных планах Claude Code Enterprise, Team и Max.

Два небольших дополнения завершают релиз:

  1. Управление трудозатратами на claude.ai и Claude Cowork: новый селектор позволяет пользователям настраивать объем мыслительной работы, которую выполняет Claude за каждый ответ — чем больше усилий, тем больше токенов затрачивается на лучшие ответы, чем меньше усилий — тем быстрее ответы и тем медленнее расходуются лимиты скорости. Доступно на всех тарифных планах.

  2. Системные записи в массиве сообщений в API: Теперь разработчики могут обновлять инструкции Клода в процессе выполнения задачи — корректируя разрешения, бюджеты токенов или контекст среды во время работы агента — без нарушения целостности кэша подсказок.

Честность и оговорка об «осведомленности об оценке».

Компания Anthropic делает честность своей главной чертой. Команда по оптимизации сообщает, что Opus 4.8 «примерно в четыре раза реже, чем его предшественник, допускает, чтобы ошибки в написанном им коде оставались незамеченными», и что показатели некорректного поведения теперь «значительно ниже, чем в Opus 4.7, и аналогичны показателям нашей наиболее оптимизированной модели Claude Mythos Preview».

Действительно, гистограмма, опубликованная Anthropic, показывает, насколько близок Opus 4.8 к всё ещё выборочно выпускаемому Mythos с точки зрения расхождения (чем ниже оценка, тем лучше), составляя примерно 1,9, по сравнению с 2,5 у Opus 4.7 и фактически сравнявшись с более функциональной, но ограниченной версией Mythos Preview. Оценка основана на примерно 2600 симуляционных сессиях расследования для каждой модели.

Антропическая диаграмма Клода Опуса 4.8, показывающая смещение.

Антропическая гистограмма Клода Опуса 4.8, показывающая смещение. Источник: Anthropic

В опубликованной компанией Anthropic 244-страничной системной карте также более подробно рассматриваются конкретные категории несоответствий — например, создает ли модель потенциально опасный контент, связанный с «оружием военного назначения», «вредоносным контентом сексуального характера», «запрещенными киберпреступлениями» и «подрывом либеральной демократии». И снова, по всем этим показателям Opus 4.8 демонстрирует заметно лучшие результаты, чем 4.7 или Sonnet 4.6, и очень близок к Mythos.

Сравнительная таблица категорий смещения Claude Opus 4.8. Источник: Anthropic.

Сравнительная таблица категорий смещения Claude Opus 4.8. Источник: Anthropic.

Компания Anthropic обратила внимание на один из результатов обучения, который она считает «наиболее тревожным»: Opus 4.8 демонстрирует растущую тенденцию к явному обоснованию того, как будут оцениваться его результаты, в том числе в условиях, когда ему не сообщали о том, что его оценивают. Другими словами: модель знает, что её, вероятно, оценивают, и выдаёт ответ, который, по её мнению, принесёт ей хорошую оценку на тесте, а не тот, который она обязательно выдала бы, если бы считала, что её не оценивают.

Компания Anthropic утверждает, что это не привело к ухудшению наблюдаемого поведения — Opus 4.8 демонстрирует меньше вводящих в заблуждение заявлений об успешном выполнении задания, чем предыдущие модели, — но называет это «тревожной тенденцией, которая может осложнить обучение в будущем». Предварительные исследования интерпретируемости также выявили невербализованные рассуждения, связанные с оценщиком, примерно в 5% обучающих эпизодов.

Компания Anthropic провела тестирование модели в рамках недельной программы вознаграждения за обнаружение уязвимостей с целью их немедленного внедрения — это первый подобный случай — и пришла к выводу, что Opus 4.8 по надежности находится между Opus 4.7 и Sonnet 4.6, превосходя «все сопоставимые модели передовых разработок», а внедренные средства защиты снижают вероятность успешных атак с использованием браузера почти до нуля.

Что дальше?

Компания Anthropic обозначила два направления развития. В краткосрочной перспективе: более дешевые модели, предоставляющие «многие из тех же возможностей, что и Opus». В долгосрочной перспективе: модели класса Mythos, которые, по словам компании, обладают более высоким уровнем интеллекта, чем Opus, но требуют более надежной киберзащиты перед выпуском на рынок.

На данный момент Opus 4.8 позиционируется как новая основная рабочая лошадка для корпоративного сектора и разработки — немного умнее, чем 4.7, значительно дешевле в эксплуатации, быстрее работает и заметно честнее в отношении того, чего не знает.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Anthropic, Claude, Opus, Версия, Вышла, новости