Карл Францен

Учитывая, что каждую неделю появляется множество новостей об искусственном интеллекте, некоторые из наиболее значимых достижений может быть сложно отследить.
Однако новая модель Grok 4 Fast от xAI, представленная в прошлую пятницу, заслуживает пристального внимания со стороны предприятий и лиц, принимающих технические решения, — несмотря на постоянные заявления основателя xAI Илона Маска о том, что он хочет сделать Grok более соответствующим его политическим взглядам и мировоззрению, а также на предыдущий скандал «MechaHitler» в социальной сети Маска X.
Grok 4 Fast — это усовершенствованная версия флагманской модели Grok 4 от xAI, выпущенной в июле 2025 года. Новая версия разработана для обеспечения производительности, близкой к передовому уровню, при значительно меньших затратах.
Grok 4 Fast, созданный на основе той же инфраструктуры, которая обеспечивает работу самых современных систем xAI, уже меняет соотношения затрат и производительности во всей экосистеме ИИ, о чем свидетельствуют новые анализы, проведенные такими исследователями, как профессор Школы бизнеса Уортона Пенсильванского университета Итан Моллик и сторонняя компания Artificial Analysis, занимающаяся бенчмаркингом ИИ.
Для предприятий этот запуск означает два момента:
Стоимость современных алгоритмов ИИ — моделей, которые «обдумывают» свои ответы перед тем, как выдать их пользователям, чтобы выявить ошибки и повысить точность, — продолжает резко снижаться.
xAI делает ставку на то, что в будущем эффективность и «плотность интеллекта» будут иметь такое же значение, как и размер модели .
Согласно официальной карточке модели, Grok 4 Fast также представляет режим «пропуска обоснования» для приложений со сверхнизкой задержкой, что позволяет предприятиям при необходимости жертвовать глубиной анализа ради скорости.
Производительность: близкие к передовым результаты с меньшим количеством токенов
Согласно официальному заявлению xAI, Grok 4 Fast соответствует или близок к Grok 4 по большинству основных тестов, при этом используя примерно на 40% меньше «токенов мышления».

Токены, конечно же, представляют собой числовые представления слов и фрагментов слов, строк кода и других единиц информации, которые может воспринимать и выводить большая языковая модель ИИ (LLM) — «родной язык» LLM. «Токены мышления» — это токены, генерируемые в процессе «цепочки мыслей» модели рассуждений, поэтому они могут фактически даже не выводиться в качестве ответа пользователю, но всё равно потребляют энергию и добавляют затраты для пользователей, поскольку большинство поставщиков ИИ, включая xAI, взимают плату за доступ разработчиков к своим моделям ИИ через интерфейс прикладного программирования (API) по цене за миллион токенов.
Но об этом мы поговорим чуть позже. Вернёмся к бенчмаркам: например, в тесте AIME 2025 по математике Grok 4 Fast набрал 92% против 91,7% у Grok 4; в GPQA Diamond — 85,7% против 87,5%. Бенчмарки в задачах просмотра и поиска также демонстрируют улучшения: Grok 4 Fast набрал 74% в X Bench Deepsearch от xAI (по сравнению с 66% у Grok 4).
Независимые оценщики подтверждают эти утверждения.
Искусственный анализ помещает Grok 4 Fast на вершину своего индекса интеллекта по цене за миллион токенов — до 64 раз дешевле ранних передовых моделей, таких как o3 от OpenAI на момент запуска, и примерно в 12 раз дешевле текущих расценок o3.
На диаграмме, опубликованной Mollick в X, показано, что Grok 4 Fast находится на самом правом краю кривой GPQA/стоимости, что указывает на новую границу эффективности.
В карточке модели xAI для Grok 4 подчеркивается обучение модели с помощью «крупномасштабного обучения с подкреплением для максимизации плотности интеллекта» и явная последующая тренировка с использованием инструментов и демонстрациями безопасности.
Стоимость и лицензирование
Grok 4 Fast — это проприетарная модель (не с открытым исходным кодом), доступная через API xAI, OpenRouter и Vercel AI Gateway. xAI разделила релиз на две версии:
Модель | Входные токены (<128 тыс.) | Входные токены (≥128 тыс.) | Выходные токены (<128 тыс.) | Выходные токены (≥128 тыс.) | Кэшированный ввод |
grok-4-fast-reasoning | 0,20 долл. США / 1 млн. | 0,40 долл. США / 1 млн. | 0,50 долл. США / 1 млн. | 1,00 долл. США / 1 млн. | 0,05 долл. США / 1 млн. |
grok-4-fast-non-reasoning | такой же | такой же | такой же | такой же | такой же |
Все версии поддерживают контекстное окно в 2 миллиона токенов , что значительно больше, чем у большинства коммерческих моделей. Такая цена выгодно отличается от других моделей с индексом интеллекта >60 и позволяет предприятиям выполнять более интенсивные задачи (юридический анализ, разработка ПО, поддержка клиентов, расширение поиска) с гораздо более низкими предельными затратами.
Оба варианта «grok-4-fast-reasoning» и «grok-4-fast-non-reasoning» ограничены 4 миллионами токенов в минуту и 480 запросами в минуту (RPM) с контекстным окном в 2 миллиона токенов.
xAI также предлагает опцию кэшированного входного токена стоимостью 0,05 долл. США за миллион, что позволяет дополнительно сократить расходы на повторные запросы и рабочие нагрузки, связанные с поиском и дополненной реальностью.
Старые модели Grok стоят значительно дороже: Grok 4 (0709) котируется по цене 3 доллара США за вход и 15 долларов США за выход за миллион токенов с контекстом всего 256 тыс., что подчеркивает значительное преимущество Grok 4 Fast по соотношению цены и производительности.
Интересно, что xAI также заявляет в своей документации API, что будет штрафовать пользователей каждый раз, когда «запрос будет сочтен нашей системой нарушающим наши правила использования», а именно «штраф в размере 0,05 долл. США за каждый запрос за нарушение правил использования».
Для предприятий, планирующих масштабные развертывания, обратите внимание, что региональные конечные точки и ограничения скорости различаются для некоторых устаревших моделей машинного зрения, но Grok 4 Fast, по всей видимости, доступен во всем мире с согласованными ограничениями.
В карточке модели четко указано, что API применяет фиксированный префикс системного запроса, в который встроена политика безопасности xAI по умолчанию; пользовательские системные сообщения от корпоративных клиентов добавляются к этому запросу безопасности, а не заменяются им.
Ключевые отличия для корпоративного использования
1. Унифицированные режимы рассуждения и нерассуждения
Ранее модели xAI требовали отдельных весовых коэффициентов для задач на рассуждение и задач с быстрым ответом. Grok 4 Fast объединяет их в единой архитектуре, сокращая задержку и упрощая интеграцию. Разработчики по-прежнему могут настраивать систему с помощью системных подсказок для повышения скорости или глубины.
В карточке модели также отмечается, что включение режима рассуждения в целом снижает уровень нечестности и подхалимажа по сравнению с режимом отсутствия рассуждения, что является важным моментом для предприятий, которым необходима фактическая точность.
2. Современные возможности поиска и агентуры
Grok 4 Fast, прошедший комплексное обучение с использованием инструментов и подкреплением, может просматривать веб-страницы, выполнять запросы X в режиме реального времени, переходить по ссылкам, потреблять медиаконтент и синтезировать результаты.
Такие тесты, как BrowseComp и X Browse, показывают, что Grok 4 Fast опережает Grok 4 в многоадресном поиске.
Однако в карточке модели явно указано, что эти расширенные «агентские» возможности влекут за собой дополнительные риски (например, автономные действия по достижению вредоносных целей), которые xAI тестирует с помощью тестов AgentHarm и AgentDojo для измерения и минимизации злоупотреблений.
В AgentHarm он выполнил лишь около 8–10% вредоносных агентских задач в зависимости от режима, а в AgentDojo его успешность атак снизилась до 0–3%. На практике это означает, что Grok 4 Fast в значительной степени смог отклонять или отклонять вредоносные или перехватывающие запросы даже в условиях враждебности, что свидетельствует о высокой степени устойчивости к корпоративным развертываниям.
Однако, как отмечается в карте модели, эти оценки проводятся в лабораторных условиях; производственные развертывания должны по-прежнему включать собственные средства контроля доступа, аудита и ограничения скорости для критически важных с точки зрения безопасности контекстов.
3. Длинное контекстное окно
При колоссальной стоимости в 2 миллиона токенов Grok 4 Fast лидирует среди почти всех LLM по объему информации, которой можно обмениваться между пользователем и моделью ИИ за одно взаимодействие ввода/вывода .
Например, флагманская модель OpenAI GPT-5 предлагает всего 256 000 токенов, тогда как Google Gemini 2.5 Pro по-прежнему имеет количество токенов в 1 миллион, несмотря на обещание Google удвоить это количество — что будет соответствовать только Grok 4 Fast.
Два миллиона токенов примерно эквивалентны 3000 страницам текста — это примерно размер 10 книг, и все они могут быть обменены за один ввод/вывод!
Это означает, что Grok 4 Fast может обрабатывать полные базы знаний, кодовые базы или юридические документы, что делает его особенно подходящим для управления корпоративными знаниями, крупномасштабного поиска или конвейеров дополненной генерации (RAG) — последний распространенный метод безопасного подключения сторонних моделей ИИ, таких как Grok 4 Fast и его конкуренты, к корпоративным базам знаний и данным.
4. Цена и эффективность токена
Использование на 40% меньшего количества токенов для вычисления тех же результатов означает снижение затрат на вывод и потенциально меньшую задержку. Это критически важно для SaaS-приложений и потребительских приложений, зависящих от большого объёма запросов.
Недостатки и соображения
Оценки соответствия SpeechMap, которые измеряют, как часто модель генерирует спорную речь по указанию пользователя, были снижены.
По данным независимой компании SpeechMap.AI, Grok 4 Fast набрал лишь 77,5–77,9% соответствия по сравнению с 98% у Grok 4 и >90% у конкурирующих моделей Sonoma.
Инженер xAI Норман Му подтвердил в программе X, что более высокие показатели отказов — это «непреднамеренный побочный эффект» нового обучения по предотвращению злоупотреблений, и пообещал улучшения. Корпоративным клиентам, работающим в регулируемых или конфиденциальных областях, следует тщательно проверять соответствие требованиям.
Вероятно, GPQA Diamond насыщен. Аналитики отмечают, что ведущие модели группируются вблизи верхних строк рейтинга GPQA Diamond, что позволяет предположить, что этот бенчмарк, возможно, больше не будет отражать качество передового мышления. Предприятиям следует дополнять его собственными оценками, ориентированными на предметную область.
Задержка и стабильность. Хотя Grok 4 Fast позиционируется как «быстрый», xAI не опубликовала полные метрики по количеству токенов в секунду. Предприятиям, которым требуется высокая скорость в режиме реального времени, следует измерять пропускную способность под нагрузкой. Искусственный анализ показывает, что Grok 4 Fast входит в число самых быстрых моделей по количеству обрабатываемых токенов в секунду — 227 транзакций в секунду, но всё же занимает третье место после модели OpenAI GPT-oss-120b с открытым исходным кодом и Google Gemini 2.5 Pro.

Лицензирование и поддержка. На момент запуска Grok 4 Fast будет доступен всем (даже бесплатным пользователям на grok.com), но соглашения об уровне обслуживания корпоративного уровня или управляемые развертывания могут отставать от внедрения API. Цены после окончания ознакомительного периода могут измениться.
Дополнительные уровни безопасности. Карточка модели подчеркивает встроенные фильтры отклонений и ввода Grok 4 Fast для высокорискованного контента, включая запросы, связанные с химическим, биологическим, радиоактивным, ядерным оружием, кибератаками и CSAM, и показывает нулевой процент ответов на такие вредоносные запросы при настройках по умолчанию.
В отчете также сообщается о значительно более низких показателях успешности атак при тестировании на быстрое внедрение AgentDojo (0,00–0,03), что может придать предприятиям большую уверенность в производственных средах.
История масштабирования: не только грубая сила
Grok 4 Fast работает на огромном кластере xAI Colossus в Мемфисе (по имеющимся данным, насчитывающем сотни тысяч высокопроизводительных графических процессоров), но его определяющей особенностью является эффективность, а не чистый масштаб.
Унифицируя режимы рассуждений и обучение использованию инструментов, xAI стремится достичь большего, меньших вычислительных затрат на вывод. Это ключевой сигнал для индустрии ИИ: следующее конкурентное преимущество может быть достигнуто за счёт оптимизации времени тестирования, оркестровки инструментов и более интеллектуальных архитектур, а не простого использования большего количества графических процессоров для решения задачи.
Модельная карта также подчеркивает шаги xAI по обеспечению прозрачности — публикацию подсказок системы на GitHub и подробное описание ее рецепта обучения, — что может успокоить предприятия, которым необходимы аудиторские доказательства или доказательства соответствия для регулирующих органов.
Что предприятиям следует делать сейчас
Пилотное тестирование задач с большим объёмом данных. Цена токенов и продолжительное контекстное окно Grok 4 Fast делают его привлекательным для пакетных операций, таких как анализ контрактов, обогащение данных и проверка кода.
Оцените уровень соответствия требованиям и уровень отказов. Если ваша компания работает в регулируемых секторах, проведите собственные тесты в стиле SpeechMap, чтобы оценить уровень отказов и предвзятость.
Сравните задержку и пропускную способность. Используйте данные о фактической нагрузке для измерения количества токенов в секунду и проверьте, соответствует ли Grok 4 Fast требованиям SLA.
Планируйте стратегии с несколькими моделями. Учитывая различия между режимами с рассуждениями и без них, а также быстро меняющийся ландшафт бенчмарков, рассмотрите возможность сохранения в рабочей среде хотя бы одной резервной модели.
— Рассмотрите возможность включения «режима рассуждения» с явными инструкциями по честности для приложений, требующих высокой фактической точности, поскольку внутренние тесты xAI показывают более низкие показатели обмана в этих условиях.
Итог
Grok 4 Fast — это не просто более дешёвая версия Grok 4, это сигнал о том, что передовые методы рассуждений становятся общедоступными. Благодаря широкому контекстному окну, унифицированной архитектуре и обучению с подкреплением (RL) с использованием инструментов, он создан для компаний, которым требуются большие объёмы задач с высокой степенью контекста, при значительно меньших затратах.
Главное предостережение касается поведенческой согласованности и показателей отказов , которые, как признает xAI, все еще находятся в стадии настройки.
Однако для большинства корпоративных вариантов использования Grok 4 Fast представляет собой один из наиболее привлекательных вариантов экономической эффективности на современном рынке — возможность интегрировать передовые методы мышления в клиентские сервисы или внутренние рабочие процессы без дополнительных счетов за передовые технологии.
И в отличие от многих конкурентов, Grok 4 Fast имеет публично задокументированный подход к безопасности, включая контрольные показатели потенциала злоупотреблений, обмана, политической предвзятости и знаний двойного назначения, что дает руководителям предприятий более глубокое понимание компромиссов, лежащих в основе эффективности модели.
Подпишитесь, чтобы получать последние новости!
Глубокие знания для руководителей корпоративных отделов ИИ, данных и безопасности
Получайте обновления ! Скоро вам на почту придут наши последние новости.
Источник: venturebeat.com



























