Илон Маск запустил Grok 4 от xAI, назвав его «самым умным ИИ в мире» и заявив, что он может успешно сдавать экзамены на степень доктора философии и опережать таких конкурентов, как Gemini от Google и OpenAI. o3 на жестких тестах
Дени Эллис Бешар под редакцией Дина Виссера

В среду вечером Илон Маск представил новейшую модель искусственного интеллекта от своей компании xAI. В ходе часового публичного выступления он назвал модель Grok 4 «самым умным ИИ в мире» и заявил, что она способна получать идеальные оценки SAT и почти идеальные результаты GRE по всем предметам, от гуманитарных до точных наук.
Во время онлайн-презентации Маск и члены его команды рассказали о тестировании Grok 4 на основе показателя под названием «Последний экзамен человечества» (HLE) — теста из 2500 вопросов, предназначенного для оценки академические знания и умение рассуждать с помощью искусственного интеллекта. Созданный почти 1000 экспертами в более чем 100 дисциплинах и выпущенный в январе 2025 года, тест охватывает темы от классической до квантовой химии и сочетает текст с изображениями. Сообщается, что сам по себе Grok 4 набрал 25,4 процента баллов. Но при наличии доступа к инструментам (таким как внешние вспомогательные средства для выполнения кода или поиска в Интернете) этот показатель достиг 38,6 процента. Этот показатель вырос до 44,4 процента с появлением версии Grok 4 Heavy, которая использует несколько агентов искусственного интеллекта для решения проблем. Двумя следующими по эффективности моделями искусственного интеллекта являются Gemini-Pro от Google (которая набрала 26,9% с помощью инструментов) и o3 от OpenAI (которая также набрала 24,9% с помощью инструментов). Однако результаты внутреннего тестирования xAI еще не появились в таблице лидеров для HLE, и остается неясным, связано ли это с тем, что xAI еще не представила результаты, или с тем, что эти результаты ожидают рассмотрения. Manifold, платформа для социального прогнозирования, на которой пользователи делают ставки игровыми деньгами (под названием «Mana») на будущие события в политике, технологиях и других областях, по состоянию на утро пятницы прогнозировала 1-процентную вероятность того, что Grok 4 дебютирует в таблице лидеров HLE, с вероятностью 45 процентов. балл или больше на экзамене в течение месяца после его сдачи. (Тем временем xAI набрала всего 44,4 балла.)
Во время запуска команда xAI также провела демонстрацию в реальном времени, в ходе которой Grok 4 увеличивал коэффициенты на бейсбол, определяя, у кого из сотрудников xAI самые «странные» результаты.» изображение профиля на X и создание имитационной визуализации черной дыры. Маск предположил, что система может обнаружить совершенно новые технологии к концу этого года — и, возможно, «новую физику» к концу следующего года. Игры и фильмы тоже не за горами, и Маск предсказывает, что к 2026 году Grok 4 сможет создавать игры и фильмы, которые можно будет смотреть. Grok 4 также обладает новыми звуковыми возможностями, включая голос, который пел во время запуска, и Маск сказал, что скоро будут выпущены новые инструменты для создания изображений и кодирования. Обычная версия Grok 4 стоит 30 долларов в месяц; SuperGrok Heavy — пакет deluxe с несколькими агентами и исследовательскими инструментами — стоит 300 долларов.
О поддержке научной журналистики
Если вам нравится прочитав эту статью, подумайте о том, чтобы поддержать нашу журналистскую деятельность, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.
Artificial Analysis, независимая платформа для бенчмаркинга, которая оценивает модели искусственного интеллекта, теперь присвоила Grok 4 наивысший рейтинг по индексу искусственного интеллекта, немного опередив Gemini 2.5 Pro и OpenAI o4-mini- высокий. А Grok 4 фигурирует как самая эффективная общедоступная модель в списках лидеров для корпуса абстракций и рассуждений, или ARC-AGI-1, и его второго издания, ARC-AGI-2 — тестов, которые измеряют прогресс в развитии общего интеллекта, подобного человеческому. Грег Камрадт, президент фонда ARC Prize, некоммерческой организации, которая ведет две таблицы лидеров, говорит, что, когда команда xAI обратилась в фонд с результатами Grok 4, организация независимо протестировала Grok 4 на наборе данных, к которому у команды xAI не было доступа, и подтвердила результаты. «Прежде чем мы сообщим о результатах работы какой-либо лаборатории, они не будут проверены, пока мы их не проверим», — говорит Камрадт. «Мы одобрили слайд [результатов тестирования], который [команда xAI] показала при запуске.»
Согласно xAI, Grok 4 также превосходит другие системы искусственного интеллекта по ряду параметров. дополнительные критерии, подтверждающие его эффективность в предметах STEM (ознакомьтесь с полным перечнем критериев здесь). Алекс Олтеану, старший редактор по науке о данных образовательной платформы искусственного интеллекта DataCamp, протестировал ее. «В моих тестах Grok был силен в математике и программировании, и я был впечатлен качеством его логических рассуждений, которые демонстрируют изобретательность и логическую обоснованность. подход к решению проблем», — говорит Олтеану. «Его контекстное окно, однако, не очень конкурентоспособно, и с большими базами кода, с которыми вы сталкиваетесь в рабочей среде, могут возникнуть проблемы. Он также не справился с задачей, когда я попросил его проанализировать 170-страничный PDF-файл, вероятно, из-за ограниченного контекстного окна и слабых мультимодальных возможностей». (Мультимодальные возможности относятся к способности модели анализировать более одного вида данных одновременно, например, комбинацию текста, изображений, аудио и видео.)
Что касается более тонких аспектов, то проблемы с Grok 4 появились с момента его выпуска. Несколько постеров на X, принадлежащих самому Маску, а также новостные агентства технической индустрии сообщили, что, когда Grok 4 задавали вопросы об израильско-палестинском конфликте, абортах и иммиграционном законодательстве США, он часто искал позицию Маска по этим вопросам, ссылаясь на его X постов и статей, написанных о нем. А выпуск Grok 4 произошел после нескольких разногласий с Grok 3, предыдущей моделью, которая публиковала материалы, содержащие антисемитские комментарии, восхваления Гитлера и заявления о «геноциде белых» — инцидентах, которые xAI публично признала, приписав их несанкционированным манипуляциям и заявив, что компания была принятие корректирующих мер.
В какой-то момент во время запуска Маск прокомментировал, что создание искусственного интеллекта умнее человека пугает, хотя он сказал, что верит, что конечный результат будет хорошим — вероятно. «Я в какой-то степени примирился с тем фактом, что, даже если ничего хорошего из этого не выйдет, я, по крайней мере, хотел бы остаться в живых и увидеть, как это произойдет», — сказал он.



























