Image

Новый Grok 4 принимает «Последний экзамен человечества», поскольку гонка ИИ разгорается все сильнее

Илон Маск запустил Grok 4 от xAI, назвав его «самым умным ИИ в мире» и заявив, что он может успешно сдавать экзамены на степень доктора философии и опережать таких конкурентов, как Gemini от Google и OpenAI. o3 на жестких тестах

Дени Эллис Бешар под редакцией Дина Виссера

Цифровая иллюстрация, конструкция из кубиков эволюционирует от простой (слева) к постепенно усложняющейся форме мыслящего или созерцающего человека, сидящего на камне

В среду вечером Илон Маск представил новейшую модель искусственного интеллекта от своей компании xAI. В ходе часового публичного выступления он назвал модель Grok 4 «самым умным ИИ в мире» и заявил, что она способна получать идеальные оценки SAT и почти идеальные результаты GRE по всем предметам, от гуманитарных до точных наук.

Во время онлайн-презентации Маск и члены его команды рассказали о тестировании Grok 4 на основе показателя под названием «Последний экзамен человечества» (HLE) — теста из 2500 вопросов, предназначенного для оценки академические знания и умение рассуждать с помощью искусственного интеллекта. Созданный почти 1000 экспертами в более чем 100 дисциплинах и выпущенный в январе 2025 года, тест охватывает темы от классической до квантовой химии и сочетает текст с изображениями. Сообщается, что сам по себе Grok 4 набрал 25,4 процента баллов. Но при наличии доступа к инструментам (таким как внешние вспомогательные средства для выполнения кода или поиска в Интернете) этот показатель достиг 38,6 процента. Этот показатель вырос до 44,4 процента с появлением версии Grok 4 Heavy, которая использует несколько агентов искусственного интеллекта для решения проблем. Двумя следующими по эффективности моделями искусственного интеллекта являются Gemini-Pro от Google (которая набрала 26,9% с помощью инструментов) и o3 от OpenAI (которая также набрала 24,9% с помощью инструментов). Однако результаты внутреннего тестирования xAI еще не появились в таблице лидеров для HLE, и остается неясным, связано ли это с тем, что xAI еще не представила результаты, или с тем, что эти результаты ожидают рассмотрения. Manifold, платформа для социального прогнозирования, на которой пользователи делают ставки игровыми деньгами (под названием «Mana») на будущие события в политике, технологиях и других областях, по состоянию на утро пятницы прогнозировала 1-процентную вероятность того, что Grok 4 дебютирует в таблице лидеров HLE, с вероятностью 45 процентов. балл или больше на экзамене в течение месяца после его сдачи. (Тем временем xAI набрала всего 44,4 балла.)

Во время запуска команда xAI также провела демонстрацию в реальном времени, в ходе которой Grok 4 увеличивал коэффициенты на бейсбол, определяя, у кого из сотрудников xAI самые «странные» результаты.» изображение профиля на X и создание имитационной визуализации черной дыры. Маск предположил, что система может обнаружить совершенно новые технологии к концу этого года — и, возможно, «новую физику» к концу следующего года. Игры и фильмы тоже не за горами, и Маск предсказывает, что к 2026 году Grok 4 сможет создавать игры и фильмы, которые можно будет смотреть. Grok 4 также обладает новыми звуковыми возможностями, включая голос, который пел во время запуска, и Маск сказал, что скоро будут выпущены новые инструменты для создания изображений и кодирования. Обычная версия Grok 4 стоит 30 долларов в месяц; SuperGrok Heavy — пакет deluxe с несколькими агентами и исследовательскими инструментами — стоит 300 долларов.

О поддержке научной журналистики

Если вам нравится прочитав эту статью, подумайте о том, чтобы поддержать нашу журналистскую деятельность, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

Artificial Analysis, независимая платформа для бенчмаркинга, которая оценивает модели искусственного интеллекта, теперь присвоила Grok 4 наивысший рейтинг по индексу искусственного интеллекта, немного опередив Gemini 2.5 Pro и OpenAI o4-mini- высокий. А Grok 4 фигурирует как самая эффективная общедоступная модель в списках лидеров для корпуса абстракций и рассуждений, или ARC-AGI-1, и его второго издания, ARC-AGI-2 — тестов, которые измеряют прогресс в развитии общего интеллекта, подобного человеческому. Грег Камрадт, президент фонда ARC Prize, некоммерческой организации, которая ведет две таблицы лидеров, говорит, что, когда команда xAI обратилась в фонд с результатами Grok 4, организация независимо протестировала Grok 4 на наборе данных, к которому у команды xAI не было доступа, и подтвердила результаты. «Прежде чем мы сообщим о результатах работы какой-либо лаборатории, они не будут проверены, пока мы их не проверим», — говорит Камрадт. «Мы одобрили слайд [результатов тестирования], который [команда xAI] показала при запуске.»

Согласно xAI, Grok 4 также превосходит другие системы искусственного интеллекта по ряду параметров. дополнительные критерии, подтверждающие его эффективность в предметах STEM (ознакомьтесь с полным перечнем критериев здесь). Алекс Олтеану, старший редактор по науке о данных образовательной платформы искусственного интеллекта DataCamp, протестировал ее. «В моих тестах Grok был силен в математике и программировании, и я был впечатлен качеством его логических рассуждений, которые демонстрируют изобретательность и логическую обоснованность. подход к решению проблем», — говорит Олтеану. «Его контекстное окно, однако, не очень конкурентоспособно, и с большими базами кода, с которыми вы сталкиваетесь в рабочей среде, могут возникнуть проблемы. Он также не справился с задачей, когда я попросил его проанализировать 170-страничный PDF-файл, вероятно, из-за ограниченного контекстного окна и слабых мультимодальных возможностей». (Мультимодальные возможности относятся к способности модели анализировать более одного вида данных одновременно, например, комбинацию текста, изображений, аудио и видео.)

Что касается более тонких аспектов, то проблемы с Grok 4 появились с момента его выпуска. Несколько постеров на X, принадлежащих самому Маску, а также новостные агентства технической индустрии сообщили, что, когда Grok 4 задавали вопросы об израильско-палестинском конфликте, абортах и иммиграционном законодательстве США, он часто искал позицию Маска по этим вопросам, ссылаясь на его X постов и статей, написанных о нем. А выпуск Grok 4 произошел после нескольких разногласий с Grok 3, предыдущей моделью, которая публиковала материалы, содержащие антисемитские комментарии, восхваления Гитлера и заявления о «геноциде белых» — инцидентах, которые xAI публично признала, приписав их несанкционированным манипуляциям и заявив, что компания была принятие корректирующих мер.

В какой-то момент во время запуска Маск прокомментировал, что создание искусственного интеллекта умнее человека пугает, хотя он сказал, что верит, что конечный результат будет хорошим — вероятно. «Я в какой-то степени примирился с тем фактом, что, даже если ничего хорошего из этого не выйдет, я, по крайней мере, хотел бы остаться в живых и увидеть, как это произойдет», — сказал он.

✅ Найденные теги: новости, Новый
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых