ba4923274536df262af290844a2624f2.jpg

Humanity’s Last Exam: последний серьезный экзамен для ИИ

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).

Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.

Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.

Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться.

Есть и более «узкие» бенчмарки:

  • GSM8K — проверка школьной и чуть выше математики с многошаговыми задачками,

  • HumanEval — небольшой набор задач на генерацию кода (программирование).

И вот на этом фоне появляется Humanity’s Last Exam — бенчмарк с максимально драматичным названием, который претендует быть чем-то вроде «последнего серьёзного экзамена старого типа» для ИИ.

Чем вообще интересен Humanity’s Last Exam

На мой взгляд, он выделяется сразу в нескольких плоскостях.

1. Он сознательно слишком сложный для текущих моделей. Большинство тестов ИИ уже постепенно «пробил потолок» — топовые модели набирают там близко к максимуму, и становится непонятно, где у них реальные ограничения. Humanity’s Last Exam, наоборот, придуман так, чтобы современные системы его не проходили идеально. Это новая планка: «давайте сделаем экзамен, до которого они пока не допрыгивают».

2. Он ближе к реальной человеческой экспертизе. В нём много задач по разным дисциплинам: математика, естественные науки, гуманитарные области, логика. Причём это не только тестики с вариантами, а вопросы, где нужно рассуждать и действительно понимать предмет. По сути, это попытка проверять ИИ не на уровне «хорошего студента», а на уровне людей, которые уже создают знания — исследователей и сильных специалистов.

3. Он встроен в дискуссию про риски и границы ИИ. Humanity’s Last Exam интересен не только тем, что по нему можно сравнивать «кто круче — модель А или модель Б». Он нужен, чтобы:

  • увидеть слабые места моделей,
  • оценить, насколько они приближаются к уровню экспертов,
  • понять, где им пока нельзя безоговорочно доверять.

Это уже не просто спорт «у кого процентов больше», а инструмент для разговоров о безопасности, регулировании и том, какие задачи можно отдавать ИИ.

Немного конспирологии

Я тут недавно разгонял конспирологию, что ИИ — это новый антихрист. Уверен, я далеко не первый. Каждый большой рывок в технологиях — печатный станок, радио, телевидение, интернет — всегда сопровождался криками, что «это конец света» и «знак апокалипсиса». Но с ИИ есть ощущение, что совпадений с библейскими образами подозрительно много.

В Библии антихрист — это не только один злодей в конце времён, а ещё и дух/система, которые:

  • подменяют Христа чем-то «вместо Него»,
  • отрицают Бога, пришедшего во плоти,
  • требуют поклонения себе и контроля над людьми.
Бенчмарк конца эпохи - Humanity’s Last Exam

В Откровении описан образ, которому «дают дух», и он начинает говорить и влиять на людей. Сегодня это странно рифмуется с цифровыми аватарами и чат-ботами: неживой образ на экране, «оживлённый» моделью, разговаривает с миллионами людей и становится для них авторитетом.

Иоанн пишет не только об одном Антихристе, но и о «многих антихристах». Тут тебе и ChatGPT, и Gemini, и Claude, и даже Алиса. Вместе они легко складываются в такой рой «цифровых пророков», транслирующих один и тот же безличный технократический дух.

Пророк Даниил описывает «последние времена» так: «многие будут метаться туда и сюда, и умножится знание». В доинтернетную эпоху это звучало как загадка. Сегодня читается почти буквально: глобальная мобильность и постоянное перемещение; бесконечный поток трафика; экспоненциальный рост данных. Логичный спутник этого — необходимость некоего сверхбыстрого разума, который умеет управлять этим знанием. По сути, довольно точное описание роли ИИ.

Вместо вывода

Для меня Humanity’s Last Exam — это не «начало конца человечества», а начало более взрослого разговора про ИИ. Не только «сможет ли нейросеть решить олимпиаду», а «где у неё реальные пределы, чему её можно доверить, а где человек всё ещё незаменим».

Старые бенчмарки во многом уже перестали что-то говорить: сильные модели упираются в потолок, и графики с процентами превращаются в маркетинговый фон. HLE даёт новый запас высоты и честно показывает, что даже самые мощные системы пока далеки от того, чтобы стать универсальными «сверхразумами».

Будем надеяться, что HLE действительно поможет нам лучше понимать ИИ и развивать его в нужном нам, человекам, направлении. И, что очень важно, вовремя остановиться, не дожидаясь второго пришествия.

И, конечно, самое главное — не важно, насколько хорошо ИИ будет справляться с любыми задачами, он не должен стать заменителем мозгов, а остаться инструментом, который делает нас продуктивнее, а жизнь — интереснее и лучше.

Я всегда открыт и рад конструктивному обсуждению на любые темы: цифровая экология, работа с данными, Апокалипсис, котята. Если вам есть что добавить/возразить, то милости прошу в мой канал Econet.

1t.meEconet

Источник: vc.ru

✅ Найденные теги: ИИ, Последний, серьезный, человечество, экзамен

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.
ideipro logotyp
«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.
ideipro logotyp
Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.
Красочное квантовое будущее
Обнаружение штампов и подписей на документах с помощью ADE
Как сделать ваш товар в интернет-магазине видимым для агентов искусственного интеллекта? Используйте эту новую систему, которой доверяют L'Oréal, Unilever, Mars и Beiersdorf.
Вымирающих медососов из Австралии заново обучили традиционной песне. Птицы почти утратили ее из-за сокращения численности вида
Image Not Found
Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

Источник изображения: Matthias Balk/picture alliance via Getty Images / Getty Images Спустя восемнадцать месяцев после продажи своего стартапа производителю микросхем AMD за 665 миллионов долларов финский предприниматель Петер Сарлин покинул пост генерального директора подразделения, ныне известного как…

Мар 13, 2026
ideipro logotyp

Вспышка кори в Южной Каролине замедляется.

Крупнейшая за последние десятилетия вспышка кори в США может закончиться раньше, чем ожидалось. Источник: www.wired.com ✅ Найденные теги: Вспышка, Кори, новости, Южная КаролинаПохожие записиПрежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту…

Мар 13, 2026
«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Как искусственный интеллект превращает иранский конфликт в театрализованное представление В контексте иранского конфликта основное внимание уделялось моделям, подобным Claude,…

Мар 13, 2026
ideipro logotyp

Представления, основанные на ожиданиях и акустических нейронных сетях, улучшают распознавание музыки по активности мозга.

arXiv:2603.03190v2 Тип объявления: замена-кросс Аннотация: Во время прослушивания музыки кортикальная активность кодирует как акустическую информацию, так и информацию, связанную с ожиданиями. Предыдущие работы показали, что представления ИНС напоминают кортикальные представления и могут служить в качестве сигналов-контролеров для…

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых