ba4923274536df262af290844a2624f2.jpg

Humanity’s Last Exam: последний серьезный экзамен для ИИ

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).

Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.

Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.

Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться.

Есть и более «узкие» бенчмарки:

  • GSM8K — проверка школьной и чуть выше математики с многошаговыми задачками,

  • HumanEval — небольшой набор задач на генерацию кода (программирование).

И вот на этом фоне появляется Humanity’s Last Exam — бенчмарк с максимально драматичным названием, который претендует быть чем-то вроде «последнего серьёзного экзамена старого типа» для ИИ.

Чем вообще интересен Humanity’s Last Exam

На мой взгляд, он выделяется сразу в нескольких плоскостях.

1. Он сознательно слишком сложный для текущих моделей. Большинство тестов ИИ уже постепенно «пробил потолок» — топовые модели набирают там близко к максимуму, и становится непонятно, где у них реальные ограничения. Humanity’s Last Exam, наоборот, придуман так, чтобы современные системы его не проходили идеально. Это новая планка: «давайте сделаем экзамен, до которого они пока не допрыгивают».

2. Он ближе к реальной человеческой экспертизе. В нём много задач по разным дисциплинам: математика, естественные науки, гуманитарные области, логика. Причём это не только тестики с вариантами, а вопросы, где нужно рассуждать и действительно понимать предмет. По сути, это попытка проверять ИИ не на уровне «хорошего студента», а на уровне людей, которые уже создают знания — исследователей и сильных специалистов.

3. Он встроен в дискуссию про риски и границы ИИ. Humanity’s Last Exam интересен не только тем, что по нему можно сравнивать «кто круче — модель А или модель Б». Он нужен, чтобы:

  • увидеть слабые места моделей,
  • оценить, насколько они приближаются к уровню экспертов,
  • понять, где им пока нельзя безоговорочно доверять.

Это уже не просто спорт «у кого процентов больше», а инструмент для разговоров о безопасности, регулировании и том, какие задачи можно отдавать ИИ.

Немного конспирологии

Я тут недавно разгонял конспирологию, что ИИ — это новый антихрист. Уверен, я далеко не первый. Каждый большой рывок в технологиях — печатный станок, радио, телевидение, интернет — всегда сопровождался криками, что «это конец света» и «знак апокалипсиса». Но с ИИ есть ощущение, что совпадений с библейскими образами подозрительно много.

В Библии антихрист — это не только один злодей в конце времён, а ещё и дух/система, которые:

  • подменяют Христа чем-то «вместо Него»,
  • отрицают Бога, пришедшего во плоти,
  • требуют поклонения себе и контроля над людьми.
Бенчмарк конца эпохи - Humanity’s Last Exam

В Откровении описан образ, которому «дают дух», и он начинает говорить и влиять на людей. Сегодня это странно рифмуется с цифровыми аватарами и чат-ботами: неживой образ на экране, «оживлённый» моделью, разговаривает с миллионами людей и становится для них авторитетом.

Иоанн пишет не только об одном Антихристе, но и о «многих антихристах». Тут тебе и ChatGPT, и Gemini, и Claude, и даже Алиса. Вместе они легко складываются в такой рой «цифровых пророков», транслирующих один и тот же безличный технократический дух.

Пророк Даниил описывает «последние времена» так: «многие будут метаться туда и сюда, и умножится знание». В доинтернетную эпоху это звучало как загадка. Сегодня читается почти буквально: глобальная мобильность и постоянное перемещение; бесконечный поток трафика; экспоненциальный рост данных. Логичный спутник этого — необходимость некоего сверхбыстрого разума, который умеет управлять этим знанием. По сути, довольно точное описание роли ИИ.

Вместо вывода

Для меня Humanity’s Last Exam — это не «начало конца человечества», а начало более взрослого разговора про ИИ. Не только «сможет ли нейросеть решить олимпиаду», а «где у неё реальные пределы, чему её можно доверить, а где человек всё ещё незаменим».

Старые бенчмарки во многом уже перестали что-то говорить: сильные модели упираются в потолок, и графики с процентами превращаются в маркетинговый фон. HLE даёт новый запас высоты и честно показывает, что даже самые мощные системы пока далеки от того, чтобы стать универсальными «сверхразумами».

Будем надеяться, что HLE действительно поможет нам лучше понимать ИИ и развивать его в нужном нам, человекам, направлении. И, что очень важно, вовремя остановиться, не дожидаясь второго пришествия.

И, конечно, самое главное — не важно, насколько хорошо ИИ будет справляться с любыми задачами, он не должен стать заменителем мозгов, а остаться инструментом, который делает нас продуктивнее, а жизнь — интереснее и лучше.

Я всегда открыт и рад конструктивному обсуждению на любые темы: цифровая экология, работа с данными, Апокалипсис, котята. Если вам есть что добавить/возразить, то милости прошу в мой канал Econet.

1t.meEconet

Источник: vc.ru

✅ Найденные теги: ИИ, Последний, серьезный, человечество, экзамен

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.
Красочное квантовое будущее
Обнаружение штампов и подписей на документах с помощью ADE
Как сделать ваш товар в интернет-магазине видимым для агентов искусственного интеллекта? Используйте эту новую систему, которой доверяют L'Oréal, Unilever, Mars и Beiersdorf.
Вымирающих медососов из Австралии заново обучили традиционной песне. Птицы почти утратили ее из-за сокращения численности вида
В Москве резко вырос спрос на пейджеры и рации из-за ограничений мобильного интернета
Экран с DevTools: инспекция элемента сайта с изображением пейзажа и размером.
Абстрактная вселенная с фигурами и человек на пьедестале, окруженный энергией.
Image Not Found
ideipro logotyp

Представления, основанные на ожиданиях и акустических нейронных сетях, улучшают распознавание музыки по активности мозга.

arXiv:2603.03190v2 Тип объявления: замена-кросс Аннотация: Во время прослушивания музыки кортикальная активность кодирует как акустическую информацию, так и информацию, связанную с ожиданиями. Предыдущие работы показали, что представления ИНС напоминают кортикальные представления и могут служить в качестве сигналов-контролеров для…

Мар 13, 2026
Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.

Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.

Исследователи CSAIL обнаружили, что даже «необучаемые» нейронные сети могут эффективно обучаться, если ими руководят встроенные смещения другой сети, используя их собственный метод управления. Исследователи из Массачусетского технологического института обнаружили, что многие так называемые «неэффективные» сети могут просто…

Мар 13, 2026
Красочное квантовое будущее

Красочное квантовое будущее

Мы представляем результаты, демонстрирующие реализацию «цветовых кодов» для квантовой коррекции ошибок на платформе сверхпроводящих кубитов. Быстрые ссылки Бумага Делиться Скопировать ссылку × Коррекция ошибок — ключевой компонент квантовых компьютеров будущего. Используя коррекцию ошибок, мы можем объединить множество…

Мар 13, 2026
Обнаружение штампов и подписей на документах с помощью ADE

Обнаружение штампов и подписей на документах с помощью ADE

Ава Ся, 7 ноября 2025 г. Поделиться: Вкратце: Подписи, печати и штампы являются важнейшими признаками подлинности документов. Однако обнаружение этих элементов остается сложной задачей, поскольку они сильно различаются по форме, расположению и качеству. Традиционные системы оптического распознавания…

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых