Image

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх.

Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴

📊 Какие бенчмарки использовали?

🟢GPQA (Graduate-level Physics Questions Answers)
Пр
оверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете.

🟢MATH (Mathematics Aptitude Test of Heuristics)
Тес
ты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают.

🟢Aider Polyglot
Зада
чи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления.

🟢SimpleBench
Прове
рка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени.

🟢VPCT (Visual Physical Causality Test)
Тест н
а понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках.

Цифры из графика:

Aider Polyglot (программирование): +52% и максимальный скачок до 85%

VPCT (визуальное понимание): +26% до 66%

GPQA Diamond (наука): +25% до 87%

SimpleBench (здравый смысл): +21% до 62%

FrontierMath (сложная математика): +23% до 31%.

❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.

file_828.jpg
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов
Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов
Молодой ученый из Лесосибирска вошел в рейтинг Forbes «30 до 30»
Аспирант решил давнюю проблему узла Конвея.
Аспирант решил давнюю проблему узла Конвея.
Ученые дали лососю кокаин, и вы непременно поверите, что произошло дальше.
Ученые дали лососю кокаин, и вы непременно поверите, что произошло дальше.
Тайваньский ценник ноутбука ASUS ROG Zephyrus Duo 2026 с Core Ultra 9 386H и RTX 5090M составляет $8500
Тайваньский ценник ноутбука ASUS ROG Zephyrus Duo 2026 с Core Ultra 9 386H и RTX 5090M составляет $8500
Image Not Found
Музыка без автора: ИИ уже пишет хиты и никто не…

Музыка без автора: ИИ уже пишет хиты и никто не…

Музыка без автора: ИИ уже пишет хиты и никто не замечает Нейросети перестали быть «помощниками» — они уже сами попадают в чарты. Что показало исследование Deezer и Ipsos: — 97% слушателей не отличили ИИ-треки — 71% были…

Апр 22, 2026
HTML → видео: HyperFrames превращает фронтенд в продакшн HeyGen выложила…

HTML → видео: HyperFrames превращает фронтенд в продакшн HeyGen выложила…

HTML → видео: HyperFrames превращает фронтенд в продакшн HeyGen выложила open-source фреймворк HyperFrames — теперь видео можно собирать так же, как веб-страницу. Суть: — пишешь HTML + CSS — получаешь готовое видео Как устроено: — композиция —…

Апр 22, 2026
ИИ-хайп остыл: индекс впервые пошёл вниз за полтора года Индекс…

ИИ-хайп остыл: индекс впервые пошёл вниз за полтора года Индекс…

ИИ-хайп остыл: индекс впервые пошёл вниз за полтора года Индекс AI_HI впервые с III квартала 2024 года показал снижение — пусть и символическое: — с 377 до 376 пунктов (–0,4%) Контраст с прошлым годом заметный: — в…

Апр 22, 2026
ИИ зовёт человека на помощь — и платит за это…

ИИ зовёт человека на помощь — и платит за это…

ИИ зовёт человека на помощь — и платит за это Стартап Humwork предлагает новую модель: когда агент застрял, он вызывает живого эксперта. Как это работает: — инженер создаёт профиль с навыками — ИИ через MCP подключает его…

Апр 22, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых