Image

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх.

Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴

📊 Какие бенчмарки использовали?

🟢GPQA (Graduate-level Physics Questions Answers)
Пр
оверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете.

🟢MATH (Mathematics Aptitude Test of Heuristics)
Тес
ты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают.

🟢Aider Polyglot
Зада
чи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления.

🟢SimpleBench
Прове
рка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени.

🟢VPCT (Visual Physical Causality Test)
Тест н
а понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках.

Цифры из графика:

Aider Polyglot (программирование): +52% и максимальный скачок до 85%

VPCT (визуальное понимание): +26% до 66%

GPQA Diamond (наука): +25% до 87%

SimpleBench (здравый смысл): +21% до 62%

FrontierMath (сложная математика): +23% до 31%.

❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.

file_828.jpg
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую платформу — Claude Design, где визуалы собираются прямо из…

Апр 20, 2026
Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla начала сборку своего самого радикального проекта — Cybercab. Что показали: —…

Апр 20, 2026
ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают быть просто инструментом — они начинают влиять на реальные процессы и…

Апр 20, 2026
Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен…

Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен…

Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен Google выпустил десктопное приложение, которое заменяет…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых