Image

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх.

Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴

📊 Какие бенчмарки использовали?

🟢GPQA (Graduate-level Physics Questions Answers)
Пр
оверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете.

🟢MATH (Mathematics Aptitude Test of Heuristics)
Тес
ты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают.

🟢Aider Polyglot
Зада
чи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления.

🟢SimpleBench
Прове
рка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени.

🟢VPCT (Visual Physical Causality Test)
Тест н
а понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках.

Цифры из графика:

Aider Polyglot (программирование): +52% и максимальный скачок до 85%

VPCT (визуальное понимание): +26% до 66%

GPQA Diamond (наука): +25% до 87%

SimpleBench (здравый смысл): +21% до 62%

FrontierMath (сложная математика): +23% до 31%.

❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.

file_828.jpg
✅ Найденные теги: Кажется,, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Люди больше не отличают фото настоящих лиц от сгенерированных. Австралийские исследователи проверили 125 человек, включая так называемых «супер-распознавателей» — людей с исключительной способностью узнавать лица. Даже они справились лишь немногим лучше подбрасывания монетки. Проблема в том, что…

Мар 3, 2026
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли в одной симуляции с равным бюджетом в 1000 токенов и единственной целью: максимизировать свой счёт. Никаких правил, никаких инструкций про экономику. Только «можете передавать токены» и «можете…

Мар 3, 2026
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic…

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic выкатили исследование, которое объясняет, почему AI обижается и впадает в депрессию.​​​​​​​​​​​​​​​​ Большие языковые модели по своей сути — театралы, отыгрывающие роль. Исследователи назвали это «Моделью выбора персоны».…

Мар 3, 2026
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

⚡️ Все VPN в России станут МЕДЛЕННЫМИ — популярные сервисы…

⚡️ Все VPN в России станут МЕДЛЕННЫМИ — популярные сервисы заявили, что РКН убил эпоху «прямого» подключения к зарубежным серверам. Раньше блокировали целые адреса или диапазоны. Теперь нейронка смотрит на само поведение соединения. Алгоритмы ищут характерные сигнатуры…

Мар 3, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых