Архив рубрики ~Коротко из Telegram~

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх.

Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴

📊 Какие бенчмарки использовали?

🟢GPQA (Graduate-level Physics Questions Answers)
Пр
оверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете.

🟢MATH (Mathematics Aptitude Test of Heuristics)
Тес
ты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают.

🟢Aider Polyglot
Зада
чи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления.

🟢SimpleBench
Прове
рка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени.

🟢VPCT (Visual Physical Causality Test)
Тест н
а понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках.

Цифры из графика:

Aider Polyglot (программирование): +52% и максимальный скачок до 85%

VPCT (визуальное понимание): +26% до 66%

GPQA Diamond (наука): +25% до 87%

SimpleBench (здравый смысл): +21% до 62%

FrontierMath (сложная математика): +23% до 31%.

❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.

file_828.jpg
✅ Найденные теги: Кажется,, новости
Читайте также
Архив рубрики ~Лента новостей~ Anthropic выпустила Fable 5 — и я задумался, не движемся ли мы не в ту сторону Архив рубрики ~Лента новостей~ Нерегулярный сон негативно отразился на словарном запасе и памяти дошкольников. Это не зависело от его продолжительности Архив рубрики ~Лента новостей~ НАСА назначило экипаж для миссии «Артемида III» и установило сжатые сроки её запуска. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Лента новостей~ Snapchat ограничивает пользователей младше 16 лет в возможности делиться «В центре внимания» с друзьями. Архив рубрики ~Лента новостей~ Что происходит в мозге за секунду до смерти Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Лента новостей~ Бенчмарки 3DMark Speed Way и Port Royal обзавелись нативной поддержкой Windows on ARM Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Лента новостей~ «Они вырывают тебя из жизни, из времени»: путешествие в мир наскальной живописи Испании. Архив рубрики ~Лента новостей~ Все хотят урвать свой кусок от бизнеса Tesla по производству аккумуляторов. Архив рубрики ~Лента новостей~ Новая структура для аудита разучивания машин. Архив рубрики ~Лента новостей~ Автоматизированное тестирование нового поколения: как ИИ меняет жизнь тестировщика Архив рубрики ~Лента новостей~ Anthropic выпустила Fable 5 — и я задумался, не движемся ли мы не в ту сторону Архив рубрики ~Лента новостей~ Нерегулярный сон негативно отразился на словарном запасе и памяти дошкольников. Это не зависело от его продолжительности Архив рубрики ~Лента новостей~ НАСА назначило экипаж для миссии «Артемида III» и установило сжатые сроки её запуска. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Лента новостей~ Snapchat ограничивает пользователей младше 16 лет в возможности делиться «В центре внимания» с друзьями. Архив рубрики ~Лента новостей~ Что происходит в мозге за секунду до смерти Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Лента новостей~ Бенчмарки 3DMark Speed Way и Port Royal обзавелись нативной поддержкой Windows on ARM Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Лента новостей~ «Они вырывают тебя из жизни, из времени»: путешествие в мир наскальной живописи Испании. Архив рубрики ~Лента новостей~ Все хотят урвать свой кусок от бизнеса Tesla по производству аккумуляторов. Архив рубрики ~Лента новостей~ Новая структура для аудита разучивания машин. Архив рубрики ~Лента новостей~ Автоматизированное тестирование нового поколения: как ИИ меняет жизнь тестировщика

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.