Архив рубрики ~Коротко из Telegram~

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая…

Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх.

Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴

📊 Какие бенчмарки использовали?

🟢GPQA (Graduate-level Physics Questions Answers)
Пр
оверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете.

🟢MATH (Mathematics Aptitude Test of Heuristics)
Тес
ты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают.

🟢Aider Polyglot
Зада
чи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления.

🟢SimpleBench
Прове
рка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени.

🟢VPCT (Visual Physical Causality Test)
Тест н
а понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках.

Цифры из графика:

Aider Polyglot (программирование): +52% и максимальный скачок до 85%

VPCT (визуальное понимание): +26% до 66%

GPQA Diamond (наука): +25% до 87%

SimpleBench (здравый смысл): +21% до 62%

FrontierMath (сложная математика): +23% до 31%.

❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.

file_828.jpg

Оцените материал:

Читайте также
Архив рубрики ~Лента новостей~ Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз Архив рубрики ~Лента новостей~ Моноклональные антитела защитили мышцы при лечении агонистом рецептора ГПП-1. Ингибирование миостатина снизило потерю мышечной массы Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Лента новостей~ Oracle предупреждает об уязвимости в системе безопасности, которую хакеры использовали для взлома более чем 100 компаний. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Лента новостей~ Если вы просите внимания человека, продемонстрируйте человеческие усилия. Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Лента новостей~ Midjourney делают упор на удобстве Архив рубрики ~Обо всем~ Конфиденциальная подача проекта формы S-1 в Комиссию по ценным бумагам и биржам США | OpenAI Архив рубрики ~Лента новостей~ Как я пишу Telegram-ботов через Claude Code, вообще не умея программировать Архив рубрики ~Обо всем~ Действительно ли нам нужны гигантские, шумные, пожирающие воду центры обработки данных, разрушающие наши сообщества? В условиях нынешней экономики? | Первая собака на Луне Архив рубрики ~Обо всем~ Лёд и гравитация. Технологии длительного хранения энергии Архив рубрики ~Лента новостей~ Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз Архив рубрики ~Лента новостей~ Моноклональные антитела защитили мышцы при лечении агонистом рецептора ГПП-1. Ингибирование миостатина снизило потерю мышечной массы Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Лента новостей~ Oracle предупреждает об уязвимости в системе безопасности, которую хакеры использовали для взлома более чем 100 компаний. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Лента новостей~ Если вы просите внимания человека, продемонстрируйте человеческие усилия. Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Лента новостей~ Midjourney делают упор на удобстве Архив рубрики ~Обо всем~ Конфиденциальная подача проекта формы S-1 в Комиссию по ценным бумагам и биржам США | OpenAI Архив рубрики ~Лента новостей~ Как я пишу Telegram-ботов через Claude Code, вообще не умея программировать Архив рубрики ~Обо всем~ Действительно ли нам нужны гигантские, шумные, пожирающие воду центры обработки данных, разрушающие наши сообщества? В условиях нынешней экономики? | Первая собака на Луне Архив рубрики ~Обо всем~ Лёд и гравитация. Технологии длительного хранения энергии