DeepSeek-Math-V2: спокойный релиз, громкие цифры Кратко о результатах — Уровень…
DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
— Уровень золотой медали на IMO 2025 и CMO 2024
— Почти идеальный балл 118/120 на Putnam 2024
— На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Что дальше
— Интересно, как модель покажет себя против будущих Gemini 3, Grok 4 и GPT-5.1
Кратко о результатах
Бенчмарков почти нет: ни MATH, ни GSM8K, ни AIME. Зато имеющиеся цифры выглядят многообещающе.
Как работает:
— Базовая модель DeepSeek-V3.2-Exp-Base
— Два ключевых модуля: генератор и верификатор
— Процесс многошаговый:
— генератор пишет решение
— верификатор проверяет каждый шаг, указывает на ошибки
— генератор переписывает и уточняет
— до 16 итераций, в каждой анализируется до 64 гипотез
— Фактически сотни прогонов на одну задачу: умное масштабирование вычислений во время инференса
Материалы
— Веса: тут
— Статья: тут
— Репозиторий: тут

Похожие записи
- Почему мы спорим о памяти для AI-агентов
- Утомительные поручения, задачи и домашние дела, которые хочет заменить искусственный интеллект? Они помогают поддерживать вашу физическую форму | Мануш Зомороди и Кит Диаз
- Пузырь искусственного интеллекта стал настолько сюрреалистичным, что теперь поддерживает туалетную индустрию
Оцените материал:
Похожие записи
🧠 Загляни в мозг нейросети: как ИИ на самом деле…
16.11.2025
Big Data просит Минцифры ослабить ограничения для ИИ Ассоциация больших…
04.03.2026
