3D-глобус с текстурами и фракталами на тёмном фоне, надпись "Step3-VL-10B".

Step3-VL-10B: VLM от stepfun.ai

76b09ea51d9d0fa4822b1d457182a5e7 c3d38b8c5967d7dd5c0324ebb3651437

Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.

Встречайте, Step3-VL-10B (https://huggingface.co/collections/stepfun-ai/step3-vl-10b) — компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.

Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.

Архитектура

Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.

В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.

После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.

Тесты

В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:

MMMU: 78.11 (SeRe) / 80.11 (PaCoRe).

MathVista: 83.97

AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe)

OCRBench: 86.75 (отлично читает документы).

Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.

Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?

PaCoRe (Parallel Coordinated Reasoning):

Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.

На инференсе это будет стоить вам в 16 раз «дороже» по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как «убийца всех топов».

Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного `max_tokens`. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки — дело тонкое.

В общем, модель — отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).

Если модель зацикливается при генерации — обновите конфиг, там был баг с `eos_token_id`, который уже пофиксили.

Лицензирование:  Apache 2.0 License.

Модель (https://huggingface.co/collections/stepfun-ai/step3-vl-10b)

Arxiv (https://arxiv.org/pdf/2601.09668)

Demo (https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B)

Источник: huggingface.co

Источник: ai-news.ru

✅ Найденные теги: Step3-VL-10B, stepfun.ai, VLM, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых