Почему крошечный VibeThinker-3B от Weibo снова стал причиной споров в мире ИИ о результатах тестов?
Майкл Нуньес
В воскресенье группа из девяти исследователей из Sina Weibo — китайского гиганта социальных сетей, более известного своей платформой микроблогов, чем передовыми разработками в области искусственного интеллекта, — незаметно опубликовала на arXiv 14-страничный технический отчет, который вызвал шок в сообществе исследователей ИИ. Их утверждение: языковая модель всего с 3 миллиардами параметров может соответствовать или превосходить по производительности рассуждений флагманские системы от Google DeepMind, OpenAI, Anthropic и DeepSeek, которые в сотни раз больше.
Модель, получившая название VibeThinker-3B, набрала 94,3 балла на AIME 2026 — Американском пригласительном математическом экзамене, одном из самых сложных стандартизированных математических соревнований в мире. Этот показатель ставит её в один ряд с DeepSeek V3.2, моделью с 671 миллиардом параметров, и опережает Gemini 3 Pro, высокопроизводительную флагманскую систему логического мышления от Google, которая набрала 91,7 балла. Благодаря методу масштабирования во время тестирования, который команда называет оценкой надежности на уровне утверждений (Claim-Level Reliability Assessment), оценка поднимается до 97,1, превосходя практически все системы, имеющиеся в открытом доступе.
В течение нескольких часов после публикации статья получила 62 голоса «за» в ленте ежедневных новостей Hugging Face, репозиторий модели набрал 130 лайков, а репозиторий на GitHub достиг 685 звезд. Но реакция в социальных сетях не была единодушно восторженной. Во многих случаях она была глубоко скептической.
«ЧТО, ЧЁРТ ВОЗЬМИ, ПРОИСХОДИТ В ИИ?» — написал пользователь @orcus108 на X в посте, который набрал более 161 000 просмотров. «Модель с 3 миллиардами параметров только что показала результаты в тестах бенчмарка, сравнимые с Claude Opus 4.5… Я действительно не знаю, прорыв это или же тесты не работают».
Это противоречие — между подлинным научным прогрессом и растущим подозрением, что критерии оценки ИИ стали настолько легко поддающимися манипуляциям, что потеряли всякий смысл, — лежит в основе истории VibeThinker-3B. И ответ на этот вопрос имеет огромное значение не только для академических достижений, но и для многомиллиардного вопроса о том, является ли неустанное стремление индустрии ИИ к созданию все более крупных моделей единственным путем к интеллекту.
Результаты тестов, которые бросают вызов законам масштабирования современного ИИ.
Результаты, представленные в техническом отчете, по любым общепринятым стандартам являются исключительными.
В математической части VibeThinker-3B показал результат 91,4 на AIME 2025, 94,3 на AIME 2026, 89,3 на HMMT 2025 (Математический турнир Гарвард-Массачусетский технологический институт), 93,8 на BruMO 2025 (Математическая олимпиада Брауновского университета) и 76,4 на IMO-AnswerBench, бенчмарке, включающем 400 задач уровня Международной математической олимпиады. В программировании он показал результат 80,2 Pass@1 на LiveCodeBench v6, бенчмарке, предназначенном для проверки генерации исполняемого кода, и достиг 96,1-процентного уровня принятия в еженедельных и двухнедельных конкурсах LeetCode, в которых ранее не участвовали, с конца апреля по конец мая 2026 года. В тесте на следование инструкциям он набрал 93,4 на IFEval.
Чтобы оценить разницу в параметрах: DeepSeek V3.2 имеет 671 миллиард параметров — примерно в 224 раза больше, чем VibeThinker-3B. GLM-5 от Zhipu AI имеет 744 миллиарда параметров. Kimi K2.5 от Moonshot AI превышает 1 триллион. 3 миллиарда параметров VibeThinker-3B могли бы работать на обычном ноутбуке.
Исследователи представляют этот результат не как аномалию, а как доказательство более широкого теоретического утверждения. Они вводят то, что называют «гипотезой параметрического сжатия-покрытия», которая утверждает, что различные типы возможностей ИИ имеют принципиально разные отношения к размеру модели. Проверяемое рассуждение — то, которое проверяется в математических конкурсах и задачах по программированию, где ответы можно однозначно проверить, — это то, что в статье называется «параметрически плотной» возможностью: возможность, которую можно сжать в компактное ядро. Знания в открытой предметной области, напротив, являются «параметрически расширяющимися», требующими широкого охвата фактов, концепций и граничных случаев, что по своей природе требует большего количества параметров.
В статье это различие признается напрямую. На GPQA-Diamond, эталонном тесте для оценки научных знаний на уровне аспирантуры, VibeThinker-3B набрал всего 70,2 балла — значительно меньше, чем 91,9 балла, достигнутые Gemini 3 Pro, и 87,0 баллов, полученные Claude Opus 4.5. Авторы пишут, что этот разрыв «соответствует нашему утверждению, а не противоречит ему: главный вывод заключается не в том, что модель 3B полностью заменила ведущие универсальные модели, а в том, что небольшая модель может достичь первоклассных результатов во многих проверяемых задачах рассуждения».
Внутри четырехэтапного конвейера обучения, который обеспечивает работу крошечного механизма логического мышления.
Модель VibeThinker-3B не создана с нуля. Она прошла дополнительное обучение на основе Qwen2.5-Coder-3B, компактной базовой модели от команды Qwen компании Alibaba, с использованием принципа, который исследователи Weibo AI называют «принципом преобразования спектра в сигнал» — многоэтапного конвейера, впервые представленного в предыдущей работе команды над моделью VibeThinker-1.5B в ноябре 2025 года.
Обучение проходит в четыре основных этапа. Первый — это двухэтапный процесс контролируемой тонкой настройки с использованием обучения на основе учебной программы: сначала модель обучается на широком наборе данных по математике, программированию, STEM-логике, общему диалогу и выполнению инструкций, а затем переходит к тщательно отобранному подмножеству более сложных задач на логическое мышление с более длительным горизонтом решения. На втором этапе отбрасываются примеры с логическими рассуждениями короче 5000 токенов, а также отфильтровываются задачи, которые VibeThinker-1.5B может решить более чем в 75% случаев, что заставляет модель сосредоточиться на действительно сложных задачах.
На втором этапе применяется обучение с подкреплением в различных областях — математике, программировании и STEM — с использованием разработанного командой алгоритма оптимизации политики на основе максимальной энтропии (MaxEnt-Guided Policy Optimization, MGPO), который отдает приоритет обучению на задачах, находящихся на границе текущих возможностей модели, а не на задачах, которые она уже легко решает или считает невыполнимыми. Примечательно, что команда обнаружила, что стратегия, хорошо работавшая на уровне 1,5 млрд — постепенное расширение контекстного окна во время обучения с подкреплением — на самом деле ухудшила производительность на уровне 3 млрд. Они предполагают, что более сильная начальная контрольная точка означала, что усечение траекторий рассуждений во время разминки больше не удаляло шум, а нарушало правильные модели рассуждений. Решением стало обучение с использованием одного контекстного окна в 64 000 токенов на протяжении всего процесса.
В рамках этапа математического обучения с подкреплением команда также вводит так называемый «Long2Short Math RL» — вторичный этап оптимизации, который перераспределяет вознаграждения, отдавая предпочтение более коротким правильным решениям перед более длинными, уменьшая многословность без ущерба для точности. Этот метод использует перераспределение вознаграждений с нулевой суммой, что позволяет избежать смещения общего сигнала вознаграждения и одновременно направляет модель к более эффективному рассуждению.
На третьем этапе из контрольных точек, обученных с помощью обучения с подкреплением, извлекаются высококачественные траектории рассуждений и преобразуются обратно в единую модель посредством контролируемой тонкой настройки. Команда использует «оценку потенциала обучения» — по сути, степень детализации модели-ученика на каждой траектории учителя — для определения приоритетности правильных траекторий, которые ученик еще не усвоил. На заключительном этапе, называемом «Обучение с подкреплением», применяется обучение с подкреплением к задачам следования инструкциям с использованием комбинации основанных на правилах валидаторов для ограничений формата и моделей вознаграждения на основе рубрик для открытой оценки качества.
Франческо Бертолотти, исследователь в области ИИ, который обратил внимание на эту статью на X, кратко описал подход: «Эти результаты были достигнуты в основном за счет доработок после обучения на Qwen2.5-Coder. В статье не приводится много подробностей, но, похоже, они используют данные из контрольных точек RL, а затем выполняют заключительную инструкцию RL на основе RL». Его пост собрал более 161 000 просмотров.
Тестирование в реальных условиях выявляет разрыв между результатами эталонных тестов и практической производительностью ИИ.
На каждый восторженный отклик статья вызывала столь же резкое возражение. К середине 2026 года сообщество исследователей в области ИИ стало крайне настороженно относиться к заявлениям, основанным на результатах бенчмарков, и VibeThinker-3B появился в среде, изначально настроенной на подозрения.
«Эти тесты представляют собой буквальное сопоставление шаблонов в коде, написанном в одном файле», — написал @BigMoonKR на X. «Они никак не связаны с реальной работой по программированию. Я не понимаю, как люди до сих пор этого не понимают».
«Бенчмаксинг», — заявил @oflu_bedirhan, используя термин, ставший в сообществе ИИ сокращенным обозначением моделей, которые, по-видимому, оптимизированы специально для производительности в бенчмарках в ущерб реальной полезности.
Наиболее резкая критика прозвучала от пользователей, которые действительно скачали и протестировали модель. «Только что попробовал полную точность», — написал @politilols. «Она даже не знает, что такое UV-скрипт (самый популярный инструмент для разработчиков на Python). Я не видел ничего подобного ни в одной модели LLM как минимум год. Benchmaxxed». Когда Бертолотти ответил, что модель, похоже, больше ориентирована на математические рассуждения, чем на практическое программирование, пользователь парировал: «Они включают оценку Livecodebench. Нет ни малейшего шанса, что она отражает работу модели».
Пользователь @Itsdotdev высказал структурную критику: «Если взглянуть на сами бенчмарки, то, вероятно, это не будет так уж шокирующе. Почему нет DeepSWE? Почему нет ни одного из стандартных бенчмарков, которые используют лучшие в своем классе поставщики?» Пользователь @AvenirReym задал более диагностический вопрос: «Если результат сохраняется на бенчмарке, созданном после окончания обучения модели, то это правда. Если же он побеждает только на наборах данных в стиле AIME, которые циркулируют годами, то это утечка».
Авторы статьи, по-видимому, предвидели эти возражения. В техническом отчете говорится, что обучающие наборы данных «прошли строгую очистку от эталонных данных», включая фильтрацию на основе n-грамм для удаления «совпадений n-грамм с оценочными наборами данных».
Оценка результатов конкурсов LeetCode, охватывающая конкурсы с 25 апреля по 31 мая 2026 года (даты, предшествующие любому возможному ограничению на использование обучающих данных), представляет собой наиболее надежную защиту от проблем, связанных с загрязнением данных. В этих конкурсах VibeThinker-3B прошел 123 из 128 попыток с первой попытки, что составляет 96,1%, превзойдя показатели GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6 в идентичных условиях оценки.
Тем не менее, реальные отзывы пользователей указывают на значительный разрыв между производительностью в тестах и практической полезностью — явление, ставшее привычным в отрасли. «В LM Studio программа хорошо реагирует только на первый вопрос, последующие вопросы отвечают на первый», — сообщил @luismolinaab.
Почему компания, работающая в сфере социальных сетей, возможно, нашла слабое место в гипотезе масштабирования?
Даже самые ярые критики признали, что достижение этих эталонных показателей при 3 миллиардах параметров — независимо от того, насколько они применимы в производственных условиях — является значимым инженерным достижением. «Даже если это максимизация производительности, то достижение таких результатов с 3 миллиардами параметров — это захватывающе, это показывает, как быстро развивается эта область», — написал @rohityin.
Это наблюдение подводит нас к вопросу, который волнует индустрию ИИ с момента появления гипотезы масштабирования: всегда ли больше — лучше? Общепринятое мнение, наиболее ярко выраженное в законах масштабирования шиншиллы и подкрепленное коммерческим доминированием все более крупных базовых моделей, гласит, что больше параметров и больше обучающих данных надежно обеспечивают лучшую производительность. Экономическое следствие очевидно: обучение и развертывание передовых моделей обходится в десятки или сотни миллионов долларов, создавая огромные барьеры для входа на рынок.
VibeThinker-3B оспаривает этот консенсус — но лишь частично. В статье тщательно разграничиваются выдвинутые утверждения, проводится различие между задачами с «четкими сигналами проверки» и задачами, требующими обширных фактических знаний. Гипотеза параметрического сжатия-покрытия прямо утверждает, что небольшие модели не могут полностью заменить большие.
«Истинное значение VibeThinker-3B заключается не в доказательстве того, что модель 3B может заменить крупномасштабные универсальные модели, — говорится в статье, — а скорее в предоставлении конкретного эмпирического сигнала: разработка компактных моделей больше не является просто пассивным компромиссом в отношении эффективности развертывания или контроля затрат; она становится многообещающим направлением исследований, которое принципиально дополняет традиционную парадигму масштабирования параметров».
Пожалуй, самым удивительным элементом этой работы является её происхождение. Sina Weibo — компания, акции которой торгуются на Nasdaq и Гонконгской фондовой бирже, а рыночная капитализация колеблется в пределах нескольких миллиардов долларов — обычно не ассоциируется с передовыми исследованиями в области искусственного интеллекта. Тем не менее, серия VibeThinker — это второй крупный вклад Weibo в области ИИ с открытым исходным кодом за семь месяцев.
Выпущенная в ноябре 2025 года модель VibeThinker-1.5B продемонстрировала, что модель всего с 1,5 миллиардами параметров может превзойти оригинальную DeepSeek R1 по нескольким математическим тестам — результат, которого, по утверждению команды, удалось достичь всего за 7800 долларов после обучения, по сравнению с оценочными 294 000 долларов для DeepSeek R1.
Исследовательская группа невелика — девять авторов, все указаны как сотрудники Sina Weibo Inc. Модель распространяется под лицензией MIT, одной из самых либеральных лицензий с открытым исходным кодом, а веса можно бесплатно загрузить с сайтов Hugging Face и ModelScope. В течение первого дня после релиза члены сообщества уже создали квантизации GGUF и производные модели.
Небольшие модели, большие последствия и вопрос, которого индустрия ИИ больше не может избегать.
Наиболее честная оценка VibeThinker-3B может заключаться в том, что она одновременно и меньше, и больше, чем показывают результаты тестов. Меньше, потому что модель, испытывающая трудности с базовыми знаниями популярных инструментов для разработчиков, вряд ли заменит какой-либо профессиональный помощник в программировании в ближайшее время. Больше, потому что лежащая в её основе идея — что способность к рассуждению и фактические знания частично разделены, и что первое можно сжимать гораздо агрессивнее, чем предполагалось ранее — имеет глубокие последствия для того, как отрасль думает о проектировании моделей, экономике развертывания и доступности передовых возможностей ИИ.
Если гипотеза параметрического сжатия-покрытия подтвердится, это предполагает будущее, в котором небольшие специализированные механизмы логического мышления будут работать параллельно с крупными моделями, обладающими обширными знаниями, в гибридных архитектурах — видение, где модель с 3 миллиардами параметров будет выполнять основную логическую работу, а более крупная система будет обеспечивать фактическую основу. Такая архитектура может значительно снизить стоимость развертывания возможностей логического мышления в области ИИ, потенциально обеспечивая математические и программные возможности уровня соревнований на устройствах со скромным аппаратным обеспечением.
«Интересно то, что мы начинаем отделять знания от рассуждений», — написал @RealLambdaFlux на X. «Небольшая модель с сильной постобработкой может показать результаты намного лучше, чем можно было бы ожидать, в задачах с четкой обратной связью».
@cmitsakis предложил практический вариант решения проблемы: «Я думаю, что небольшие модели — это будущее для агентов, потому что они могут использовать инструменты для получения знаний, и они могут работать быстро и дешево».
Независимо от того, появится ли это будущее именно благодаря VibeThinker-3B или благодаря десяткам команд, которые сейчас соревнуются в воспроизведении и расширении этих результатов, данная работа уже достигла того, чего не может в полной мере отразить ни один эталонный показатель.
Это заставило сообщество разработчиков ИИ столкнуться с неприятной возможностью: что в течение многих лет индустрия, возможно, тратила миллиарды долларов на масштабирование параметров для улучшения интеллекта, который с самого начала мог бы поместиться на ноутбуке. Весовые коэффициенты общедоступны. Код открыт. И самое важное испытание заключается не в каких-либо рейтингах — а в том, сможет ли кто-нибудь сделать такую маленькую модель действительно полезной в реальном мире.

Источник: venturebeat.com
Оцените материал:
Похожие записи
Лечение выпадения волос: новая сыворотка из тайваньской компании Schweitzer Biotech
18.10.2025
Спустя 5 месяцев бутылки текилы Besties All-In по цене 1200 долларов наконец-то начали поставляться.
14.11.2025Илон Маск настаивает на том, что банки, работающие над IPO SpaceX, должны приобрести подписки на Grok.
07.04.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
