Image

Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети

У китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей. 

Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться. 

Что там интересного 

DeepSeek-V3.2-Exp — экспериментальная версия, которую сами же разработчики называют «промежуточным шагом» в сторону архитектуры нового поколения. Она основана на модели V3.1-Terminus с существенным изменением — добавлением DeepSeek Sparse Attention. Это механизм разреженного внимания, разработанный для исследования и проверки оптимизаций, повышающих эффективность обучения и инференса в задачах с длинным контекстом.

Если упростить, Sparse Attention нужен, чтобы модель могла быстрее и экономичнее работать с очень длинными текстами. Идея в том, чтобы не тратить вычислительные ресурсы на обработку каждой мелочи, а фокусироваться только на действительно важных частях текста.

Иными словами, цель эксперимента — проверить, можно ли сделать обучение и работу модели с большими объемами текста более легкими и эффективными.

Что там по бенчмаркам

Интересный результат показали испытания на бенчмарках. Никакого резкого всплеска, который можно было бы ожидать от громких заявлений, даже больше — в некоторых ситуациях DeepSeek-V3.2-Exp уступает своей «материнской» модели V3.1-Terminus. Например, кодить новинке удается явно хуже, и результаты проверки на бенчмарке Humanity’s Last Exam тоже оказались посредственными в сравнению с V3.1-Terminus. 

3a5be7fe8da868b4f180112afef31a1f

Важно другое — стоимость запроса стала сильно меньше. 

38653e61fe28334faabae1960857e6cd

На иллюстрации сверху видно, что DeepSeek-V3.2-Exp тратит гораздо меньше за миллион токенов, чем основная модель, и это может стать решающим фактором для китайских разработчиков. Невольно вспоминаются слова Сэма Альтмана, которые он написал в одном из своих постов: «Стоимость использования определенного уровня ИИ снижается примерно в 10 раз каждые 12 месяцев, а более низкие цены приводят к значительно более широкому применению». Так что разработчики действительно ищут способы удешевить стоимость нейросетей, и DeepSeek тому пример. Зачем? Чтобы DeepSeek применялась шире, конечно же. 

И все благодаря механизму Sparse Attention. 

Что такое Sparse Attention 

Можно представить работу нейросети как поиск авиакомпанией наилучшего маршрута из одной точки в другую. Вместо того, чтобы летать по всем возможным маршрутам, авиакомпания просто отсекает те варианты, которые невыгодны, дорого стоят, приводят к сильным затратам топлива или просто невозможны: вот это и есть Sparse Attention. Вместо того, чтобы обрабатывать абсолютно все данные, оснащенная этим механизмом нейросеть просто отсекает те, которые кажутся ей лишними. Таким образом, она тратит значительно меньше вычислительных мощностей и обходится пользователям дешевле.

При этом есть и минусы. Абсолютно непонятно, что именно отсекает нейросеть. Это своего рода «черный ящик», в который невозможно заглянуть. В этом смысле ИИ оперирует только своей внутренней логикой, а значит, может не учесть какие-то важные нюансы.

Нельзя сказать, что сам механизм разреженного внимания какой-то сверхновый. Более того, он — опенсорс, а значит, DeepSeek не удастся его запатентовать.

Однако важно, на мой взгляд, не это. Важно то, что DeepSeek продолжает пробовать новое — и даже называет DeepSeek-V3.2-Exp «промежуточным шагом к архитектуре нового поколения», как я уже писал выше. При этом разработчики понимают, что людям интересно новое, эффективное и дешевое, именно в такой комбинации. Учитывая, какую яростную борьбу ведут нейросети Китая и США, для Поднебесной достижение искомого результата может стать серьезной картой в игре. В которую, похоже, китайцы играют «в долгую».

Хотя сегодня DeepSeek-V3.2-Exp — лишь промежуточный шаг, завтра он может оказаться фундаментом для следующего большого скачка.

Источник: habr.com

✅ Найденные теги: новости, Что

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек играет на скрипке на улице перед кирпичной стеной.
Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".
dummy-img
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.
ideipro logotyp
Руки режут свежий хлеб на деревянной доске.
Женщина с красными волосами смотрит через металлическую сферу на фоне кирпичной стены.
Мужчина заряжает электромобиль на зимней стоянке, снег, дальний план - деревья и горы.
Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Image Not Found
dummy-img

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

Мар 5, 2026
ideipro logotyp

Bitget Wallet интегрирует DT One для пополнения мобильной связи в более чем 170 странах

Bitget Wallet, приложение для повседневных финансов, объявил о партнерстве с DT One, которое позволит осуществлять пополнение мобильной связи напрямую внутри кошелька с использованием стейблкоинов, связывая ончейн-балансы с повседневными телеком-сервисами. Благодаря инфраструктуре DT One пользователи Bitget Wallet получают…

Мар 5, 2026
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых