Image

Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети

У китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей. 

Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться. 

Что там интересного 

DeepSeek-V3.2-Exp — экспериментальная версия, которую сами же разработчики называют «промежуточным шагом» в сторону архитектуры нового поколения. Она основана на модели V3.1-Terminus с существенным изменением — добавлением DeepSeek Sparse Attention. Это механизм разреженного внимания, разработанный для исследования и проверки оптимизаций, повышающих эффективность обучения и инференса в задачах с длинным контекстом.

Если упростить, Sparse Attention нужен, чтобы модель могла быстрее и экономичнее работать с очень длинными текстами. Идея в том, чтобы не тратить вычислительные ресурсы на обработку каждой мелочи, а фокусироваться только на действительно важных частях текста.

Иными словами, цель эксперимента — проверить, можно ли сделать обучение и работу модели с большими объемами текста более легкими и эффективными.

Что там по бенчмаркам

Интересный результат показали испытания на бенчмарках. Никакого резкого всплеска, который можно было бы ожидать от громких заявлений, даже больше — в некоторых ситуациях DeepSeek-V3.2-Exp уступает своей «материнской» модели V3.1-Terminus. Например, кодить новинке удается явно хуже, и результаты проверки на бенчмарке Humanity’s Last Exam тоже оказались посредственными в сравнению с V3.1-Terminus. 

3a5be7fe8da868b4f180112afef31a1f

Важно другое — стоимость запроса стала сильно меньше. 

38653e61fe28334faabae1960857e6cd

На иллюстрации сверху видно, что DeepSeek-V3.2-Exp тратит гораздо меньше за миллион токенов, чем основная модель, и это может стать решающим фактором для китайских разработчиков. Невольно вспоминаются слова Сэма Альтмана, которые он написал в одном из своих постов: «Стоимость использования определенного уровня ИИ снижается примерно в 10 раз каждые 12 месяцев, а более низкие цены приводят к значительно более широкому применению». Так что разработчики действительно ищут способы удешевить стоимость нейросетей, и DeepSeek тому пример. Зачем? Чтобы DeepSeek применялась шире, конечно же. 

И все благодаря механизму Sparse Attention. 

Что такое Sparse Attention 

Можно представить работу нейросети как поиск авиакомпанией наилучшего маршрута из одной точки в другую. Вместо того, чтобы летать по всем возможным маршрутам, авиакомпания просто отсекает те варианты, которые невыгодны, дорого стоят, приводят к сильным затратам топлива или просто невозможны: вот это и есть Sparse Attention. Вместо того, чтобы обрабатывать абсолютно все данные, оснащенная этим механизмом нейросеть просто отсекает те, которые кажутся ей лишними. Таким образом, она тратит значительно меньше вычислительных мощностей и обходится пользователям дешевле.

При этом есть и минусы. Абсолютно непонятно, что именно отсекает нейросеть. Это своего рода «черный ящик», в который невозможно заглянуть. В этом смысле ИИ оперирует только своей внутренней логикой, а значит, может не учесть какие-то важные нюансы.

Нельзя сказать, что сам механизм разреженного внимания какой-то сверхновый. Более того, он — опенсорс, а значит, DeepSeek не удастся его запатентовать.

Однако важно, на мой взгляд, не это. Важно то, что DeepSeek продолжает пробовать новое — и даже называет DeepSeek-V3.2-Exp «промежуточным шагом к архитектуре нового поколения», как я уже писал выше. При этом разработчики понимают, что людям интересно новое, эффективное и дешевое, именно в такой комбинации. Учитывая, какую яростную борьбу ведут нейросети Китая и США, для Поднебесной достижение искомого результата может стать серьезной картой в игре. В которую, похоже, китайцы играют «в долгую».

Хотя сегодня DeepSeek-V3.2-Exp — лишь промежуточный шаг, завтра он может оказаться фундаментом для следующего большого скачка.

Источник: habr.com

✅ Найденные теги: новости, Что

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Image Not Found
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых