Image

Новый релиз DeepSeek V3.2-Exp — ускорение и снижение цен на API

ab6da7c1cbe5b73173b4028228e5329e

Компания DeepSeek продолжает развивать свою линейку открытых языковых моделей и представила экспериментальную версию V3.2-Exp, которая фокусируется на оптимизации работы с длинными контекстами через инновационный механизм разреженного внимания. Модель доступна на Hugging Face и GitHub под открытой лицензией.

Ключевые нововведения

DeepSeek Sparse Attention (DSA)

Главной особенностью V3.2-Exp стала технология DeepSeek Sparse Attention — первая реализация мелкозернистого разреженного внимания, которая обеспечивает существенные улучшения в эффективности обучения и инференса на длинных контекстах при сохранении качества выходных данных модели.

Основные преимущества DSA:

  • Селективное вычисление весов внимания, значительно снижает вычислительную сложность

  • Аппаратно-оптимизированная архитектура для максимальной производительности

  • Сохранение качества генерации при существенном снижении требований к ресурсам

  • Динамический выбор токенов для обработки в зависимости от контекста

Технические характеристики

Модель сохраняет масштаб параметров в 671B от предыдущих версий, но при этом:

  • Активирует только 37B параметров на каждый токен

  • Использует архитектуру Multi-head Latent Attention (MLA)

  • Поддерживает контекст до 128K токенов

  • Реализует multi-token prediction для улучшенной производительности

Архитектурные улучшения

Оптимизация вычислений

DeepSeek-V3.2-Exp использует несколько техник для оптимизации:

  1. Кэширование вычислений — избегание избыточных расчетов через сохранение промежуточных результатов

  2. Интеллектуальная маршрутизация экспертов — предотвращение коллапса маршрутизации, когда одни эксперты перегружены, а другие недоиспользуются

  3. Без потери токенов — модель не отбрасывает токены ни во время обучения, ни при инференсе благодаря эффективной балансировке нагрузки

Сравнение с предыдущими версиями

По сравнению с V3.1, новая экспериментальная версия демонстрирует:

  • Ускорение обработки длинных текстов в 2-3 раза

  • Снижение потребления памяти на 40% при работе с контекстами свыше 64K токенов

  • Сохранение идентичного качества генерации текста

  • Улучшенную стабильность при масштабировании

Практическое применение

Установка и запуск

Модель можно использовать через Transformers библиотеку:

from transformers import AutoModelForCausalLM, AutoTokenizer # Загрузка модели model_name = «deepseek-ai/DeepSeek-V3.2-Exp» tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=»auto», device_map=»auto» ) # Генерация текста input_text = «Объясни принцип работы разреженного внимания» inputs = tokenizer(input_text, return_tensors=»pt») outputs = model.generate(**inputs, max_length=500) response = tokenizer.decode(outputs[0], skip_special_tokens=True)

Поддерживаемые функции

Модель поддерживает расширенный набор возможностей:

  • Function calling для интеграции с внешними API

  • JSON output для структурированных данных

  • Fill-in-the-Middle (FIM) для задач автодополнения кода

  • Multi-turn диалоги с сохранением контекста

  • Обработка документов объемом до 100,000 слов

Сценарии использования

Обработка длинных документов

V3.2-Exp особенно эффективна для:

  • Анализа научных публикаций и технической документации

  • Суммаризации больших массивов текста

  • Работы с кодовыми базами целиком

  • Многоходовых диалогов с сохранением полного контекста

Интеграция в production

Благодаря оптимизациям DSA, модель подходит для:

  • Систем обработки клиентских запросов

  • Автоматизации документооборота

  • Интеллектуальных ассистентов с расширенным контекстом

  • Аналитических платформ для работы с большими текстами

Производительность и бенчмарки

Эффективность на длинных контекстах

Тестирование показывает следующие результаты:

  • При контексте 32K токенов: скорость генерации увеличена на 45%

  • При контексте 64K токенов: снижение потребления памяти на 35%

  • При контексте 128K токенов: сохранение стабильной производительности без деградации качества

Сравнение с конкурентами

В задачах обработки длинных текстов V3.2-Exp демонстрирует:

  • Сопоставимое с GPT-4 качество при меньших вычислительных затратах

  • Превосходство над Claude 3 в скорости обработки документов свыше 50K токенов

  • Лучшую масштабируемость по сравнению с Llama 3.1 405B

Ограничения и особенности

Текущие ограничения

  • Модель находится в экспериментальной стадии и может содержать неоптимизированные компоненты

  • Требует значительных вычислительных ресурсов для полноценного развертывания (минимум 8xA100 80GB)

  • DSA может показывать нестабильные результаты на очень специфичных задачах

Рекомендации по использованию

Для оптимальных результатов рекомендуется:

  • Использовать квантизацию для снижения требований к памяти

  • Применять батчинг для повышения throughput

  • Настраивать параметры генерации под конкретные задачи

  • Мониторить использование памяти при работе с максимальными контекстами

Будущее развитие

Планы развития

DeepSeek анонсировала продолжение работы над:

  • Дальнейшей оптимизацией DSA для еще большей эффективности

  • Расширением контекстного окна до 256K токенов

  • Улучшением качества работы с многоязычными данными

  • Интеграцией с облачными платформами для упрощения развертывания

Вклад сообщества

Проект активно принимает контрибуции:

  • Оптимизации для специфичного железа

  • Адаптеры для различных фреймворков

  • Бенчмарки и тестирование на новых задачах

  • Документация и примеры использования

Выводы

DeepSeek-V3.2-Exp представляет собой важный шаг в развитии эффективных языковых моделей для работы с длинными контекстами. Технология DeepSeek Sparse Attention открывает новые возможности для практического применения больших моделей в production-окружении, снижая барьер входа благодаря оптимизации ресурсопотребления.

Модель демонстрирует, что инновации в архитектуре внимания могут привести к существенным улучшениям производительности без потери качества. Это особенно важно для задач, требующих обработки больших объемов информации, таких как анализ документации, научных публикаций или кодовых баз.

Открытый характер проекта способствует дальнейшему развитию технологии и её адаптации под различные сценарии использования, делая модель V3.2-Exp важным инструментом для исследователей и разработчиков в области искусственного интеллекта.

Полезные ссылки

  • Модель на Hugging Face

  • GitHub репозиторий

  • Техническая документация DeepSeek-V3

  • Документация по API и промптингу

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых