Сбер опубликовал экспериментальную диффузионную языковую модель GFusion
Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей.
Сбер представил GFusion — экспериментальную диффузионную языковую модель, разработанную на основе нейросети GigaChat. Ключевой особенностью проекта, созданного стажёром команды фундаментальных моделей, стал принципиально иной подход к генерации текста, который открывает новые возможности для исследований в области искусственного интеллекта.

В отличие от классических языковых моделей, которые создают текст последовательно, слово за словом, GFusion работает по аналогии с генерацией изображений. Модель сначала формирует общий «набросок» ответа, а затем пошагово его дорабатывает. В Сбере отметили, что это позволяет генерировать текст до 45% быстрее по сравнению с GigaChat 3 и обеспечивает большую гибкость: модель может дополнять любую часть ответа, не следуя строгому порядку слева направо.
Помимо самой модели, Сбер опубликовал инструменты для ускорения обучения подобных систем и внёс изменения в популярный фреймворк SGLang, добавив в него поддержку GFusion. Это первый в России проект по созданию диффузионных языковых моделей с открытым исходным кодом такого масштаба.
Источник: ixbt.pro
Похожие записи
Оцените материал:
Похожие записи
Заводы по производству древесных гранул подвержены возгоранию. Зачем строить их в Калифорнии?
15.06.2025
Стратегия кэширования для выявления узких мест на конвейере ввода данных
08.07.2025
В Самарской области запустили первую очередь производства беспилотников
09.07.2025Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
