Архив рубрики ~Лента новостей~

GFusion: как мы обучали диффузионную LLM в GigaChat

GFusion: как мы обучали диффузионную LLM в GigaChat
GFusion: как мы обучали диффузионную LLM в GigaChat

Салют, Хабр!

Хочу поделиться проектом, которым я занимался во время стажировки в команде GigaChat Pretrain. В течение нескольких месяцев мы исследовали диффузионные языковые модели (dLLM) — относительно новое направление в LLM, в котором многие идеи только начинают проверяться на практике.

Главной целью было не тратить огромное количество ресурсов на обучение с нуля, а взять базовую авторегрессионную модель GigaChat3-10B-A1.8B-base и перевести её в диффузионный режим. Так появились наши экспериментальные GFusion-10B-A1.8B-base и GFusion-10B-A1.8B!

Читать далее

Источник: habr.com

❌ Нет похожих статей с такими тегами

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Новости робототехники Контекст имеет решающее значение: как Avride использует облачные VLM в качестве систем безопасности для роботов-доставщиков. Архив рубрики ~Обо всем~ От «Ё» до «КотоПыха»: какие слова используют предприниматели в названиях Новости робототехники Компания-неудачник-робот-полицейский Knightscope теперь публикует причудливый фанфик с искусственным интеллектом о том, как ее роботы раскрывают абсурдные преступления Архив рубрики ~Полезное~ Собрали ультимативный архив бесплатных GitHub-проектов — сразу 100 репозиториев под… Архив рубрики ~Полезное~ Китайцы представили GLM 5.2 — новую ИИ-модель, которую уже сравнивают… Архив рубрики ~Полезное~ Разбил экран на телефоне — теперь можно не переживать и… Архив рубрики ~Коротко из Telegram~ Metacritic назвал 10 лучших игр первой половины 2026 года —… Архив рубрики ~Коротко из Telegram~ ИИ-браузеры легко могут слить все ваши данные. Исследователи нашли атаку… Архив рубрики ~Полезное~ 🔥 Google раздаёт 1️⃣ МИЛЛИОН токенов для Gemini бесплатно —… Архив рубрики ~Коротко из Telegram~ Opus 4.8 превращают в Fable 5 одним промптом — вайбкодеры… Архив рубрики ~Коротко из Telegram~ Компании начали намеренно заставлять свои инструменты искусственного интеллекта общаться в… Архив рубрики ~Обо всем~ Большой адронный коллайдер остановили на четыре года для модернизации. Ученые планируют поднять светимость в десять раз Архив рубрики ~Коротко из Telegram~ 🔥 API для генерации речи раздают бесплатно — Fish Audio… Архив рубрики ~Коротко из Telegram~ ✨ В 2015 году OpenAI была всего лишь небольшим проектом,… Новости робототехники Контекст имеет решающее значение: как Avride использует облачные VLM в качестве систем безопасности для роботов-доставщиков. Архив рубрики ~Обо всем~ От «Ё» до «КотоПыха»: какие слова используют предприниматели в названиях Новости робототехники Компания-неудачник-робот-полицейский Knightscope теперь публикует причудливый фанфик с искусственным интеллектом о том, как ее роботы раскрывают абсурдные преступления Архив рубрики ~Полезное~ Собрали ультимативный архив бесплатных GitHub-проектов — сразу 100 репозиториев под… Архив рубрики ~Полезное~ Китайцы представили GLM 5.2 — новую ИИ-модель, которую уже сравнивают… Архив рубрики ~Полезное~ Разбил экран на телефоне — теперь можно не переживать и… Архив рубрики ~Коротко из Telegram~ Metacritic назвал 10 лучших игр первой половины 2026 года —… Архив рубрики ~Коротко из Telegram~ ИИ-браузеры легко могут слить все ваши данные. Исследователи нашли атаку… Архив рубрики ~Полезное~ 🔥 Google раздаёт 1️⃣ МИЛЛИОН токенов для Gemini бесплатно —… Архив рубрики ~Коротко из Telegram~ Opus 4.8 превращают в Fable 5 одним промптом — вайбкодеры… Архив рубрики ~Коротко из Telegram~ Компании начали намеренно заставлять свои инструменты искусственного интеллекта общаться в… Архив рубрики ~Обо всем~ Большой адронный коллайдер остановили на четыре года для модернизации. Ученые планируют поднять светимость в десять раз Архив рубрики ~Коротко из Telegram~ 🔥 API для генерации речи раздают бесплатно — Fish Audio… Архив рубрики ~Коротко из Telegram~ ✨ В 2015 году OpenAI была всего лишь небольшим проектом,…

Оставить комментарий