• Главная
  • Архив рубрики ~Лента новостей~
  • RND1 — новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров: https://www.youtube.com/watch?v=M8XdNsecroo
Image

RND1 — новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров: https://www.youtube.com/watch?v=M8XdNsecroo

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это — Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) — то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:

1. Берут сильную GPT-подобную модель.

2. Меняют механизм внимания — теперь модель видит весь контекст сразу.

3. Продолжают обучение по диффузионной задаче.

4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

Что под капотом

Mixture-of-Experts (MoE) — у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение — старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи — модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

Чем RND1 интересна:

— Параллельная генерация — текст создаётся быстрее, без пошаговой задержки.

— Меньше затрат — активных параметров всего 3 млрд, при этом качество как у больших GPT.

— Новая архитектура — открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.

— Полностью открытый код и веса — можно исследовать, изменять, запускать самому.

— Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать — менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

Blog: https://radicalnumerics.ai/blog/rnd1

Code: https://github.com/RadicalNumerics/RND1

Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

Видео: https://www.youtube.com/watch?v=M8XdNsecroo

Источник: www.youtube.com

Источник: ai-news.ru

✅ Найденные теги: RND1, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.
Спутник исследует черную дыру в космосе, испускающий световой луч.
Пикачу использует электрический разряд на фоне неба.
Черный углеродное волокно с текстурой плетения, отражающий свет.
Круглый экран с изображением замка и горы, рядом электронная плата.
Код на экране компьютера, программирование, интерфейс разработчика.
Статистика использования видеокарт NVIDIA RTX, показывающая изменения за октябрь-февраль.
Макросъемка клетки под микроскопом, текстура и форма на голубом фоне.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых