• Главная
  • Архив рубрики ~Лента новостей~
  • RND1 — новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров: https://www.youtube.com/watch?v=M8XdNsecroo
Image

RND1 — новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров: https://www.youtube.com/watch?v=M8XdNsecroo

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это — Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) — то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:

1. Берут сильную GPT-подобную модель.

2. Меняют механизм внимания — теперь модель видит весь контекст сразу.

3. Продолжают обучение по диффузионной задаче.

4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

Что под капотом

Mixture-of-Experts (MoE) — у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение — старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи — модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

Чем RND1 интересна:

— Параллельная генерация — текст создаётся быстрее, без пошаговой задержки.

— Меньше затрат — активных параметров всего 3 млрд, при этом качество как у больших GPT.

— Новая архитектура — открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.

— Полностью открытый код и веса — можно исследовать, изменять, запускать самому.

— Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать — менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

Blog: https://radicalnumerics.ai/blog/rnd1

Code: https://github.com/RadicalNumerics/RND1

Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

Видео: https://www.youtube.com/watch?v=M8XdNsecroo

Источник: www.youtube.com

Источник: ai-news.ru

✅ Найденные теги: RND1, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек играет на скрипке на улице перед кирпичной стеной.
Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".
dummy-img
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.
ideipro logotyp
Руки режут свежий хлеб на деревянной доске.
Женщина с красными волосами смотрит через металлическую сферу на фоне кирпичной стены.
Мужчина заряжает электромобиль на зимней стоянке, снег, дальний план - деревья и горы.
Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Image Not Found
dummy-img

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

Мар 5, 2026
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.

ИИ пишет код быстрее тебя: пора ли паниковать?

ИИ пишет код быстрее тебя: пора ли паниковать? ИИ всё чаще пишет код быстрее человека и это уже не фантастика, а реальность разработчика. Паниковать не нужно, но игнорировать изменения опасно: выигрывает тот, кто научится работать с ИИ…

Мар 5, 2026
ideipro logotyp

Bitget Wallet интегрирует DT One для пополнения мобильной связи в более чем 170 странах

Bitget Wallet, приложение для повседневных финансов, объявил о партнерстве с DT One, которое позволит осуществлять пополнение мобильной связи напрямую внутри кошелька с использованием стейблкоинов, связывая ончейн-балансы с повседневными телеком-сервисами. Благодаря инфраструктуре DT One пользователи Bitget Wallet получают…

Мар 5, 2026
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых