Архив рубрики ~Лента новостей~

Ваш трансформер постоянно переобучается? Тогда мы идём к вам

Ваш трансформер постоянно переобучается? Тогда мы идём к вам
Ваш трансформер постоянно переобучается? Тогда мы идём к вам
Пожалуйста, будьте осторожны с кухонными приборами!

1. Вступление

Вот смотрите: кинули в мясорубку не только мясо, но и другие ингредиенты. Что получилось? Уже не чистый фарш, а какая-то смесь всего со всем. А если для каждого ингредиента взять свой инструмент — получим чистый продукт. В нейросетях то же самое: общие веса = общая мясорубка. Обучили на кошках, потом на машинах, всё смешалось. Кошки забыты.

Это catastrophic forgetting. 30 лет проблемы. Тысячи статей. Регуляризация, replay, elastic weight consolidation, всё похоже на какие-то костыли. Решение лежит на поверхности.

2. Инсайт: забывание ≠ стирание

Триведи и товарищи в июне 2026 показали: если после забывания заморозить все слои и переобучить только классификатор — точность возвращается с 0% до 76%. Знания на том же месте, где и были. Сломан доступ. Машина на парковке, ключ не подходит. Но машина там.

3. Результат: цифры

Обычный подход: обучили ResNet-18 на первой задаче CIFAR-100 → 58% точности. Добавили вторую задачу → 2% на первой. Забыли всё напрочь.

С изоляцией: обучили на первой → 58%. Добавили вторую → те же 58%. Ничего не потеряно…

Два независимых запуска: только на процессоре 5 проходов и Google Colab T4 20 проходов — один итог.

На 50 задачах подряд: изоляция 79%, общий подход 57%. Отрыв 22 процентных пункта при точности маршрутизации 99%.

Код: github.com/sensus-stoa/paradigm-swarm

4. Что с этим делать — изолировать.

Если забывание — это когда общие веса перезаписывают друг друга, решение простое: убери общие веса.

Если мы постоянно что-то забываем то, мы выносим это на карточки, в телефон, в базу знаний. Делим знание на домены. И каждый домен знает, что мы в нём ищем. Вряд ли мы будем смс искать у себя на столе. В телефоне не будем искать ручные записи ручкой. Сама среда подсказывает куда идти, если она организована правильно, а также жёстко разграничена с другой.

С нейросетями то же самое. Каждая задача получает своего изолированного эксперта. Добавил задачу, добавил эксперта. Старые не трогаешь. Маршрутизация: новый запрос, эксперт сам определяет «моё или нет». Без отдельной маршрутизации. Без LLM.

5. Почему не серебряная пуля. Честно.

Если мы подаём нейросети только кошек разных пород, то глупо думать, что обычный трансформер с этим не справится. Справится и довольно неплохо. Здесь нет разных доменов, только один с разными признаками. Кошки, собаки и лошади — другое дело.

Изоляция не бесплатна. На двух-трёх похожих задачах общие веса выигрывают через перенос знаний. Paradigm Swarm для тех случаев когда задач много и они разные. На MNIST метод не бьёт обычный подход. И это нормально.

6. Почему сейчас

Все вокруг говорят, что взаимодействие малых структур побеждает одну большую махину. Рой агентов эффективнее чем одна генеративная сеть. Но если мы нарежем генеративную сеть на домены и сохраним присутствие этих весов — мы получим нечто большее чем генеративный ИИ. Где-то даже предиктивный ИИ.

В 2026 сразу четыре независимых группы пришли к изоляции. Kermiche из Western Digital, Siddika из Iowa State, Li из Сианьского университета, Trivedi. Мы ведём обсуждение с коллегами. Плюс Ноам Шазир — человек который изобрёл Sparse Mixture of Experts и Attention Is All You Need — ушёл из Google 18 июня. Сдвиг происходит. Идея витает в воздухе.

Есть пример, на базе знаний портала vikent.ru 3609 записей, 274 раздела. Маршрутизация сама определяет к какому разделу относится новый текст. Загружаешь статью про физику, система находит «Научные парадигмы», а не «Религии». Загружаешь про буддизм — не лезет в физику. Точность 90%. Без нейросетей. На простых сочетаниях букв.

7. Код

git clone https://github.com/sensus-stoa/paradigm-swarm cd experiments python3 paradigm_swarm_benchmark.py dd471b8639fb9188a79bb2714037e5b9

Всё легко запускается, Ничего не надо настраивать. Потыкайте, позапускайте бенчмарки. Если интересно статья на Zenodo.

Приглашаю присоединится к дискуссии. Если есть пересечения и есть интерес.

8. Вывод

Поскольку одна и та же мысль уже витает в воздухе, вопрос только один. Кто найдёт в себе смелость отказаться от трансформеров первым?

Ссылки:

  • Статья: https://doi.org/10.5281/zenodo.20773571

  • Код: https://github.com/sensus-stoa/paradigm-swarm

  • Триведи: https://arxiv.org/abs/2606.06032

  • Портал vikent.ru: https://vikent.ru

Источник: habr.com

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Новости робототехники Сикофантия? Или ускорение динамического пересчета определителя от O(n³) до O(n)? Архив рубрики ~Коротко из Telegram~ Инструменты дня 📇 Bytemine поддерживает ваши продажи и рабочие процессы ИИ с… Архив рубрики ~Коротко из Telegram~ Perplexity запустил версию для юристов и юридических команд Perplexity Enterprise… Архив рубрики ~Полезное~ KipperAI — нейросеть для изменения текста так чтобы он не… Новости робототехники Беспилотники не вывезли «Цифра Роботикс», один из немногих разработчиков автономных… Архив рубрики ~Полезное~ Лучшая находка этой недели и, судя по рейтингу на GitHub,… Архив рубрики ~Коротко из Telegram~ ✅ Hyper3D представила обновление Rodin Gen-2.5 — AI-системы для генерации… Архив рубрики ~Коротко из Telegram~ OpenAI представили убийцу Mythos 5 — новая GPT-5.6 Sol, которая… Архив рубрики ~Коротко из Telegram~ ⚡️ Ваш телефон придется поставить на ГОСУЧЕТ — Путин подписал… Архив рубрики ~Коротко из Telegram~ По данным исследования НИУ ВШЭ, навыками работы с искусственным интеллектом… Архив рубрики ~Коротко из Telegram~ Телемост появился на Станции Дуо Макс — теперь видеозвонки можно… Архив рубрики ~Коротко из Telegram~ Счетная палата обнаружила нарушения при закупках ИТ-оборудования Минфином Счетная палата… Архив рубрики ~Коротко из Telegram~ В Gemini появился генератор курсов: поможет изучить любую тему под… Архив рубрики ~Обо всем~ Метафора квантовой механики глазами хобби-гейм-девелопера. Попытка понять квантовые штуки через алгоритмы поиска пути Новости робототехники Сикофантия? Или ускорение динамического пересчета определителя от O(n³) до O(n)? Архив рубрики ~Коротко из Telegram~ Инструменты дня 📇 Bytemine поддерживает ваши продажи и рабочие процессы ИИ с… Архив рубрики ~Коротко из Telegram~ Perplexity запустил версию для юристов и юридических команд Perplexity Enterprise… Архив рубрики ~Полезное~ KipperAI — нейросеть для изменения текста так чтобы он не… Новости робототехники Беспилотники не вывезли «Цифра Роботикс», один из немногих разработчиков автономных… Архив рубрики ~Полезное~ Лучшая находка этой недели и, судя по рейтингу на GitHub,… Архив рубрики ~Коротко из Telegram~ ✅ Hyper3D представила обновление Rodin Gen-2.5 — AI-системы для генерации… Архив рубрики ~Коротко из Telegram~ OpenAI представили убийцу Mythos 5 — новая GPT-5.6 Sol, которая… Архив рубрики ~Коротко из Telegram~ ⚡️ Ваш телефон придется поставить на ГОСУЧЕТ — Путин подписал… Архив рубрики ~Коротко из Telegram~ По данным исследования НИУ ВШЭ, навыками работы с искусственным интеллектом… Архив рубрики ~Коротко из Telegram~ Телемост появился на Станции Дуо Макс — теперь видеозвонки можно… Архив рубрики ~Коротко из Telegram~ Счетная палата обнаружила нарушения при закупках ИТ-оборудования Минфином Счетная палата… Архив рубрики ~Коротко из Telegram~ В Gemini появился генератор курсов: поможет изучить любую тему под… Архив рубрики ~Обо всем~ Метафора квантовой механики глазами хобби-гейм-девелопера. Попытка понять квантовые штуки через алгоритмы поиска пути

Оставить комментарий