Ваш трансформер постоянно переобучается? Тогда мы идём к вам

27.06.2026 ideipro.ru

Пожалуйста, будьте осторожны с кухонными приборами!

1. Вступление

Вот смотрите: кинули в мясорубку не только мясо, но и другие ингредиенты. Что получилось? Уже не чистый фарш, а какая-то смесь всего со всем. А если для каждого ингредиента взять свой инструмент — получим чистый продукт. В нейросетях то же самое: общие веса = общая мясорубка. Обучили на кошках, потом на машинах, всё смешалось. Кошки забыты.

Это catastrophic forgetting. 30 лет проблемы. Тысячи статей. Регуляризация, replay, elastic weight consolidation, всё похоже на какие-то костыли. Решение лежит на поверхности.

2. Инсайт: забывание ≠ стирание

Триведи и товарищи в июне 2026 показали: если после забывания заморозить все слои и переобучить только классификатор — точность возвращается с 0% до 76%. Знания на том же месте, где и были. Сломан доступ. Машина на парковке, ключ не подходит. Но машина там.

3. Результат: цифры

Обычный подход: обучили ResNet-18 на первой задаче CIFAR-100 → 58% точности. Добавили вторую задачу → 2% на первой. Забыли всё напрочь.

С изоляцией: обучили на первой → 58%. Добавили вторую → те же 58%. Ничего не потеряно…

Два независимых запуска: только на процессоре 5 проходов и Google Colab T4 20 проходов — один итог.

На 50 задачах подряд: изоляция 79%, общий подход 57%. Отрыв 22 процентных пункта при точности маршрутизации 99%.

Код: github.com/sensus-stoa/paradigm-swarm

4. Что с этим делать — изолировать.

Если забывание — это когда общие веса перезаписывают друг друга, решение простое: убери общие веса.

Если мы постоянно что-то забываем то, мы выносим это на карточки, в телефон, в базу знаний. Делим знание на домены. И каждый домен знает, что мы в нём ищем. Вряд ли мы будем смс искать у себя на столе. В телефоне не будем искать ручные записи ручкой. Сама среда подсказывает куда идти, если она организована правильно, а также жёстко разграничена с другой.

С нейросетями то же самое. Каждая задача получает своего изолированного эксперта. Добавил задачу, добавил эксперта. Старые не трогаешь. Маршрутизация: новый запрос, эксперт сам определяет «моё или нет». Без отдельной маршрутизации. Без LLM.

5. Почему не серебряная пуля. Честно.

Если мы подаём нейросети только кошек разных пород, то глупо думать, что обычный трансформер с этим не справится. Справится и довольно неплохо. Здесь нет разных доменов, только один с разными признаками. Кошки, собаки и лошади — другое дело.

Изоляция не бесплатна. На двух-трёх похожих задачах общие веса выигрывают через перенос знаний. Paradigm Swarm для тех случаев когда задач много и они разные. На MNIST метод не бьёт обычный подход. И это нормально.

6. Почему сейчас

Все вокруг говорят, что взаимодействие малых структур побеждает одну большую махину. Рой агентов эффективнее чем одна генеративная сеть. Но если мы нарежем генеративную сеть на домены и сохраним присутствие этих весов — мы получим нечто большее чем генеративный ИИ. Где-то даже предиктивный ИИ.

В 2026 сразу четыре независимых группы пришли к изоляции. Kermiche из Western Digital, Siddika из Iowa State, Li из Сианьского университета, Trivedi. Мы ведём обсуждение с коллегами. Плюс Ноам Шазир — человек который изобрёл Sparse Mixture of Experts и Attention Is All You Need — ушёл из Google 18 июня. Сдвиг происходит. Идея витает в воздухе.

Есть пример, на базе знаний портала vikent.ru 3609 записей, 274 раздела. Маршрутизация сама определяет к какому разделу относится новый текст. Загружаешь статью про физику, система находит «Научные парадигмы», а не «Религии». Загружаешь про буддизм — не лезет в физику. Точность 90%. Без нейросетей. На простых сочетаниях букв.

7. Код

git clone https://github.com/sensus-stoa/paradigm-swarm cd experiments python3 paradigm_swarm_benchmark.py dd471b8639fb9188a79bb2714037e5b9

Всё легко запускается, Ничего не надо настраивать. Потыкайте, позапускайте бенчмарки. Если интересно статья на Zenodo.

Приглашаю присоединится к дискуссии. Если есть пересечения и есть интерес.

8. Вывод

Поскольку одна и та же мысль уже витает в воздухе, вопрос только один. Кто найдёт в себе смелость отказаться от трансформеров первым?

Ссылки:

Статья: https://doi.org/10.5281/zenodo.20773571
Код: https://github.com/sensus-stoa/paradigm-swarm
Триведи: https://arxiv.org/abs/2606.06032
Портал vikent.ru: https://vikent.ru

Источник: habr.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

1. Вступление

2. Инсайт: забывание ≠ стирание

3. Результат: цифры

4. Что с этим делать — изолировать.

5. Почему не серебряная пуля. Честно.

6. Почему сейчас

7. Код

8. Вывод

Похожие записи

Похожие записи

Приложение Poe AI теперь поддерживает групповые чаты между моделями ИИ

3-нм и 5-нм производственные мощности TSMC будут полностью загружены в следующем году

Как я подружил Yandex DB с векторным поиском: end-to-end решение на JavaScript

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email