Матрешки с узорами на голове, окруженные светящимися линиями и звездами на темном фоне.

Новая технология позволяет создавать более эффективные и быстрые модели искусственного интеллекта еще на этапе обучения.

Исследователи используют теорию управления, чтобы избавиться от ненужной сложности в моделях ИИ во время обучения, сокращая вычислительные затраты без ущерба для производительности. Четыре матрешки становятся все меньше и ярче, окутанные лучами света. Новая методика, называемая CompreSSM, помогает определить, какие части модели выполняют свою основную функцию, прежде чем хирургическим путем удалять ненужные компоненты на ранних этапах обучения. Изображение: Алекс Шиппс/MIT CSAIL и Макрам Шахин, с использованием ресурсов Pixabay и Pexels.

Обучение большой модели искусственного интеллекта обходится дорого, не только в денежном выражении, но и во времени, энергии и вычислительных ресурсах. Традиционно для получения меньшей по размеру и более быстрой модели либо сначала обучается огромная модель, а затем сокращается, либо обучается небольшая модель с нуля, смиряясь с более низкой производительностью.

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), Института интеллектуальных систем им. Макса Планка, Европейской лаборатории обучения и интеллектуальных систем, ETH и Liquid AI разработали новый метод, который полностью обходит этот компромисс, сжимая модели во время обучения, а не после него.

Метод, называемый CompreSSM, нацелен на семейство архитектур искусственного интеллекта, известных как модели пространства состояний, которые лежат в основе приложений, начиная от обработки естественного языка и заканчивая генерацией звука и робототехникой. Заимствуя математические инструменты из теории управления, исследователи могут определить, какие части модели выполняют свою основную функцию, а какие являются балластом, прежде чем целенаправленно удалять ненужные компоненты на ранних этапах процесса обучения.

«По сути, это метод, позволяющий моделям становиться меньше и быстрее в процессе обучения», — говорит Макрам Шахин, аспирант в области электротехники и информатики, сотрудник CSAIL и ведущий автор статьи. «В процессе обучения они также избавляются от частей, которые не нужны для их развития».

Ключевая идея заключается в том, что относительная важность различных компонентов в этих моделях стабилизируется на удивительно ранних этапах обучения. Используя математическую величину, называемую сингулярными значениями Ханкеля, которая измеряет, насколько каждое внутреннее состояние влияет на общее поведение модели, команда показала, что они могут надежно ранжировать, какие параметры важны, а какие нет, всего после 10 процентов процесса обучения. После того, как эти ранги установлены, менее важные компоненты можно безопасно отбросить, а оставшиеся 90 процентов обучения проходят со скоростью гораздо меньшей модели.

«Самое интересное в этой работе то, что она превращает сжатие из второстепенного процесса в неотъемлемую часть самого обучения», — говорит ведущий автор Даниэла Рус, профессор Массачусетского технологического института и директор CSAIL. «Вместо того чтобы обучать большую модель, а затем выяснять, как сделать ее меньше, CompreSSM позволяет модели самостоятельно находить свою эффективную структуру в процессе обучения. Это принципиально иной подход к созданию систем искусственного интеллекта».

Результаты поразительны. На тестах классификации изображений сжатые модели сохранили почти ту же точность, что и их полноразмерные аналоги, при этом обучаясь в 1,5 раза быстрее. Сжатая модель, уменьшенная примерно до четверти от исходной размерности состояния, достигла точности 85,7% на тесте CIFAR-10, по сравнению с всего 81,8% для модели, обученной с нуля при таком же меньшем размере. На Mamba, одной из наиболее широко используемых архитектур пространства состояний, метод обеспечил примерно 4-кратное ускорение обучения, сжав 128-мерную модель примерно до 12 измерений, сохранив при этом конкурентоспособную производительность.

«Вы получаете производительность более крупной модели, потому что на этапе прогрева вы улавливаете большую часть сложной динамики, а затем сохраняете только наиболее полезные состояния», — говорит Шахин. «Модель по-прежнему способна работать на более высоком уровне, чем при обучении небольшой модели с самого начала».

Отличием CompreSSM от существующих подходов является его теоретическая основа. Традиционные методы обрезки обучают полную модель, а затем удаляют параметры уже после обучения, что означает, что вы по-прежнему несете полную вычислительную стоимость обучения большой модели. Дистилляция знаний, еще один популярный метод, требует обучения большой модели-«учителя» до конца, а затем обучения второй, меньшей модели-«ученика» поверх нее, что, по сути, удваивает трудозатраты на обучение. CompreSSM избегает обеих этих затрат, принимая обоснованные решения о сжатии в процессе обучения.

Команда провела сравнительное тестирование CompreSSM с обоими альтернативными методами. По сравнению с регуляризацией ядерной нормы Ханкеля, недавно предложенным спектральным методом, способствующим созданию компактных моделей в пространстве состояний, CompreSSM оказался более чем в 40 раз быстрее, при этом достигнув более высокой точности. Подход с регуляризацией замедлил обучение примерно в 16 раз, поскольку требовал дорогостоящих вычислений собственных значений на каждом шаге градиента, и даже в этом случае полученные модели показали худшие результаты. При сравнении с дистилляцией знаний на наборе данных CIFAR-10, CompressSM продемонстрировал явное преимущество для сильно сжатых моделей: при меньших размерностях состояний дистиллированные модели показали значительное снижение точности, в то время как модели, сжатые с помощью CompreSSM, сохранили почти полную производительность. А поскольку дистилляция требует прямого прохода через учителя и ученика на каждом шаге обучения, даже ее меньшие модели-ученики обучались медленнее, чем полноразмерная базовая модель.

Исследователи математически доказали, что важность отдельных состояний модели плавно меняется в процессе обучения благодаря применению теоремы Вейля, и эмпирически показали, что относительный рейтинг этих состояний остается стабильным. В совокупности эти результаты дают специалистам уверенность в том, что параметры, которые на ранних этапах были определены как незначительные, не станут внезапно критически важными позже.

Этот метод также предусматривает прагматичную систему безопасности. Если этап сжатия вызывает неожиданное снижение производительности, специалисты могут вернуться к ранее сохраненной контрольной точке. «Это дает людям контроль над тем, сколько они готовы заплатить в плане производительности, вместо того, чтобы определять менее интуитивно понятный энергетический порог», — объясняет Шахин.

У этого метода есть некоторые практические ограничения. CompreSSM лучше всего работает на моделях, демонстрирующих сильную корреляцию между размерностью внутреннего состояния и общей производительностью, свойство, которое варьируется в зависимости от задачи и архитектуры. Метод особенно эффективен для моделей с несколькими входами и несколькими выходами (MIMO), где связь между размером состояния и выразительностью наиболее сильна. Для архитектур с одним входом и одним выходом на канал выигрыш более скромный, поскольку такие модели изначально менее чувствительны к изменениям размерности состояния.

Теория наиболее точно применима к линейным стационарным системам, хотя команда разработала расширения для все более популярных архитектур, зависящих от входных данных и изменяющихся во времени. А поскольку семейство моделей пространства состояний распространяется на такие архитектуры, как линейное внимание, что является растущей областью интереса как альтернатива традиционным трансформерам, потенциальная область применения широка.

Шахин и его коллеги рассматривают эту работу как шаг вперед. Команда уже продемонстрировала расширение до линейных систем с изменяющимися во времени параметрами, таких как Mamba, а будущие направления включают дальнейшее развитие CompreSSM в области матрично-значных динамических систем, используемых в линейных механизмах внимания, что приблизит эту технику к архитектурам трансформеров, лежащим в основе большинства крупнейших современных систем искусственного интеллекта.

«Это должен был быть первый шаг, потому что именно здесь теория становится четкой, а подход остается принципиальным», — говорит Шахин. «Это ступенька для дальнейшего распространения на другие архитектуры, которые сегодня используются в промышленности».

«Работа Шахина и его коллег предлагает интригующий, теоретически обоснованный взгляд на сжатие для современных моделей пространства состояний (SSM)», — говорит Антонио Орвието, главный исследователь Института ELLIS в Тюбингене и руководитель независимой группы MPI по интеллектуальным системам, который не принимал участия в исследовании. «Предложенный метод демонстрирует, что размерность состояний этих моделей может быть эффективно уменьшена во время обучения и что теоретико-управляющий подход может успешно направлять эту процедуру. Работа открывает новые пути для будущих исследований, и предложенный алгоритм имеет потенциал стать стандартным подходом при предварительном обучении больших моделей на основе SSM».

Работа, принятая в качестве доклада на Международной конференции по представлениям в обучении 2026 года, будет представлена в конце этого месяца. Она была частично поддержана Центром систем обучения им. Макса Планка при ЕТИ, фондом Гектора, компанией Boeing и Управлением военно-морских исследований США.

Источник: news.mit.edu

✅ Найденные теги: искусственный интеллект, Модели, Новая, новости, Обучение, Технология

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Диаграмма размаха: сравнение данных по различным категориям. Визуализация результатов исследования.
Что могут означать утечки файлов SteamGPT для использования искусственного интеллекта на игровой платформе для ПК?
Крупнейший кластер орбитальных вычислений начал работу.
ideipro logotyp
Прогнозирование будущего лесов с помощью ИИ: от подсчета потерь до прогнозирования рисков.
График сравнения иксекизумаба и тирзепатида: результаты лечения и изменения веса.
Лекарь обсуждает влияние инсулина на старение. Совет специалиста с 40-летним опытом.
Видеокарта Sapphire Nitro+ AMD Radeon RX 9070 XT, вид на упаковку и кулеры.
Дворец в Ватикане с колоннами и статуями на фасаде на фоне синего неба.
Image Not Found
Диаграмма размаха: сравнение данных по различным категориям. Визуализация результатов исследования.

Количественный биомаркер ДОФА-декарбоксилазы для диагностики заболеваний с тельцами Леви

Абстрактный Точная диагностика деменции с тельцами Леви (ДТЛ) остается сложной задачей, поскольку ошибочная диагностика может привести к принятию вредных решений о лечении. ДОФА-декарбоксилаза (ДДК) демонстрирует перспективность в качестве биомаркера ДТЛ и болезни Паркинсона (БП) в спинномозговой жидкости…

Апр 13, 2026
Что могут означать утечки файлов SteamGPT для использования искусственного интеллекта на игровой платформе для ПК?

Что могут означать утечки файлов SteamGPT для использования искусственного интеллекта на игровой платформе для ПК?

Инструменты искусственного интеллекта могут помочь модераторам разобраться в огромном количестве подозрительных инцидентов. Поверните ручку для увеличения количества ИИ. Автор: Valve. Поверните ручку для увеличения количества ИИ. Автор: Valve. Настройки текста. Текст рассказа Размер Маленький Стандартный Большой Ширина…

Апр 13, 2026
Крупнейший кластер орбитальных вычислений начал работу.

Крупнейший кластер орбитальных вычислений начал работу.

Источник изображения: Kepler Communications / Kepler Communications Несмотря на весь ажиотаж вокруг космических центров обработки данных, на орбите просто не так много графических процессоров. По мере того, как ситуация начинает меняться, в ближайшем будущем начинает формироваться бизнес…

Апр 13, 2026
ideipro logotyp

Прогнозирование стеатотической болезни печени, связанной с метаболической дисфункцией, с использованием методов машинного обучения: ретроспективное когортное исследование.

arXiv:2510.22293v4 Тип объявления: замена-кросс Аннотация: Введение: Метаболическая дисфункция, ассоциированная со стеатозом печени (MASLD), поражает 30-40% взрослого населения США и является наиболее распространенным хроническим заболеванием печени. Хотя часто протекает бессимптомно, прогрессирование может привести к циррозу. Целью исследования было…

Апр 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых