Матрешки с узорами на голове, окруженные светящимися линиями и звездами на темном фоне.

Новая технология позволяет создавать более эффективные и быстрые модели искусственного интеллекта еще на этапе обучения.

Исследователи используют теорию управления, чтобы избавиться от ненужной сложности в моделях ИИ во время обучения, сокращая вычислительные затраты без ущерба для производительности. Четыре матрешки становятся все меньше и ярче, окутанные лучами света. Новая методика, называемая CompreSSM, помогает определить, какие части модели выполняют свою основную функцию, прежде чем хирургическим путем удалять ненужные компоненты на ранних этапах обучения. Изображение: Алекс Шиппс/MIT CSAIL и Макрам Шахин, с использованием ресурсов Pixabay и Pexels.

Обучение большой модели искусственного интеллекта обходится дорого, не только в денежном выражении, но и во времени, энергии и вычислительных ресурсах. Традиционно для получения меньшей по размеру и более быстрой модели либо сначала обучается огромная модель, а затем сокращается, либо обучается небольшая модель с нуля, смиряясь с более низкой производительностью.

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), Института интеллектуальных систем им. Макса Планка, Европейской лаборатории обучения и интеллектуальных систем, ETH и Liquid AI разработали новый метод, который полностью обходит этот компромисс, сжимая модели во время обучения, а не после него.

Метод, называемый CompreSSM, нацелен на семейство архитектур искусственного интеллекта, известных как модели пространства состояний, которые лежат в основе приложений, начиная от обработки естественного языка и заканчивая генерацией звука и робототехникой. Заимствуя математические инструменты из теории управления, исследователи могут определить, какие части модели выполняют свою основную функцию, а какие являются балластом, прежде чем целенаправленно удалять ненужные компоненты на ранних этапах процесса обучения.

«По сути, это метод, позволяющий моделям становиться меньше и быстрее в процессе обучения», — говорит Макрам Шахин, аспирант в области электротехники и информатики, сотрудник CSAIL и ведущий автор статьи. «В процессе обучения они также избавляются от частей, которые не нужны для их развития».

Ключевая идея заключается в том, что относительная важность различных компонентов в этих моделях стабилизируется на удивительно ранних этапах обучения. Используя математическую величину, называемую сингулярными значениями Ханкеля, которая измеряет, насколько каждое внутреннее состояние влияет на общее поведение модели, команда показала, что они могут надежно ранжировать, какие параметры важны, а какие нет, всего после 10 процентов процесса обучения. После того, как эти ранги установлены, менее важные компоненты можно безопасно отбросить, а оставшиеся 90 процентов обучения проходят со скоростью гораздо меньшей модели.

«Самое интересное в этой работе то, что она превращает сжатие из второстепенного процесса в неотъемлемую часть самого обучения», — говорит ведущий автор Даниэла Рус, профессор Массачусетского технологического института и директор CSAIL. «Вместо того чтобы обучать большую модель, а затем выяснять, как сделать ее меньше, CompreSSM позволяет модели самостоятельно находить свою эффективную структуру в процессе обучения. Это принципиально иной подход к созданию систем искусственного интеллекта».

Результаты поразительны. На тестах классификации изображений сжатые модели сохранили почти ту же точность, что и их полноразмерные аналоги, при этом обучаясь в 1,5 раза быстрее. Сжатая модель, уменьшенная примерно до четверти от исходной размерности состояния, достигла точности 85,7% на тесте CIFAR-10, по сравнению с всего 81,8% для модели, обученной с нуля при таком же меньшем размере. На Mamba, одной из наиболее широко используемых архитектур пространства состояний, метод обеспечил примерно 4-кратное ускорение обучения, сжав 128-мерную модель примерно до 12 измерений, сохранив при этом конкурентоспособную производительность.

«Вы получаете производительность более крупной модели, потому что на этапе прогрева вы улавливаете большую часть сложной динамики, а затем сохраняете только наиболее полезные состояния», — говорит Шахин. «Модель по-прежнему способна работать на более высоком уровне, чем при обучении небольшой модели с самого начала».

Отличием CompreSSM от существующих подходов является его теоретическая основа. Традиционные методы обрезки обучают полную модель, а затем удаляют параметры уже после обучения, что означает, что вы по-прежнему несете полную вычислительную стоимость обучения большой модели. Дистилляция знаний, еще один популярный метод, требует обучения большой модели-«учителя» до конца, а затем обучения второй, меньшей модели-«ученика» поверх нее, что, по сути, удваивает трудозатраты на обучение. CompreSSM избегает обеих этих затрат, принимая обоснованные решения о сжатии в процессе обучения.

Команда провела сравнительное тестирование CompreSSM с обоими альтернативными методами. По сравнению с регуляризацией ядерной нормы Ханкеля, недавно предложенным спектральным методом, способствующим созданию компактных моделей в пространстве состояний, CompreSSM оказался более чем в 40 раз быстрее, при этом достигнув более высокой точности. Подход с регуляризацией замедлил обучение примерно в 16 раз, поскольку требовал дорогостоящих вычислений собственных значений на каждом шаге градиента, и даже в этом случае полученные модели показали худшие результаты. При сравнении с дистилляцией знаний на наборе данных CIFAR-10, CompressSM продемонстрировал явное преимущество для сильно сжатых моделей: при меньших размерностях состояний дистиллированные модели показали значительное снижение точности, в то время как модели, сжатые с помощью CompreSSM, сохранили почти полную производительность. А поскольку дистилляция требует прямого прохода через учителя и ученика на каждом шаге обучения, даже ее меньшие модели-ученики обучались медленнее, чем полноразмерная базовая модель.

Исследователи математически доказали, что важность отдельных состояний модели плавно меняется в процессе обучения благодаря применению теоремы Вейля, и эмпирически показали, что относительный рейтинг этих состояний остается стабильным. В совокупности эти результаты дают специалистам уверенность в том, что параметры, которые на ранних этапах были определены как незначительные, не станут внезапно критически важными позже.

Этот метод также предусматривает прагматичную систему безопасности. Если этап сжатия вызывает неожиданное снижение производительности, специалисты могут вернуться к ранее сохраненной контрольной точке. «Это дает людям контроль над тем, сколько они готовы заплатить в плане производительности, вместо того, чтобы определять менее интуитивно понятный энергетический порог», — объясняет Шахин.

У этого метода есть некоторые практические ограничения. CompreSSM лучше всего работает на моделях, демонстрирующих сильную корреляцию между размерностью внутреннего состояния и общей производительностью, свойство, которое варьируется в зависимости от задачи и архитектуры. Метод особенно эффективен для моделей с несколькими входами и несколькими выходами (MIMO), где связь между размером состояния и выразительностью наиболее сильна. Для архитектур с одним входом и одним выходом на канал выигрыш более скромный, поскольку такие модели изначально менее чувствительны к изменениям размерности состояния.

Теория наиболее точно применима к линейным стационарным системам, хотя команда разработала расширения для все более популярных архитектур, зависящих от входных данных и изменяющихся во времени. А поскольку семейство моделей пространства состояний распространяется на такие архитектуры, как линейное внимание, что является растущей областью интереса как альтернатива традиционным трансформерам, потенциальная область применения широка.

Шахин и его коллеги рассматривают эту работу как шаг вперед. Команда уже продемонстрировала расширение до линейных систем с изменяющимися во времени параметрами, таких как Mamba, а будущие направления включают дальнейшее развитие CompreSSM в области матрично-значных динамических систем, используемых в линейных механизмах внимания, что приблизит эту технику к архитектурам трансформеров, лежащим в основе большинства крупнейших современных систем искусственного интеллекта.

«Это должен был быть первый шаг, потому что именно здесь теория становится четкой, а подход остается принципиальным», — говорит Шахин. «Это ступенька для дальнейшего распространения на другие архитектуры, которые сегодня используются в промышленности».

«Работа Шахина и его коллег предлагает интригующий, теоретически обоснованный взгляд на сжатие для современных моделей пространства состояний (SSM)», — говорит Антонио Орвието, главный исследователь Института ELLIS в Тюбингене и руководитель независимой группы MPI по интеллектуальным системам, который не принимал участия в исследовании. «Предложенный метод демонстрирует, что размерность состояний этих моделей может быть эффективно уменьшена во время обучения и что теоретико-управляющий подход может успешно направлять эту процедуру. Работа открывает новые пути для будущих исследований, и предложенный алгоритм имеет потенциал стать стандартным подходом при предварительном обучении больших моделей на основе SSM».

Работа, принятая в качестве доклада на Международной конференции по представлениям в обучении 2026 года, будет представлена в конце этого месяца. Она была частично поддержана Центром систем обучения им. Макса Планка при ЕТИ, фондом Гектора, компанией Boeing и Управлением военно-морских исследований США.

Источник: news.mit.edu

✅ Найденные теги: искусственный интеллект, Модели, Новая, новости, Обучение, Технология

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Сегментация автомобиля на изображении с цветной маркировкой для компьютерного зрения.
Три древних бронзовых наконечника, украшенных головами животных.
Электропикап Rivian R1T едет по дороге под мостом на фоне вечернего неба.
ideipro logotyp
Ярко-зелёный цикад сидит на листе, крупный план макросъёмки.
Белый вентилятор с желтыми символами на голубом фоне с облаками.
Человек рисует на электронном планшете стилусом. Эскизы статуй на экране.
5 лучших книг по созданию агентных систем искусственного интеллекта в 2026 году
Грузовик с надписью "Antimatter in motion" на заводской территории, антиматерия в движении.
Image Not Found
Сегментация автомобиля на изображении с цветной маркировкой для компьютерного зрения.

Как ИИ учится видеть в 3D и понимать пространство?

Как оценка глубины, сегментация основания и геометрическое слияние сходятся в пространственную аналитику. Делиться Искусственный интеллект способен классифицировать фотографию кухни за миллисекунды. Он может сегментировать каждый объект на уличной сцене, генерировать фотореалистичные изображения несуществующих комнат и писать убедительные…

Апр 13, 2026
Три древних бронзовых наконечника, украшенных головами животных.

В Великом Новгороде обнаружили «матушкину плётку» XII века

Матушкина плетка © Новгородский музей-заповедник На ежегодной конференции Новгородского музея-заповедника археологи представили находки Троицкого XVII раскопа. Среди них — уникальный предмет XII века — навершие плётки из моржового клыка с надписью «Ненькин батог» («матушкина плётка»). О находке…

Апр 13, 2026
Электропикап Rivian R1T едет по дороге под мостом на фоне вечернего неба.

Slate Auto: Все, что вам нужно знать о стартапе по производству электромобилей, поддерживаемом Безосом.

Источник изображения: Slate Auto В апреле 2025 года из секретной зоны вышла новая компания под названием Slate Auto, которая потрясла автомобильную индустрию. Этот стартап не только занимался производством сверхдешевого, настраиваемого электрического пикапа при финансовой поддержке Джеффа Безоса,…

Апр 13, 2026
Белый вентилятор с желтыми символами на голубом фоне с облаками.

Гаджет, который показывает «цену» каждого запроса к ИИ

Каждый раз, когда отправляется запрос в нейросети, то запускаются серверы, расходуется электроэнергия и формируется углеродный след, хотя сам процесс остаётся полностью незаметным. Мы привыкли воспринимать цифровые технологии как нечто «чистое», не задумываясь о реальной цене их работы…

Апр 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых