Image

Почему линейная регрессия всё ещё обыгрывает трансформеры в анализе временных рядов

6bf9e7ba69c810166d77cd64b711b5da

На волне успеха ИИ в языке, изображениях и видео многие надеялись, что трансформеры помогут и прогнозированию временных рядов. Реальность чаще прозаична: простая линейная регрессия нередко бьет громоздкие модели по среднеквадратичной ошибке. Рассматриваемое исследование аккуратно и строго объясняет, почему так происходит, если смотреть на задачу через призму in-context обучения.

В авторской постановке вход — это не просто история наблюдений, а матрица Ханкеля из окон длины p+1, где последняя строка специально «зарезервирована» под будущий ответ. Над этой матрицей работает линейное самовнимание (LSA) — упрощенная версия без softmax, зато с чистой математикой. Прогноз считывают из зарезервированного «слота». Выгода подхода в том, что он отбрасывает лишние детали и позволяет увидеть пределы выразительности прямо в формулах.

Что скрывается под капотом внимания

Авторы показывают: один слой LSA — это линейный функционал от кубических признаков входной последовательности. Звучит богато, но именно эти признаки в стационарных авторегрессиях постепенно «схлопываются» к последним p лагам. То есть при длинном контексте лучшая LSA-предсказательная функция фактически совпадает с обычной p-лаговой линейной регрессией. Внимание не извлекает принципиально новый сигнал — оно лишь переупорядочивает и пересмешивает уже доступную линейную информацию.

Строгий разрыв при конечной истории

Главная интрига — в конечной длине контекста. Теория дает немалоприятный результат: даже оптимально настроенный LSA при любом фиксированном числе наблюдений будет иметь ожидаемую MSE строго выше, чем классический линейный предиктор по p лагам. Этот зазор структурный, а не следствие неудачной тренировки, и убывает не быстрее, чем 1/n. Увеличение глубины (больше слоев LSA) помогает, но насыщается — можно «догнать» линейную регрессию асимптотически, но «обогнать» при конечном n нельзя.

Куда утекает точность при многошаговом раскручивании

В реальном прогнозе важны не только один шаг вперед, но и последовательные шаги. Здесь авторы рассматривают Chain-of-Thought: модель по шагам дописывает свои же предсказания и идет дальше. Для AR(p) это приводит к экспоненциальному «стягиванию» прогноза к среднему значению процесса по мере роста горизонта. Даже идеальный байесовский линейный предсказатель имеет растущую ошибку с горизонтом, но LSA стартует хуже уже на первом шаге и потому проигрывает на всех последующих. Отсюда практическая рекомендация: не переоценивать длинные CoT-цепочки в прогнозировании рядов — ошибки неизбежно накапливаются.

Как это выглядит на данных

Авторы подтверждают теорию синтетическими экспериментами на AR-процессах. При teacher forcing линейная регрессия стабильно лучше LSA; при CoT обе модели со временем «сползают» к среднему, но LSA ломается раньше. Масштабирование длины истории и глубины слоев улучшает LSA, однако разрыв от линейной базы сохраняется и лишь медленно закрывается.

Экспериментальные результаты: предсказания при Teacher-Forcing (TF) и Chain-of-Thought (CoT); накопленная MSE для прогонов TF и CoT; масштабирование по длине истории и числу слоёв. LSA следует AR(p), но не превосходит OLS.
Экспериментальные результаты: предсказания при Teacher-Forcing (TF) и Chain-of-Thought (CoT); накопленная MSE для прогонов TF и CoT; масштабирование по длине истории и числу слоёв. LSA следует AR(p), но не превосходит OLS.

А как насчет softmax-внимания?

В дополнении авторы сравнивают LSA и классическое softmax-внимание в одинаковых условиях. Softmax чуть сильнее эмпирически, что логично: у него выше выразительность. Но принципиальный вывод не меняется — даже в этой версии трансформер не переигрывает линейную базу на AR-процессах.

Сравнение LSA и Softmax Attention: обе модели близки, но уступают OLS; Softmax немного впереди.
Сравнение LSA и Softmax Attention: обе модели близки, но уступают OLS; Softmax немного впереди.

Что всё это значит

  • Всегда держите линейный базовый прогноз под рукой. Если данные близки к AR/ARMA, он задает «планку», которую самовнимание не обязано превышать.

  • Длинный контекст полезен, но чудес не совершает: разрыв закрывается медленно, примерно как 1/n.

  • Глубина слоев без дополнительных блоков не спасает. Временной сигнал в таких рядах преимущественно локален; без сильных нелинейных слоев или профильных архитектур выигрыш ограничен.

  • Осторожнее с многошаговыми CoT-сценариями: ошибки копятся и тянут прогноз к среднему раньше, чем хочется.

  • Если ряды сложнее линейных (режимы, сезонность, экзогенные факторы), стоит смотреть в сторону гибридов: линейные головы плюс нелинейные блоки, стохастические модели состояний, либо частотные и сезонные декомпозиции.

Почему выводы важны

Работа аккуратно отделяет вопросы оптимизации от ограничений представимости. Даже в идеальных условиях, с правильно подобранными весами, LSA на AR(p) не способен систематически обогнать традиционные линейные предикторы. Это объясняет, почему на реальных датасетах трансформеры нередко выигрывают лишь после добавления сильных нелинейных компонент и предметных индуктивных предубеждений, а иногда и вовсе уступают простым методам.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Почему

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Image Not Found
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых