Поворотный момент в анализе данных?
Делиться

Не забудем табличные данные!
Недавние достижения в области искусственного интеллекта — от систем, способных поддерживать связные диалоги, до систем, генерирующих реалистичные видеопоследовательности, — во многом обусловлены искусственными нейронными сетями (ИНС). Эти достижения стали возможны благодаря прорывам в алгоритмах и архитектурным инновациям, разработанным за последние пятнадцать лет, а в последнее время — благодаря появлению крупномасштабных вычислительных инфраструктур, способных обучать такие сети на наборах данных интернет-масштаба.
Главное преимущество этого подхода к машинному обучению, обычно называемого глубоким обучением, заключается в его способности автоматически изучать представления сложных типов данных, таких как изображения или текст, без необходимости использования вручную созданных признаков или моделирования, специфичного для предметной области. Таким образом, глубокое обучение значительно расширило возможности традиционных статистических методов, изначально разработанных для анализа структурированных данных, организованных в таблицы , например, электронные таблицы или реляционные базы данных.

Учитывая, с одной стороны, выдающуюся эффективность глубокого обучения при работе со сложными данными, а с другой — огромную экономическую ценность табличных данных , которые по-прежнему составляют основу информационных ресурсов многих организаций, возникает естественный вопрос: можно ли успешно применять методы глубокого обучения к таким структурированным данным? В конце концов, если модель способна решать самые сложные задачи, почему бы ей не преуспеть и в более простых?
Как ни парадоксально, глубокое обучение долгое время испытывало трудности с табличными данными [8]. Чтобы понять, почему, полезно вспомнить, что его успех зависит от способности выявлять грамматические, семантические или визуальные закономерности в огромных объёмах данных. Проще говоря, значение слова определяется согласованностью лингвистических контекстов, в которых оно встречается; аналогично, визуальный элемент становится узнаваемым благодаря его повторяемости на множестве изображений. В обоих случаях именно внутренняя структура и согласованность данных позволяют моделям глубокого обучения обобщать и переносить знания между различными образцами — текстами или изображениями — имеющими общие базовые закономерности.
Ситуация принципиально иная, когда речь идёт о табличных данных, где каждая строка обычно соответствует наблюдению, включающему несколько переменных. Представьте, например, прогнозирование веса человека на основе его роста, возраста и пола или оценку потребления электроэнергии домохозяйством (в кВт⋅ч) на основе площади пола, качества изоляции и температуры наружного воздуха. Ключевой момент заключается в том, что значение ячейки имеет смысл только в конкретном контексте таблицы, к которой она принадлежит. Одно и то же число может представлять вес человека (в килограммах) в одном наборе данных и площадь пола (в квадратных метрах) квартиры-студии в другом. В таких условиях сложно представить, как предиктивная модель могла бы переносить знания из одной таблицы в другую — семантика полностью зависит от контекста.
Таким образом, табличные структуры крайне неоднородны , и на практике существует бесконечное их разнообразие, позволяющее охватить многообразие явлений реального мира — от финансовых транзакций до галактических структур или неравенства доходов в городских районах.
Такое разнообразие имеет свою цену: для каждого табличного набора данных обычно требуется собственная специализированная прогностическая модель, которую нельзя использовать где-либо еще.
Для обработки таких данных специалисты по анализу данных чаще всего используют класс моделей, основанных на деревьях решений [7]. Их точный механизм нас здесь не интересует; важно то, что они невероятно быстры в выводе, часто выдавая прогнозы менее чем за миллисекунду. К сожалению, как и все классические алгоритмы машинного обучения, их необходимо переобучать с нуля для каждой новой таблицы — процесс, который может занять несколько часов. К другим недостаткам относятся ненадёжная оценка неопределённости, ограниченная интерпретируемость и плохая интеграция с неструктурированными данными — именно для таких данных нейронные сети просто великолепны.
Идея создания универсальных предиктивных моделей , подобных большим языковым моделям (LLM), явно привлекательна: после предварительной подготовки такие модели можно применять непосредственно к любому табличному набору данных без дополнительного обучения или тонкой настройки. В таком виде эта идея может показаться амбициозной, если не сказать совершенно нереалистичной. И всё же именно этого начали добиваться табличные фундаментальные модели (TFM), разработанные несколькими исследовательскими группами в течение последнего года [2–4], — и с удивительным успехом.
В следующих разделах рассматриваются некоторые ключевые инновации, лежащие в основе этих моделей, и сравниваются с существующими методами. Что ещё важнее, они призваны пробудить интерес к разработке, которая может вскоре полностью изменить ландшафт науки о данных.
Чему мы научились у LLM
Проще говоря, большая языковая модель (LLM) — это модель машинного обучения, обученная предсказывать следующее слово в текстовой последовательности. Одна из самых поразительных особенностей этих систем заключается в том, что после обучения на огромных текстовых корпусах они демонстрируют способность выполнять широкий спектр лингвистических и логических задач — даже тех, для которых они не были специально обучены. Особенно ярким примером этой способности является их успешное решение задач, полагаясь исключительно на короткий список пар входных и выходных данных, предоставленных в подсказке. Например, для выполнения задачи перевода часто достаточно предоставить несколько примеров перевода.

Такое поведение известно как контекстное обучение (ICL). В этом случае обучение и прогнозирование происходят «на лету», без каких-либо дополнительных обновлений параметров или тонкой настройки. Этот феномен, изначально неожиданный и почти чудесный по своей природе, играет ключевую роль в успехе генеративного ИИ. Недавно несколько исследовательских групп предложили адаптировать механизм ICL для построения табличных фундаментальных моделей (TFM), призванных играть для табличных данных роль, аналогичную роли LLM для текстов.
Концептуально построение TFM остаётся относительно простым. Первый шаг включает в себя создание очень большой коллекции синтетических табличных наборов данных с разнообразной структурой и размером — как по строкам (наблюдениям), так и по столбцам (признакам или ковариатам). На втором шаге одна модель — собственно базовая — обучается предсказывать один столбец на основе всех остальных в каждой таблице. В этой структуре сама таблица служит предиктивным контекстом, аналогичным примерам-подсказкам, используемым LLM в режиме ICL.
Использование синтетических данных даёт несколько преимуществ. Во-первых, оно позволяет избежать юридических рисков, связанных с нарушением авторских прав или конфиденциальности, которые в настоящее время усложняют обучение LLM. Во-вторых, оно позволяет явно внедрять априорные знания — индуктивное смещение — в обучающий корпус. Особенно эффективная стратегия заключается в создании табличных данных с использованием причинно-следственных моделей . Не вдаваясь в технические детали, эти модели направлены на моделирование базовых механизмов, которые могли бы правдоподобно привести к появлению широкого спектра данных, наблюдаемых в реальном мире, — физических, экономических или иных. В последних ТФМ, таких как TabPFN-v2 и TabICL [3,4], таким образом были созданы десятки миллионов синтетических таблиц, каждая из которых получена из отдельной причинно-следственной модели. Эти модели выбираются случайным образом, но с предпочтением простоты, следуя принципу бритвы Оккама — принципу, согласно которому среди конкурирующих объяснений предпочтение следует отдавать самому простому, согласующемуся с данными.
Все TFM-модели реализованы с использованием нейронных сетей. Хотя их архитектурные детали различаются от реализации к реализации, все они включают в себя один или несколько модулей на базе Transformer. Этот выбор в общих чертах объясняется тем, что Transformer использует механизм, известный как «внимание», который позволяет модели контекстуализировать каждый фрагмент информации. Подобно тому, как «внимание» позволяет интерпретировать слово с учётом окружающего его текста, правильно спроектированный механизм «внимания» может контекстуализировать значение ячейки в таблице. Читателям, заинтересованным в изучении этой темы, которая одновременно технически богата и концептуально увлекательна, рекомендуется обратиться к источникам [2–4].
На рисунках 2 и 3 сравниваются процессы обучения и вывода традиционных моделей с процессами TFM. Классические модели, такие как XGBoost [7], необходимо переобучать с нуля для каждой новой таблицы. Они обучаются предсказывать целевую переменную y = f( x ) на основе входных признаков x , при этом обучение обычно занимает несколько часов, хотя вывод происходит практически мгновенно.
TFM, напротив, требуют более дорогостоящего начального этапа предобучения — порядка нескольких десятков GPU-дней. Эти расходы, как правило, несет поставщик модели, но остаются доступными для многих организаций, в отличие от непомерно высоких масштабов, часто связанных с LLM. После предобучения TFM объединяют обучение и вывод в стиле ICL в один проход: таблица D, на основе которой делаются прогнозы, служит непосредственно контекстом для тестовых входных данных x . Затем TFM предсказывает целевые значения посредством сопоставления y = f( x ; D), где таблица D играет роль, аналогичную списку примеров, представленных в задании LLM.


Подведем итог обсуждения в одном предложении
TFM предназначены для обучения предиктивной модели «на лету» на основе табличных данных, не требуя какого-либо обучения.
Потрясающая производительность
Ключевые фигуры
В таблице ниже представлены ориентировочные данные по нескольким ключевым аспектам: стоимость предварительной подготовки TFM, время адаптации в стиле ICL к новой таблице, задержка вывода и максимально поддерживаемые размеры таблиц для трёх предиктивных моделей. К ним относятся TabPFN-v2 — TFM, разработанный в PriorLabs группой Фрэнка Хуттера; TabICL — TFM, разработанный в INRIA группой Гаэля Варокво[1]; и XGBoost — классический алгоритм, который считается одним из самых эффективных для табличных данных.

Эти цифры следует рассматривать как приблизительные оценки, и они, вероятно, будут быстро меняться по мере совершенствования реализаций. Для более подробного анализа читателям рекомендуется обратиться к оригинальным публикациям [2–4].
Помимо этих количественных аспектов, ТФМ обладают рядом дополнительных преимуществ по сравнению с традиционными подходами. Наиболее значимые из них описаны ниже.
TFM хорошо откалиброваны
Общеизвестным ограничением классических моделей является их плохая калибровка , то есть вероятности, присваиваемые ими своим прогнозам, часто не отражают истинные эмпирические частоты. В отличие от них, модели TFM хорошо калиброваны изначально, по причинам, выходящим за рамки данного обзора, но вытекающим из их неявно байесовской природы [1].

На рисунке 5 сравниваются уровни достоверности, предсказанные с помощью TFM, с уровнями, полученными с помощью классических моделей, таких как логистическая регрессия и деревья решений. Последние, как правило, дают слишком уверенные прогнозы в областях, где данные отсутствуют, и часто демонстрируют линейные артефакты, не имеющие никакого отношения к исходному распределению. Напротив, прогнозы TabPFN, по-видимому, значительно лучше калиброваны.
TFM надежны
Синтетические данные, используемые для предварительной подготовки TFM — миллионы причинно-следственных структур — могут быть тщательно спроектированы, чтобы сделать модели высокоустойчивыми к выбросам , пропущенным значениям или неинформативным признакам . Подвергая модель таким ситуациям во время обучения, она учится распознавать их и обрабатывать соответствующим образом, как показано на рисунке 6.

TFM требуют минимальной настройки гиперпараметров
Ещё одно преимущество TFM заключается в том, что они требуют минимальной настройки гиперпараметров. Более того, они часто превосходят тщательно оптимизированные классические алгоритмы даже при использовании настроек по умолчанию, как показано на рисунке 7.

В заключение стоит отметить, что текущие исследования ТФМ показывают, что они также обещают улучшить объяснимость [3], справедливость прогнозов [5] и причинно-следственные связи [6].
У каждой команды НИОКР есть свой секретный соус!
Растёт консенсус в отношении того, что TFM обещают не просто постепенные улучшения, а фундаментальный сдвиг в инструментах и методах науки о данных. Насколько можно судить, эта область может постепенно перейти от парадигмы, ориентированной на модель, – разработки и оптимизации предиктивных моделей – к подходу, более ориентированному на данные. В этих новых условиях роль специалиста по данным в отрасли будет заключаться не в создании предиктивной модели с нуля, а в формировании репрезентативного набора данных, обуславливающего предобученную TFM.

Также возможно, что появятся новые методы разведочного анализа данных, которые станут возможными благодаря скорости, с которой ТФМ теперь могут создавать прогностические модели на основе новых наборов данных, и благодаря их применимости к данным временных рядов [9].
Эти перспективы не остались незамеченными как стартапами, так и академическими лабораториями, которые теперь конкурируют за разработку всё более мощных TFM. Два ключевых ингредиента в этой гонке — своего рода «секретный ингредиент» каждого подхода — это, с одной стороны, стратегия генерации синтетических данных, а с другой — архитектура нейронной сети, реализующая TFM.
Вот две отправные точки для открытия и изучения этих новых инструментов:
- TabPFN (предыдущие лабораторные исследования)
Локальная библиотека Python: tabpfn предоставляет классы, совместимые со scikit-learn (fit/predict). Доступ открыт по лицензии Apache 2.0 с указанием авторства. - TabICL (Inria Soda)
Локальная библиотека Python: tabicl (предобученная на синтетических табличных наборах данных; поддерживает классификацию и ICL). Открытый доступ по лицензии BSD-3-Clause.
Приятного изучения!
Ссылки
- Мюллер С., Холлманн Н., Аранго С.П., Грабочка Дж. и Хаттер Ф. (2021). Трансформаторы могут делать байесовский вывод . Препринт arXiv arXiv:2112.10510, опубликован для ICLR 2021.
- Холлманн Н., Мюллер С., Эггенспергер К. и Хаттер Ф. (2022). Tabpfn: преобразователь, который решает небольшие задачи табличной классификации за секунду . Препринт arXiv arXiv:2207.01848, опубликован для NeurIPS 2022.
- Холлманн, Н., Мюллер, С., Пурукер, Л., Кришнакумар, А., Кёрфер, М., Ху, С.Б., … и Хуттер, Ф. (2025). Точные прогнозы на основе небольших данных с табличной моделью . Nature, 637(8045), 319–326.
- Цюй Дж., Хольцмюллер Д., Варокво Г. и Морван М.Л. (2025). TabICL: табличная базовая модель для контекстного обучения на больших данных . Препринт arXiv arXiv:2502.05564, опубликован для ICML 2025.
- Робертсон Дж., Холлманн Н., Авад Н. и Хаттер Ф. (2024). FairPFN: Трансформеры могут добиться контрфактической справедливости . Препринт arXiv arXiv:2407.05732, опубликован для ICML 2025.
- Ма, Й., Фрауэн, Д., Явурек, Э. и Фейерригель, С. (2025). Базовые модели для причинно-следственных выводов с использованием сетей, подобранных по априорным данным . Препринт arXiv arXiv:2506.10914.
- Чен, Т. и Гестрин, К. (август 2016 г.). Xgboost: масштабируемая система оптимизации деревьев . В материалах 22-й международной конференции ACM SIGKDD по поиску знаний и анализу данных (стр. 785–794).
- Гринштайн, Л., Ойаллон, Э. и Варокво, Г. (2022). Почему модели на основе деревьев всё ещё превосходят глубокое обучение на типичных табличных данных? Достижения в области нейронных систем обработки информации, 35, 507–520.
- Лян, Ю., Вэнь, Х., Не, Ю., Цзян, Ю., Цзинь, М., Сун, Д., … и Вэнь, Ц. (2024, август). Базовые модели для анализа временных рядов: учебное пособие и обзор . В материалах 30-й конференции ACM SIGKDD по поиску знаний и интеллектуальному анализу данных (стр. 6555–6565).
[1] Гаэль Вароко — один из создателей API Scikit-learn. Он также является соучредителем и научным консультантом стартапа Probabl.
Источник: towardsdatascience.com



























