Image

Как развитие табличных моделей фундамента меняет науку о данных

Поворотный момент в анализе данных?

Делиться

3623ad9fd33e2ed40ec86f4e919b8ddd

Не забудем табличные данные!

Недавние достижения в области искусственного интеллекта — от систем, способных поддерживать связные диалоги, до систем, генерирующих реалистичные видеопоследовательности, — во многом обусловлены искусственными нейронными сетями (ИНС). Эти достижения стали возможны благодаря прорывам в алгоритмах и архитектурным инновациям, разработанным за последние пятнадцать лет, а в последнее время — благодаря появлению крупномасштабных вычислительных инфраструктур, способных обучать такие сети на наборах данных интернет-масштаба.

Главное преимущество этого подхода к машинному обучению, обычно называемого глубоким обучением, заключается в его способности автоматически изучать представления сложных типов данных, таких как изображения или текст, без необходимости использования вручную созданных признаков или моделирования, специфичного для предметной области. Таким образом, глубокое обучение значительно расширило возможности традиционных статистических методов, изначально разработанных для анализа структурированных данных, организованных в таблицы , например, электронные таблицы или реляционные базы данных.

6dfce0d85c964c6cad25b0f5b46f55af

Учитывая, с одной стороны, выдающуюся эффективность глубокого обучения при работе со сложными данными, а с другой — огромную экономическую ценность табличных данных , которые по-прежнему составляют основу информационных ресурсов многих организаций, возникает естественный вопрос: можно ли успешно применять методы глубокого обучения к таким структурированным данным? В конце концов, если модель способна решать самые сложные задачи, почему бы ей не преуспеть и в более простых?

Как ни парадоксально, глубокое обучение долгое время испытывало трудности с табличными данными [8]. Чтобы понять, почему, полезно вспомнить, что его успех зависит от способности выявлять грамматические, семантические или визуальные закономерности в огромных объёмах данных. Проще говоря, значение слова определяется согласованностью лингвистических контекстов, в которых оно встречается; аналогично, визуальный элемент становится узнаваемым благодаря его повторяемости на множестве изображений. В обоих случаях именно внутренняя структура и согласованность данных позволяют моделям глубокого обучения обобщать и переносить знания между различными образцами — текстами или изображениями — имеющими общие базовые закономерности.

Ситуация принципиально иная, когда речь идёт о табличных данных, где каждая строка обычно соответствует наблюдению, включающему несколько переменных. Представьте, например, прогнозирование веса человека на основе его роста, возраста и пола или оценку потребления электроэнергии домохозяйством (в кВт⋅ч) на основе площади пола, качества изоляции и температуры наружного воздуха. Ключевой момент заключается в том, что значение ячейки имеет смысл только в конкретном контексте таблицы, к которой она принадлежит. Одно и то же число может представлять вес человека (в килограммах) в одном наборе данных и площадь пола (в квадратных метрах) квартиры-студии в другом. В таких условиях сложно представить, как предиктивная модель могла бы переносить знания из одной таблицы в другую — семантика полностью зависит от контекста.

Таким образом, табличные структуры крайне неоднородны , и на практике существует бесконечное их разнообразие, позволяющее охватить многообразие явлений реального мира — от финансовых транзакций до галактических структур или неравенства доходов в городских районах.

Такое разнообразие имеет свою цену: для каждого табличного набора данных обычно требуется собственная специализированная прогностическая модель, которую нельзя использовать где-либо еще.

Для обработки таких данных специалисты по анализу данных чаще всего используют класс моделей, основанных на деревьях решений [7]. Их точный механизм нас здесь не интересует; важно то, что они невероятно быстры в выводе, часто выдавая прогнозы менее чем за миллисекунду. К сожалению, как и все классические алгоритмы машинного обучения, их необходимо переобучать с нуля для каждой новой таблицы — процесс, который может занять несколько часов. К другим недостаткам относятся ненадёжная оценка неопределённости, ограниченная интерпретируемость и плохая интеграция с неструктурированными данными — именно для таких данных нейронные сети просто великолепны.

Идея создания универсальных предиктивных моделей , подобных большим языковым моделям (LLM), явно привлекательна: после предварительной подготовки такие модели можно применять непосредственно к любому табличному набору данных без дополнительного обучения или тонкой настройки. В таком виде эта идея может показаться амбициозной, если не сказать совершенно нереалистичной. И всё же именно этого начали добиваться табличные фундаментальные модели (TFM), разработанные несколькими исследовательскими группами в течение последнего года [2–4], — и с удивительным успехом.

В следующих разделах рассматриваются некоторые ключевые инновации, лежащие в основе этих моделей, и сравниваются с существующими методами. Что ещё важнее, они призваны пробудить интерес к разработке, которая может вскоре полностью изменить ландшафт науки о данных.

Чему мы научились у LLM

Проще говоря, большая языковая модель (LLM) — это модель машинного обучения, обученная предсказывать следующее слово в текстовой последовательности. Одна из самых поразительных особенностей этих систем заключается в том, что после обучения на огромных текстовых корпусах они демонстрируют способность выполнять широкий спектр лингвистических и логических задач — даже тех, для которых они не были специально обучены. Особенно ярким примером этой способности является их успешное решение задач, полагаясь исключительно на короткий список пар входных и выходных данных, предоставленных в подсказке. Например, для выполнения задачи перевода часто достаточно предоставить несколько примеров перевода.

8f741b973f86e7cc94b737408c0f68f3

Такое поведение известно как контекстное обучение (ICL). В этом случае обучение и прогнозирование происходят «на лету», без каких-либо дополнительных обновлений параметров или тонкой настройки. Этот феномен, изначально неожиданный и почти чудесный по своей природе, играет ключевую роль в успехе генеративного ИИ. Недавно несколько исследовательских групп предложили адаптировать механизм ICL для построения табличных фундаментальных моделей (TFM), призванных играть для табличных данных роль, аналогичную роли LLM для текстов.

Концептуально построение TFM остаётся относительно простым. Первый шаг включает в себя создание очень большой коллекции синтетических табличных наборов данных с разнообразной структурой и размером — как по строкам (наблюдениям), так и по столбцам (признакам или ковариатам). На втором шаге одна модель — собственно базовая — обучается предсказывать один столбец на основе всех остальных в каждой таблице. В этой структуре сама таблица служит предиктивным контекстом, аналогичным примерам-подсказкам, используемым LLM в режиме ICL.

Использование синтетических данных даёт несколько преимуществ. Во-первых, оно позволяет избежать юридических рисков, связанных с нарушением авторских прав или конфиденциальности, которые в настоящее время усложняют обучение LLM. Во-вторых, оно позволяет явно внедрять априорные знания — индуктивное смещение — в обучающий корпус. Особенно эффективная стратегия заключается в создании табличных данных с использованием причинно-следственных моделей . Не вдаваясь в технические детали, эти модели направлены на моделирование базовых механизмов, которые могли бы правдоподобно привести к появлению широкого спектра данных, наблюдаемых в реальном мире, — физических, экономических или иных. В последних ТФМ, таких как TabPFN-v2 и TabICL [3,4], таким образом были созданы десятки миллионов синтетических таблиц, каждая из которых получена из отдельной причинно-следственной модели. Эти модели выбираются случайным образом, но с предпочтением простоты, следуя принципу бритвы Оккама — принципу, согласно которому среди конкурирующих объяснений предпочтение следует отдавать самому простому, согласующемуся с данными.

Все TFM-модели реализованы с использованием нейронных сетей. Хотя их архитектурные детали различаются от реализации к реализации, все они включают в себя один или несколько модулей на базе Transformer. Этот выбор в общих чертах объясняется тем, что Transformer использует механизм, известный как «внимание», который позволяет модели контекстуализировать каждый фрагмент информации. Подобно тому, как «внимание» позволяет интерпретировать слово с учётом окружающего его текста, правильно спроектированный механизм «внимания» может контекстуализировать значение ячейки в таблице. Читателям, заинтересованным в изучении этой темы, которая одновременно технически богата и концептуально увлекательна, рекомендуется обратиться к источникам [2–4].

На рисунках 2 и 3 сравниваются процессы обучения и вывода традиционных моделей с процессами TFM. Классические модели, такие как XGBoost [7], необходимо переобучать с нуля для каждой новой таблицы. Они обучаются предсказывать целевую переменную y = f( x ) на основе входных признаков x , при этом обучение обычно занимает несколько часов, хотя вывод происходит практически мгновенно.

TFM, напротив, требуют более дорогостоящего начального этапа предобучения — порядка нескольких десятков GPU-дней. Эти расходы, как правило, несет поставщик модели, но остаются доступными для многих организаций, в отличие от непомерно высоких масштабов, часто связанных с LLM. После предобучения TFM объединяют обучение и вывод в стиле ICL в один проход: таблица D, на основе которой делаются прогнозы, служит непосредственно контекстом для тестовых входных данных x . Затем TFM предсказывает целевые значения посредством сопоставления y = f( x ; D), где таблица D играет роль, аналогичную списку примеров, представленных в задании LLM.

1b9876c6c2c07b57c84d790c13663aef
68f6b5ac35a45301af12d57d3bf44496

Подведем итог обсуждения в одном предложении

TFM предназначены для обучения предиктивной модели «на лету» на основе табличных данных, не требуя какого-либо обучения.

Потрясающая производительность

Ключевые фигуры

В таблице ниже представлены ориентировочные данные по нескольким ключевым аспектам: стоимость предварительной подготовки TFM, время адаптации в стиле ICL к новой таблице, задержка вывода и максимально поддерживаемые размеры таблиц для трёх предиктивных моделей. К ним относятся TabPFN-v2 — TFM, разработанный в PriorLabs группой Фрэнка Хуттера; TabICL — TFM, разработанный в INRIA группой Гаэля Варокво[1]; и XGBoost — классический алгоритм, который считается одним из самых эффективных для табличных данных.

9bbd9f93841df118d19385ec50a3df0f

Эти цифры следует рассматривать как приблизительные оценки, и они, вероятно, будут быстро меняться по мере совершенствования реализаций. Для более подробного анализа читателям рекомендуется обратиться к оригинальным публикациям [2–4].

Помимо этих количественных аспектов, ТФМ обладают рядом дополнительных преимуществ по сравнению с традиционными подходами. Наиболее значимые из них описаны ниже.

TFM хорошо откалиброваны

Общеизвестным ограничением классических моделей является их плохая калибровка , то есть вероятности, присваиваемые ими своим прогнозам, часто не отражают истинные эмпирические частоты. В отличие от них, модели TFM хорошо калиброваны изначально, по причинам, выходящим за рамки данного обзора, но вытекающим из их неявно байесовской природы [1].

7483643c25c7b72f1fd93a52d2e97c6e

На рисунке 5 сравниваются уровни достоверности, предсказанные с помощью TFM, с уровнями, полученными с помощью классических моделей, таких как логистическая регрессия и деревья решений. Последние, как правило, дают слишком уверенные прогнозы в областях, где данные отсутствуют, и часто демонстрируют линейные артефакты, не имеющие никакого отношения к исходному распределению. Напротив, прогнозы TabPFN, по-видимому, значительно лучше калиброваны.

TFM надежны

Синтетические данные, используемые для предварительной подготовки TFM — миллионы причинно-следственных структур — могут быть тщательно спроектированы, чтобы сделать модели высокоустойчивыми к выбросам , пропущенным значениям или неинформативным признакам . Подвергая модель таким ситуациям во время обучения, она учится распознавать их и обрабатывать соответствующим образом, как показано на рисунке 6.

827a59b9ae41c7370121180f57d3217f

TFM требуют минимальной настройки гиперпараметров

Ещё одно преимущество TFM заключается в том, что они требуют минимальной настройки гиперпараметров. Более того, они часто превосходят тщательно оптимизированные классические алгоритмы даже при использовании настроек по умолчанию, как показано на рисунке 7.

898677a85d8bc666bdbc47599c4e787b

В заключение стоит отметить, что текущие исследования ТФМ показывают, что они также обещают улучшить объяснимость [3], справедливость прогнозов [5] и причинно-следственные связи [6].

У каждой команды НИОКР есть свой секретный соус!

Растёт консенсус в отношении того, что TFM обещают не просто постепенные улучшения, а фундаментальный сдвиг в инструментах и методах науки о данных. Насколько можно судить, эта область может постепенно перейти от парадигмы, ориентированной на модель, – разработки и оптимизации предиктивных моделей – к подходу, более ориентированному на данные. В этих новых условиях роль специалиста по данным в отрасли будет заключаться не в создании предиктивной модели с нуля, а в формировании репрезентативного набора данных, обуславливающего предобученную TFM.

c691b5abd8847927d0acf646d9f62bd9

Также возможно, что появятся новые методы разведочного анализа данных, которые станут возможными благодаря скорости, с которой ТФМ теперь могут создавать прогностические модели на основе новых наборов данных, и благодаря их применимости к данным временных рядов [9].

Эти перспективы не остались незамеченными как стартапами, так и академическими лабораториями, которые теперь конкурируют за разработку всё более мощных TFM. Два ключевых ингредиента в этой гонке — своего рода «секретный ингредиент» каждого подхода — это, с одной стороны, стратегия генерации синтетических данных, а с другой — архитектура нейронной сети, реализующая TFM.

Вот две отправные точки для открытия и изучения этих новых инструментов:

  1. TabPFN (предыдущие лабораторные исследования)
    Локальная библиотека Python: tabpfn предоставляет классы, совместимые со scikit-learn (fit/predict). Доступ открыт по лицензии Apache 2.0 с указанием авторства.
  2. TabICL (Inria Soda)
    Локальная библиотека Python: tabicl (предобученная на синтетических табличных наборах данных; поддерживает классификацию и ICL). Открытый доступ по лицензии BSD-3-Clause.

Приятного изучения!

Ссылки

  1. Мюллер С., Холлманн Н., Аранго С.П., Грабочка Дж. и Хаттер Ф. (2021). Трансформаторы могут делать байесовский вывод . Препринт arXiv arXiv:2112.10510, опубликован для ICLR 2021.
  2. Холлманн Н., Мюллер С., Эггенспергер К. и Хаттер Ф. (2022). Tabpfn: преобразователь, который решает небольшие задачи табличной классификации за секунду . Препринт arXiv arXiv:2207.01848, опубликован для NeurIPS 2022.
  3. Холлманн, Н., Мюллер, С., Пурукер, Л., Кришнакумар, А., Кёрфер, М., Ху, С.Б., … и Хуттер, Ф. (2025). Точные прогнозы на основе небольших данных с табличной моделью . Nature, 637(8045), 319–326.
  4. Цюй Дж., Хольцмюллер Д., Варокво Г. и Морван М.Л. (2025). TabICL: табличная базовая модель для контекстного обучения на больших данных . Препринт arXiv arXiv:2502.05564, опубликован для ICML 2025.
  5. Робертсон Дж., Холлманн Н., Авад Н. и Хаттер Ф. (2024). FairPFN: Трансформеры могут добиться контрфактической справедливости . Препринт arXiv arXiv:2407.05732, опубликован для ICML 2025.
  6. Ма, Й., Фрауэн, Д., Явурек, Э. и Фейерригель, С. (2025). Базовые модели для причинно-следственных выводов с использованием сетей, подобранных по априорным данным . Препринт arXiv arXiv:2506.10914.
  7. Чен, Т. и Гестрин, К. (август 2016 г.). Xgboost: масштабируемая система оптимизации деревьев . В материалах 22-й международной конференции ACM SIGKDD по поиску знаний и анализу данных (стр. 785–794).
  8. Гринштайн, Л., Ойаллон, Э. и Варокво, Г. (2022). Почему модели на основе деревьев всё ещё превосходят глубокое обучение на типичных табличных данных? Достижения в области нейронных систем обработки информации, 35, 507–520.
  9. Лян, Ю., Вэнь, Х., Не, Ю., Цзян, Ю., Цзинь, М., Сун, Д., … и Вэнь, Ц. (2024, август). Базовые модели для анализа временных рядов: учебное пособие и обзор . В материалах 30-й конференции ACM SIGKDD по поиску знаний и интеллектуальному анализу данных (стр. 6555–6565).

[1] Гаэль Вароко — один из создателей API Scikit-learn. Он также является соучредителем и научным консультантом стартапа Probabl.

Источник: towardsdatascience.com

✅ Найденные теги: Как, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых