Эпоха автономных аналитиков: как ИИ меняет науку о данных

22.10.2025 ideipro.ru

Автономная наука о данных — давняя мечта: от сырых таблиц и файлов до аккуратных графиков и связного аналитического отчета без постоянного участия человека. Большие языковые модели (LLM) продвинули нас вперед, но типичные workflow-агенты живут за счет заранее прописанных правил. Они хрупки: стоит задаче выйти за рамки — и все процессы сыпятся. В новой работе авторы предлагают другой путь: не внешние сценарии, а сама модель, обученная действовать и улучшать свои решения в живой среде.

DeepAnalyze-8B — первая сквозная агентная LLM для автономного анализа данных, охватывающая весь конвейер Data Science и открытые исследования данных.

Что предложили авторы

DeepAnalyze-8B — агентная LLM на 8 миллиардов параметров, которая закрывает весь цикл: подготовка данных, анализ, моделирование, визуализация, формирование отчетов и даже открытые исследования, где нет единственно верного ответа. Главная идея — встроить в модель две способности, без которых автономии не бывает: умение самостоятельно оркестрировать процесс (понимать задачу, планировать, выбирать действия) и умение адаптивно оптимизировать свои шаги, учитывая обратную связь среды.

Архитектура DeepAnalyze

Как работает модель

Взаимодействие с данными оформлено через пять простых действий, которыми модель управляет сама — без внешнего оркестратора:

<Analyze> — спланировать ход решения, рассуждать, проверять себя.
<Understand> — разобраться в содержимом источников: таблиц, БД, документов.
<Code> — сгенерировать Python‑код для анализа, подготовки и визуализации.
<Execute> — выполнить код и прочитать обратную связь среды.
<Answer> — выдать итоговый ответ или отчет.

Цепочка повторяется столько, сколько требуется. Когда возникает новая гипотеза, модель пишет код, запускает его, смотрит результаты и корректирует план. Это и есть автономная оркестрация плюс адаптивная оптимизация — вшитые в поведение самой модели.

Примеры DeepAnalyze-8B: на основе инструкций и источников данных модель автономно планирует, взаимодействует с данными и оптимизирует действия по обратной связи, завершая конвейер и открытые исследования.

Как обучали: от простого к сложному

Главная инженерная трудность — разреженные вознаграждения и нехватка длинных, реалистичных траекторий решения. Авторский рецепт состоит из двух частей.

Во‑первых, учебный план. Сначала модель прокачивают отдельные навыки (рассуждения, понимание таблиц, кодогенерация). Затем переводят на мультимодульный агентный режим с подкреплением: генерируй действия, исполняй код, получай оценку и учись корректировать поведение. Используется GRPO‑обучение с гибридным вознаграждением: формальные проверки плюс LLM‑оценщик качества отчетов, интеракций и финальных ответов.

Во‑вторых, синтез траекторий. Нужны хорошие примеры рассуждений и взаимодействия со средой:

Reasoning Trajectory Synthesis — дистиллируют и «доправляют» цепочки мыслей так, чтобы они систематически возвращались к данным, а не фантазировали поверх текста.
Interaction Trajectory Synthesis — генерируют мультитуровые эпизоды с ролями интервьювер, решатель и инспектор, фильтруют по фактическим изменениям среды и качеству шагов.

Схематическая диаграмма агентного обучения с подкреплением

Синтез сценариев взаимодействия

Чтобы это стало массовым, авторы собрали DataScience‑Instruct‑500K — около 500 тысяч примеров: от улучшенных рассуждений до интеракционных эпизодов для холодного старта и RL. Набор открыт.

Что показали тесты

Модель прогнали по 12 бенчмаркам — от классических задач кода и TableQA до сценариев полного конвейера и открытых исследований.

Полный конвейер (DataSciBench). DeepAnalyze‑8B стал лучшим среди открытых агентов и обогнал большинство проприетарных систем на основе готовых пайплайнов. Уступил только GPT‑4o. Важная деталь: без внешних фреймворков, вся оркестрация внутри модели.
Прикладные задачи (DSBench, DABStep). На смешанных форматах (CSV/JSON/Markdown) и особенно на сложных кейсах автономная стратегия стабильно выигрывает у ReAct‑подсказок и ручных сценариев.
Глубокие исследования (DABStep‑Research). На генерации отчетов уровня профессионального аналитика DeepAnalyze‑8B показывает устойчивое преимущество. Падения качества на открытых задачах нет — обучение в реальной среде и вознаграждение за отчет делают свое дело.
Связанные способности. На DS‑1000 (NumPy/Pandas/Matplotlib) и TableQA модель подтягивает узкие навыки: выше GPT‑4‑Turbo и GLM‑4.5 на кодогенерации и новый максимум на Reasoning‑Table.

Производительность на DSBench (анализ данных).

Производительность на DABStep-Research.

Почему это важно

Работа аккуратно смещает акцент с мультиагентных конструкторов и ручных сценариев к агентным LLM, где поведение «зашито» в саму модель. Это экономит инженерные усилия, снижает зависимость от промтов, упрощает перенос между задачами и делает анализ данных более надежным. Дальше — масштабирование к экосистемам: обнаружение данных, управление и прозрачность, интеграция в корпоративные пайплайны. Открытые код, данные и методика обучения — важный вклад для ИИ-сообщества.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Оцените материал:

Эпоха автономных аналитиков: как ИИ меняет науку о данных

Что предложили авторы

Как работает модель

Как обучали: от простого к сложному

Что показали тесты

Почему это важно

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Что предложили авторы

Как работает модель

Как обучали: от простого к сложному

Что показали тесты

Почему это важно

Похожие записи

Похожие записи

Темная сторона исследований мумии Тутанхамона

Проект студента: как ИИ-скоринг делает кредиты справедливее

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI