Image

Эпоха автономных аналитиков: как ИИ меняет науку о данных

5fe7b3506dfad0a666354393c8c5a35f

Автономная наука о данных — давняя мечта: от сырых таблиц и файлов до аккуратных графиков и связного аналитического отчета без постоянного участия человека. Большие языковые модели (LLM) продвинули нас вперед, но типичные workflow-агенты живут за счет заранее прописанных правил. Они хрупки: стоит задаче выйти за рамки — и все процессы сыпятся. В новой работе авторы предлагают другой путь: не внешние сценарии, а сама модель, обученная действовать и улучшать свои решения в живой среде.

DeepAnalyze-8B — первая сквозная агентная LLM для автономного анализа данных, охватывающая весь конвейер Data Science и открытые исследования данных.
DeepAnalyze-8B — первая сквозная агентная LLM для автономного анализа данных, охватывающая весь конвейер Data Science и открытые исследования данных.

Что предложили авторы

DeepAnalyze-8B — агентная LLM на 8 миллиардов параметров, которая закрывает весь цикл: подготовка данных, анализ, моделирование, визуализация, формирование отчетов и даже открытые исследования, где нет единственно верного ответа. Главная идея — встроить в модель две способности, без которых автономии не бывает: умение самостоятельно оркестрировать процесс (понимать задачу, планировать, выбирать действия) и умение адаптивно оптимизировать свои шаги, учитывая обратную связь среды.

Архитектура DeepAnalyze
Архитектура DeepAnalyze

Как работает модель

Взаимодействие с данными оформлено через пять простых действий, которыми модель управляет сама — без внешнего оркестратора:

  • <Analyze> — спланировать ход решения, рассуждать, проверять себя.

  • <Understand> — разобраться в содержимом источников: таблиц, БД, документов.

  • <Code> — сгенерировать Python‑код для анализа, подготовки и визуализации.

  • <Execute> — выполнить код и прочитать обратную связь среды.

  • <Answer> — выдать итоговый ответ или отчет.

Цепочка повторяется столько, сколько требуется. Когда возникает новая гипотеза, модель пишет код, запускает его, смотрит результаты и корректирует план. Это и есть автономная оркестрация плюс адаптивная оптимизация — вшитые в поведение самой модели.

Примеры DeepAnalyze-8B: на основе инструкций и источников данных модель автономно планирует, взаимодействует с данными и оптимизирует действия по обратной связи, завершая конвейер и открытые исследования.
Примеры DeepAnalyze-8B: на основе инструкций и источников данных модель автономно планирует, взаимодействует с данными и оптимизирует действия по обратной связи, завершая конвейер и открытые исследования.

Как обучали: от простого к сложному

Главная инженерная трудность — разреженные вознаграждения и нехватка длинных, реалистичных траекторий решения. Авторский рецепт состоит из двух частей.

Во‑первых, учебный план. Сначала модель прокачивают отдельные навыки (рассуждения, понимание таблиц, кодогенерация). Затем переводят на мультимодульный агентный режим с подкреплением: генерируй действия, исполняй код, получай оценку и учись корректировать поведение. Используется GRPO‑обучение с гибридным вознаграждением: формальные проверки плюс LLM‑оценщик качества отчетов, интеракций и финальных ответов.

Во‑вторых, синтез траекторий. Нужны хорошие примеры рассуждений и взаимодействия со средой:

  • Reasoning Trajectory Synthesis — дистиллируют и «доправляют» цепочки мыслей так, чтобы они систематически возвращались к данным, а не фантазировали поверх текста.

  • Interaction Trajectory Synthesis — генерируют мультитуровые эпизоды с ролями интервьювер, решатель и инспектор, фильтруют по фактическим изменениям среды и качеству шагов.

Схематическая диаграмма агентного обучения с подкреплением
Схематическая диаграмма агентного обучения с подкреплением
Синтез сценариев взаимодействия
Синтез сценариев взаимодействия

Чтобы это стало массовым, авторы собрали DataScience‑Instruct‑500K — около 500 тысяч примеров: от улучшенных рассуждений до интеракционных эпизодов для холодного старта и RL. Набор открыт.

Что показали тесты

Модель прогнали по 12 бенчмаркам — от классических задач кода и TableQA до сценариев полного конвейера и открытых исследований.

  • Полный конвейер (DataSciBench). DeepAnalyze‑8B стал лучшим среди открытых агентов и обогнал большинство проприетарных систем на основе готовых пайплайнов. Уступил только GPT‑4o. Важная деталь: без внешних фреймворков, вся оркестрация внутри модели.

  • Прикладные задачи (DSBench, DABStep). На смешанных форматах (CSV/JSON/Markdown) и особенно на сложных кейсах автономная стратегия стабильно выигрывает у ReAct‑подсказок и ручных сценариев.

  • Глубокие исследования (DABStep‑Research). На генерации отчетов уровня профессионального аналитика DeepAnalyze‑8B показывает устойчивое преимущество. Падения качества на открытых задачах нет — обучение в реальной среде и вознаграждение за отчет делают свое дело.

  • Связанные способности. На DS‑1000 (NumPy/Pandas/Matplotlib) и TableQA модель подтягивает узкие навыки: выше GPT‑4‑Turbo и GLM‑4.5 на кодогенерации и новый максимум на Reasoning‑Table.

Производительность на DSBench (анализ данных).
Производительность на DSBench (анализ данных).
Производительность на DABStep-Research.
Производительность на DABStep-Research.

Почему это важно

Работа аккуратно смещает акцент с мультиагентных конструкторов и ручных сценариев к агентным LLM, где поведение «зашито» в саму модель. Это экономит инженерные усилия, снижает зависимость от промтов, упрощает перенос между задачами и делает анализ данных более надежным. Дальше — масштабирование к экосистемам: обнаружение данных, управление и прозрачность, интеграция в корпоративные пайплайны. Открытые код, данные и методика обучения — важный вклад для ИИ-сообщества.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Эпоха

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых