Image

ИИ-ученый, который открывает законы природы без участия человека

cfbb1598e57599314c255ced9a9666d2

В научных данных часто скрыты простые законы — уравнения, которые объясняют зависимость между величинами. Но найти их непросто: пространство формул огромное, данные бывают шумными, а перебор вариантов быстро захлёбывается. Символическая регрессия как раз и пытается восстановить такую компактную формулу. Многие подходы или перебирают деревья решений, или учат нейросети предсказывать готовые формулы. В обоих случаях LLM обычно лишь подсказывает идеи, а всю логику поиска жёстко задаёт человек.

Авторы SR‑Scientist предлагают иной взгляд: пусть LLM станет автономным учёным. Агент сам анализирует данные, пишет и запускает код, строит и проверяет уравнения, оптимизирует константы и шаг за шагом улучшает гипотезы, опираясь на экспериментальную обратную связь. Вся работа — как у настойчивого исследователя, только в машинном темпе.

Фреймворк вывода SR-Scientist: агент с инструментами анализа данных и оценки уравнений, плюс буфер опыта для длинных сценариев
Фреймворк вывода SR-Scientist: агент с инструментами анализа данных и оценки уравнений, плюс буфер опыта для длинных сценариев

Как это устроено изнутри.

Агент действует в стиле ReAct: на каждом шаге рассуждает, вызывает инструмент, смотрит на результат и решает, что делать дальше. Инструментов два. Первый — аналитик данных: с помощью кода смотрит статистики и делает выборки. Второй — оценщик уравнений: принимает “скелет” формулы, численно подбирает константы и возвращает метрики. Это избавляет от бесконечного велосипеда в коде и даёт честное сравнение разных гипотез.

У агента есть память — буфер опыта с лучшими уравнениями и их качеством. В новых итерациях модель видит эти находки и целится в более строгую цель по ошибке. Так поддерживается прогресс на длинном сценарии, даже при ограничении на число шагов и вызовов LLM.

Метрика, на которую ориентируется поиск, — MAPE в процентах. Она удобна, когда масштабы данных разные. Для сопоставимости с другими методами дополнительно отбирают формулу с наименьшим NMSE.

Обучение через подкрепление.

Чтобы агент научился не просто “думать вслух”, а системно доводить гипотезу до хорошего результата, авторы строят синтетический учебный набор по четырём дисциплинам и учат политику через Group Relative Policy Optimization. Награда непрерывная: чем ближе к целевому MAPE, тем выше. Важно, что это снижает разреженность сигнала: агент не ждёт редких “побед”, а видит градиент улучшений.

Изменение оценки вознаграждения в процессе обучения
Изменение оценки вознаграждения в процессе обучения

Что показали эксперименты.

Датасет LSR‑Synth покрывает материаловедение, химию, биологию и физику; есть обычные и вне‑доменные тесты. Главная метрика — accuracy‑to‑tolerance: доля примеров, где относительная ошибка укладывается в заданный порог. На таком бенчмарке SR‑Scientist стабильно превосходит бейзлайны. Абсолютный прирост точности — от 6% до 35% в зависимости от домена и модели. На GPT‑OSS‑120B достигается Acc_0.01 = 63.57% и Acc_0.001 = 49.35%. Отдельно заметен вклад обучения с подкреплением: на Qwen3‑Coder‑30B оно поднимает качество во всех дисциплинах.

ID/OOD‑результаты по Acc_0.01 в разных доменах (Qwen3‑Coder‑480B)
ID/OOD‑результаты по Acc_0.01 в разных доменах (Qwen3‑Coder‑480B)
Устойчивость к шуму: SR‑Scientist падает меньше конкурентов на разных бэкендах
Устойчивость к шуму: SR‑Scientist падает меньше конкурентов на разных бэкендах

Важна не только численная точность, но и символическая — совпадение структуры формулы с истинной. Здесь агент тоже впереди: 7–8 точных совпадений против 4–5 у лучших конкурентов на тех же настройках. Авторы показывают кейсы из физики, где найденные выражения совпадают с эталоном по ключевым условиям и физическому смыслу.

Кейсы из физики: найденные уравнения совпадают по важным условиям с эталонными
Кейсы из физики: найденные уравнения совпадают по важным условиям с эталонными

Что влияет на успех

Абляции честно показывают слабые места. Если выкинуть анализ данных, качество заметно падает: агенту трудно понять, где и почему ошибается гипотеза. Если убрать буфер опыта, прогресс рвётся — удачные формы не протаскиваются между итерациями. Ещё один практический момент — баланс длины сценариев и числа итераций: после ~25 шагов на попытку лучше инвестировать ресурс в дополнительные итерации, а не в сверхдлинные рассуждения.

Баланс между числом ходов и итерациями при ограниченном бюджете вызовов LLM
Баланс между числом ходов и итерациями при ограниченном бюджете вызовов LLM

Почему это важно

Большая языковая модель здесь не генератор красивых формул, а активный участник научного процесса. Она строит модель мира на лету: из данных — к гипотезам, через код — к проверке, по обратной связи — к улучшению. Минимум ручного оркестрирования, максимум автономии. Именно такой дизайн и усиливается RL‑обучением: агент учится мыслить длиннее и действовать эффективнее.

Вывод по сути прост: если дать LLM правильные инструменты и научить её жить в длинном горизонте, она начинает работать как внимательный исследователь. SR‑Scientist демонстрирует прирост точности, лучшую переносимость, устойчивость к шуму и более высокую символическую точность — всё то, что важно в реальном научном применении.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: ИИ-ученый,, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых