Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод,…

➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод, который добавляет LLM-агентам «модель мира». Вместо простого предсказания следующего токена агент симулирует результат действия и сравнивает его с реальным исходом из среды. Награда даётся за семантическое совпадение, а не за буквальное повторение текста.

🐈 Это делает обучение устойчивее и снижает риск reward hacking. На ALFWorld и τ² Bench метод даёт прирост +6–7 пунктов по сравнению с обычным RL и приближается к уровню обучения на экспертных данных — при полностью self-supervised подходе.

По сути, это попытка научить агентов чувствовать разницу между ожиданием и реальностью.

❓ Вопрос в том, станет ли такая «внутренняя симуляция» фундаментом для по-настоящему автономных систем.

Человек перед барьером общается с отражением; тема: обучение ИИ предсказывать действия.
❌ Нет тегов для этой статьи

Добавить комментарий