➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод,…
➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод, который добавляет LLM-агентам «модель мира». Вместо простого предсказания следующего токена агент симулирует результат действия и сравнивает его с реальным исходом из среды. Награда даётся за семантическое совпадение, а не за буквальное повторение текста.
🐈 Это делает обучение устойчивее и снижает риск reward hacking. На ALFWorld и τ² Bench метод даёт прирост +6–7 пунктов по сравнению с обычным RL и приближается к уровню обучения на экспертных данных — при полностью self-supervised подходе.
По сути, это попытка научить агентов чувствовать разницу между ожиданием и реальностью.
❓ Вопрос в том, станет ли такая «внутренняя симуляция» фундаментом для по-настоящему автономных систем.
Оцените материал:
Похожие записи
a16z выдали шестой выпуск своего рейтинга топ-100 генеративных ИИ-приложений. Это…
11.03.2026
OpenAI готовит Sora 2: новая жизнь коротких видео OpenAI тестирует…
01.10.2025
Google может доказать, что мультивселенная реальна. Google представил новый квантовый…
09.12.2025Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
