Архив рубрики ~Коротко из Telegram~

➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод,…

➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод,…
Человек перед барьером общается с отражением; тема: обучение ИИ предсказывать действия.

➡️ Microsoft представила Reinforcement World Model Learning (RWML) — метод, который добавляет LLM-агентам «модель мира». Вместо простого предсказания следующего токена агент симулирует результат действия и сравнивает его с реальным исходом из среды. Награда даётся за семантическое совпадение, а не за буквальное повторение текста.

🐈 Это делает обучение устойчивее и снижает риск reward hacking. На ALFWorld и τ² Bench метод даёт прирост +6–7 пунктов по сравнению с обычным RL и приближается к уровню обучения на экспертных данных — при полностью self-supervised подходе.

По сути, это попытка научить агентов чувствовать разницу между ожиданием и реальностью.

❓ Вопрос в том, станет ли такая «внутренняя симуляция» фундаментом для по-настоящему автономных систем.

❌ Нет тегов для этой статьи

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Лента новостей~ Функция потерь: объяснение для новичков (как модели понимают, что ошибаются) Архив рубрики ~Лента новостей~ От AGI к ASI. Исследование специалистов Google DeepMind, июнь 2026г Архив рубрики ~Лента новостей~ SAP и Google Cloud развертывают архитектуру агентской коммерции. Архив рубрики ~Лента новостей~ Как борьба за американские центры обработки данных переворачивает политику штата: «Нам это не нужно». Архив рубрики ~Лента новостей~ «Базальт СПО» выпустила обновлённую версию ОС «Альт Рабочая станция К» 11.4 Архив рубрики ~Лента новостей~ Местный бренд понимает, что клиенты ненавидят его рекламу с искусственным интеллектом, и вместо этого переключается на очаровательную самодельную рекламу Архив рубрики ~Лента новостей~ Macromedia Flash: как создавался и как защищали один из самых популярных плагинов нулевых Архив рубрики ~Лента новостей~ Anthropic доработала Claude Design — улучшила следование дизайн-системе пользователя и обновила холст Архив рубрики ~Лента новостей~ Почему AI-проекты не окупаются: три препятствия в управлении и шесть направлений с измеримым эффектом Архив рубрики ~Лента новостей~ Внешняя память для LLM: как RAG дает моделям доступ к новым знаниям Архив рубрики ~Обо всем~ Зарянка покормила птенца оляпки. Необычный случай зафиксирован в Шотландии Архив рубрики ~Лента новостей~ В результате масштабной утечки данных были раскрыты учетные данные тысяч конфиденциальных сетей. Новости робототехники Компания General Intuition ведет переговоры о привлечении 300 миллионов долларов при оценке примерно в 2 миллиарда долларов. Архив рубрики ~Лента новостей~ Core Ultra 7 270HX Plus смог обойти старшую модель Ultra 9 275HX в PassMark Архив рубрики ~Лента новостей~ Функция потерь: объяснение для новичков (как модели понимают, что ошибаются) Архив рубрики ~Лента новостей~ От AGI к ASI. Исследование специалистов Google DeepMind, июнь 2026г Архив рубрики ~Лента новостей~ SAP и Google Cloud развертывают архитектуру агентской коммерции. Архив рубрики ~Лента новостей~ Как борьба за американские центры обработки данных переворачивает политику штата: «Нам это не нужно». Архив рубрики ~Лента новостей~ «Базальт СПО» выпустила обновлённую версию ОС «Альт Рабочая станция К» 11.4 Архив рубрики ~Лента новостей~ Местный бренд понимает, что клиенты ненавидят его рекламу с искусственным интеллектом, и вместо этого переключается на очаровательную самодельную рекламу Архив рубрики ~Лента новостей~ Macromedia Flash: как создавался и как защищали один из самых популярных плагинов нулевых Архив рубрики ~Лента новостей~ Anthropic доработала Claude Design — улучшила следование дизайн-системе пользователя и обновила холст Архив рубрики ~Лента новостей~ Почему AI-проекты не окупаются: три препятствия в управлении и шесть направлений с измеримым эффектом Архив рубрики ~Лента новостей~ Внешняя память для LLM: как RAG дает моделям доступ к новым знаниям Архив рубрики ~Обо всем~ Зарянка покормила птенца оляпки. Необычный случай зафиксирован в Шотландии Архив рубрики ~Лента новостей~ В результате масштабной утечки данных были раскрыты учетные данные тысяч конфиденциальных сетей. Новости робототехники Компания General Intuition ведет переговоры о привлечении 300 миллионов долларов при оценке примерно в 2 миллиарда долларов. Архив рубрики ~Лента новостей~ Core Ultra 7 270HX Plus смог обойти старшую модель Ultra 9 275HX в PassMark

Оставить комментарий