Современная архитектурная структура с геометрическим узором на фоне неба.

Распределенное обучение с подкреплением для масштабируемой высокопроизводительной оптимизации политики

Использование масштабного параллелизма, асинхронных обновлений и многомашинного обучения позволяет достичь и превзойти уровень производительности, сравнимый с человеческим.

Делиться

4010b23568b2a7b13a5377a48887df63

Обучение с подкреплением на реальных задачах — сложная задача.

В контролируемых условиях обучение с подкреплением кажется простым: четко определенные состояния, высокая плотность вознаграждений, стационарная динамика, неограниченное моделирование. Большинство результатов бенчмарков получены при этих предположениях. В реальном мире почти все они нарушаются.

Наблюдения неполные и зашумленные, вознаграждения отложены или неоднозначны, окружающая среда меняется со временем, сбор данных медленный и дорогостоящий, а ошибки несут реальные издержки. Политики должны работать в условиях ограничений безопасности, ограниченного исследования и нестационарных распределений. Данные, полученные вне политики, накапливают смещение. Отладка непрозрачна. Небольшие ошибки моделирования накапливаются, приводя к нестабильному поведению.

Повторюсь, обучение с подкреплением на реальных задачах — это очень сложно.

За пределами контролируемых симуляторов, таких как Atari, которые существуют в академической среде, практически нет рекомендаций по проектированию, обучению или отладке. Если отбросить предположения, которые делают бенчмарки управляемыми, останется проблемная область, решение которой кажется практически невозможным.

Но потом появляются эти примеры, и надежда вновь появляется:

  1. Команда OpenAI Five одержала победу над действующими чемпионами мира по Dota 2 в полноценных матчах 5 на 5. Обучение проводилось с использованием глубокого обучения с подкреплением.
  2. AlphaStar от DeepMind достиг ранга Грандмастера в StarCraft II, превзойдя 99,8% игроков-людей и стабильно побеждая профессиональных соперников. Обучение проводилось с использованием глубокого обучения с подкреплением.
  3. Система Atlas от Boston Dynamics обучает архитектуру на основе Diffusion Transformer с 450 миллионами параметров, используя комбинацию реальных и смоделированных данных. Обучение проводилось с помощью глубокого обучения с подкреплением.

В этой статье я представлю практические, реальные подходы к параллельному обучению агентов обучения с подкреплением, используя многие, если не те же самые, методы, которые лежат в основе современных сверхчеловеческих систем искусственного интеллекта. Это целенаправленный выбор академических методов, дополненный ценным опытом, полученным при создании агентов, работающих в стохастических, нестационарных областях.

Если вы пытаетесь подойти к решению реальной проблемы, просто применив неоптимизированный бенчмарк из библиотеки RL на одной машине, вы, скорее всего, потерпите неудачу.

Необходимо понимать следующее:

  1. Переформулирование проблемы таким образом, чтобы она соответствовала рамкам теории обучения с подкреплением.
  2. Методы оптимизации политики, которые действительно эффективны за пределами академической среды.
  3. Нюансы понятия «масштаб» в контексте обучения с подкреплением.

Начнём.

Предварительные требования

Если вы никогда раньше не сталкивались с обучением с подкреплением, попытка создать сверхчеловеческий ИИ — или даже более-менее приличного агента — это как попытка научить кошку жонглировать горящими факелами: она в основном игнорирует вас, иногда что-то поджигает, и почему-то от вас все равно ожидают, что вы назовете это «прогрессом». Вам следует хорошо разбираться в следующих областях:

  1. Марковские процессы принятия решений (MDP) и частично наблюдаемые марковские процессы принятия решений (POMDP): они обеспечивают математическую основу для того, как современные агенты искусственного интеллекта взаимодействуют с миром.
  2. Оптимизация политики (также известная как зеркальное обучение) — подробное описание того, как нейронная сеть аппроксимирует оптимальную политику с помощью градиентного подъема.
  3. Продолжим изучение методов 2) Actor Critic Methods и Proximal Policy Optimization (PPO), которые являются двумя широко используемыми методами оптимизации политики.

Для полного понимания и осмысления каждого из этих аспектов требуется время. К сожалению, обучение с подкреплением — сложная область, настолько сложная, что простое масштабирование не решит фундаментальных недоразумений или неправильного применения необходимых шагов, как это иногда бывает в традиционном глубоком обучении.

Источник: towardsdatascience.com

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых