Архив рубрики ~Лента новостей~
Deep RL и Model-free алгоритмы: обучение оптимальной стратегии без доступа к модели среды
Кусочек траектории [s, a, r, s']Посчитаем уравнение Беллмана только на таких траекториях:Аналогично, обновляем с помощью скользящего среднего: Такой частный случай TD-learning называется Q-Learning:Инициализируем нулямиПока не сойдемся:Семплируем одну траекторию Считаем новое значение Обновляем 2. То есть мы хотим предсказывать состояние или событие на…
Читать