What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Policy Gradient

Policy Gradient Theorem and REINFORCE

Deriving the policy gradient and the REINFORCE Monte Carlo estimator.

Placeholder content for Policy Gradient Theorem and REINFORCE.

DQN Improvements

Double DQN, Dueling DQN, Prioritized Experience Replay, and Rainbow.

TRPO

Trust Region Policy Optimization with KL divergence constraint.