What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Policy Gradient

TRPO

Trust Region Policy Optimization with KL divergence constraint.

Placeholder content for TRPO.

Policy Gradient Theorem and REINFORCE

Deriving the policy gradient and the REINFORCE Monte Carlo estimator.

PPO

Proximal Policy Optimization with clipped surrogate objective.