What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Policy Gradient

PPO

Proximal Policy Optimization with clipped surrogate objective.

Placeholder content for PPO.

TRPO

Trust Region Policy Optimization with KL divergence constraint.

RL for Sequence Generation and RLHF

Applying policy gradient to sequence models, reward modeling, and alignment.