What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Policy Gradient

RL for Sequence Generation and RLHF

Applying policy gradient to sequence models, reward modeling, and alignment.

Placeholder content for RL for Sequence Generation and RLHF.

PPO

Proximal Policy Optimization with clipped surrogate objective.

Actor-Critic Framework

A2C, advantage estimation, and Generalized Advantage Estimation (GAE).