What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Actor-Critic & Continuous Control

DDPG

Deep Deterministic Policy Gradient for continuous action spaces.

Placeholder content for DDPG.

Actor-Critic Framework

A2C, advantage estimation, and Generalized Advantage Estimation (GAE).

TD3 and SAC

Twin Delayed DDPG and Soft Actor-Critic with maximum entropy RL.