What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Actor-Critic & Continuous Control

TD3 and SAC

Twin Delayed DDPG and Soft Actor-Critic with maximum entropy RL.

Placeholder content for TD3 and SAC.

DDPG

Deep Deterministic Policy Gradient for continuous action spaces.

Dyna and Learned Models

Integrated learning, planning, and acting with learned environment dynamics.