What is Reinforcement Learning?Taxonomy of RL Methods History of Reinforcement Learning

Multi-Armed Bandits MDP and Dynamic Programming Monte Carlo and Temporal Difference Q-Learning DQN DQN Improvements

Policy Gradient Theorem and REINFORCE TRPO PPO RL for Sequence Generation and RLHF

Actor-Critic Framework DDPG TD3 and SAC

Dyna and Learned Models Model Predictive Control AlphaZero and MuZero

Imitation Learning Offline RL Exploration Goal-Conditioned RL Multi-Agent RL

Value-Based Methods

MDP and Dynamic Programming

Markov Decision Processes, Bellman equations, policy iteration, and value iteration.

Placeholder content for MDP and Dynamic Programming.

Multi-Armed Bandits

Exploration-exploitation trade-off in the simplest RL setting.

Monte Carlo and Temporal Difference

Sample-based methods for estimating value functions without a model.