Reinforcement Learning – Dynamic Programming

1. Markov Decision Processes
2. Bellman’s Optimality Criterion
3. Policy Iteration Algorithm
4. Value Iteration Algorithm

Loading the player...

Βασίλης Μάγκλαρης - maglaris@netmode.ntua.gr

Σχολή Ηλεκτρολόγων Μηχ. & Μηχ. Υπολογιστών Ε.Μ.Π.

Slides