Reinforcement Learning – Dynamic Programming: i) Markov Decision Processes ii) Bellman’s Optimality Criterion iii) Policy Iteration Algorithm iv) Value Iteration Algorithm
Βασίλης Μάγκλαρης - maglaris@netmode.ntua.gr
Σχολή Ηλεκτρολόγων Μηχ. & Μηχ. Υπολογιστών Ε.Μ.Π.
Slides