Ενισχυτική Μάθηση – Δυναμικός Προγραμματισμός: (i) Markov Decision Processes, (ii) Bellman’s Optimality Criterion, (iii) Αλγόριθμος Policy Iteration, (iv) Αλγόριθμος Value Iteration

Loading the player...

Βασίλης Μάγκλαρης - maglaris@netmode.ntua.gr

Σχολή Ηλεκτρολόγων Μηχ. & Μηχ. Υπολογιστών Ε.Μ.Π.

Slides