Tesi etd-03112026-160737 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
GAFFORIO, MATTEO
URN
etd-03112026-160737
Titolo
Reinforcement Learning per il Controllo Robotico: Approcci Model-Free e Model-Based
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA ROBOTICA E DELL'AUTOMAZIONE
Relatori
relatore Prof. Buttazzo, Giorgio C.
Parole chiave
- ai
- neural network
- Reinforcement learning model based
- Reinforcement learning model free
Data inizio appello
10/04/2026
Consultabilità
Non consultabile
Data di rilascio
10/04/2029
Riassunto (Inglese)
This thesis investigates Reinforcement Learning (RL) as a control strategy learning framework for systems where explicit modeling is difficult or affected by uncertainties. The main contribution is a reproducible experimental pipeline for training and benchmarking several RL algorithms: value-based methods (tabular Q-learning, Deep Q-Network and variants), a policy-based method (REINFORCE), and actor--critic methods (DDPG, PPO), together with model-based Dyna extensions (Dyna-DDPG and Dyna-PPO). Experiments are carried out on two Gymnasium benchmarks: CartPole, used for controlled analysis of learning dynamics and hyperparameter sensitivity, and Pusher, used to evaluate algorithms on a continuous-control task closer to robotic manipulation. Performance is discussed through environment-specific metrics (episode return and length for CartPole; success rate and final distances for Pusher), and multiple random seeds are used to assess variability and statistical robustness. For the model-based component, data-driven and physics-informed dynamics models are compared, studying their impact on sample efficiency and final performance.
Riassunto (Italiano)
Questa tesi analizza il Reinforcement Learning (RL) come approccio per l'apprendimento di strategie di controllo in contesti in cui la modellazione esplicita del sistema risulta complessa o soggetta a incertezze. Il contributo principale consiste nell'implementazione di una pipeline sperimentale riproducibile per l'addestramento e la valutazione comparativa di diversi algoritmi RL: metodi value-based (Q-learning tabulare, Deep Q-Network e varianti), policy-based (REINFORCE) e actor--critic (DDPG, PPO), oltre a estensioni model-based di tipo Dyna (Dyna-DDPG e Dyna-PPO). Gli esperimenti sono condotti su due benchmark di Gymnasium: CartPole, scelto per l'analisi controllata della dinamica di apprendimento e della sensibilità agli iperparametri, e Pusher, utilizzato per valutare gli algoritmi in un compito di controllo continuo più vicino alla manipolazione robotica. Le prestazioni vengono discusse tramite metriche coerenti con ciascun ambiente (return e durata dell'episodio su CartPole; success rate e distanze finali su Pusher), con analisi su più seed per stimare variabilità e robustezza statistica. Per la componente model-based, vengono confrontati modelli di dinamica appresi in forma data-driven e physics-informed, studiandone l'impatto sull'efficienza campionaria e sui risultati finali.
File
| Nome file | Dimensione |
|---|---|
La tesi non è consultabile. |
|