ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03112026-160737

Tipo di tesi

Tesi di laurea magistrale

URN

etd-03112026-160737

Titolo

Reinforcement Learning per il Controllo Robotico: Approcci Model-Free e Model-Based

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

INGEGNERIA ROBOTICA E DELL'AUTOMAZIONE

Parole chiave

ai
neural network
Reinforcement learning model based
Reinforcement learning model free

Data inizio appello

10/04/2026

Consultabilità

Non consultabile

Data di rilascio

10/04/2029

Riassunto (Inglese)

This thesis investigates Reinforcement Learning (RL) as a control strategy learning framework for systems where explicit modeling is difficult or affected by uncertainties. The main contribution is a reproducible experimental pipeline for training and benchmarking several RL algorithms: value-based methods (tabular Q-learning, Deep Q-Network and variants), a policy-based method (REINFORCE), and actor--critic methods (DDPG, PPO), together with model-based Dyna extensions (Dyna-DDPG and Dyna-PPO). Experiments are carried out on two Gymnasium benchmarks: CartPole, used for controlled analysis of learning dynamics and hyperparameter sensitivity, and Pusher, used to evaluate algorithms on a continuous-control task closer to robotic manipulation. Performance is discussed through environment-specific metrics (episode return and length for CartPole; success rate and final distances for Pusher), and multiple random seeds are used to assess variability and statistical robustness. For the model-based component, data-driven and physics-informed dynamics models are compared, studying their impact on sample efficiency and final performance.

Riassunto (Italiano)

Questa tesi analizza il Reinforcement Learning (RL) come approccio per l'apprendimento di strategie di controllo in contesti in cui la modellazione esplicita del sistema risulta complessa o soggetta a incertezze. Il contributo principale consiste nell'implementazione di una pipeline sperimentale riproducibile per l'addestramento e la valutazione comparativa di diversi algoritmi RL: metodi value-based (Q-learning tabulare, Deep Q-Network e varianti), policy-based (REINFORCE) e actor--critic (DDPG, PPO), oltre a estensioni model-based di tipo Dyna (Dyna-DDPG e Dyna-PPO). Gli esperimenti sono condotti su due benchmark di Gymnasium: CartPole, scelto per l'analisi controllata della dinamica di apprendimento e della sensibilità agli iperparametri, e Pusher, utilizzato per valutare gli algoritmi in un compito di controllo continuo più vicino alla manipolazione robotica. Le prestazioni vengono discusse tramite metriche coerenti con ciascun ambiente (return e durata dell'episodio su CartPole; success rate e distanze finali su Pusher), con analisi su più seed per stimare variabilità e robustezza statistica. Per la componente model-based, vengono confrontati modelli di dinamica appresi in forma data-driven e physics-informed, studiandone l'impatto sull'efficienza campionaria e sui risultati finali.

File

Nome file	Dimensione
La tesi non è consultabile. Contatta l’autore