logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-06192014-141350


Tipo di tesi
Tesi di laurea magistrale
Autore
DISTEFANO, EMANUELE
URN
etd-06192014-141350
Titolo
Progetto ed implementazione di un sistema per il riconoscimento di oggetti in point cloud nell'ambito dell'afferraggio con mano robotica
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA INFORMATICA
Relatori
relatore Prof. Gabiccini, Marco
relatore Ing. Antonelli, Michela
relatore Prof. Marcelloni, Francesco
Parole chiave
  • Reti Neurali
  • Sistemi Intelligenti
  • Immagini 3D
  • Kinect
  • Point Cloud
  • Mano Robotica
  • CBR
  • Case-Based Reasoning
  • Classificazione
  • Riconoscimento Visivo
Data inizio appello
10/07/2014
Consultabilità
Completa
Riassunto
In questa tesi è stato sviluppato un sistema basato su un Case-Based Reasoning per riconoscere oggetti e le relative pose da immagini 3D, ottenute dal dispositivo Kinect, in modo tale da guidarne l'afferraggio mediante una mano robotica.

In letteratura il problema dell'afferraggio è stato affrontato con tecniche analitiche che si basano su modelli sintetici o su semplificazioni artificiali dei dati 3D, al fine di ridurre la complessità nel descrivere gli oggetti. Le difficoltà che hanno riscontrato questi approcci riguardano l'applicazione in un contesto reale, ovvero con sensori che introducono rumore nelle immagini. I modelli analitici non ottengono dati precisi e rigorosi come accadrebbe durante una simulazione virtuale pertanto le prestazioni su riconoscimenti e afferraggi reali risultano inferiori alle aspettative.

Per superare questi ostacoli in questa tesi è stato utilizzato un approccio empirico, prendendo spunto dal comportamento umano. Gli umani sono in grado di riconoscere somiglianze tra gli oggetti, riconoscere le loro pose ed afferarli sulla base delle esperienze passate ossia afferraggi di oggetti simili avvenuti nel passato.
Il sistema sviluppato emula il comportamento degli umani: ritrova in un database, formato da un insieme di oggetti ripresi da pose diverse, il caso che somiglia maggiormente a quello incognito presente nella scena di fronte alla Kinect. Ogni caso trovato è a sua volta associato ad una serie di afferraggi memorizzati che posssono essere applicati o adattati senza bisogno di modelli analitici predefiniti. In letteratura un approccio di questo tipo si chiama Case-Based Reasoning (CBR) e non è mai stato sperimentato nell'ambito di afferraggi con mani robotiche e dati provenienti da sensori reali.
In questo lavoro di tesi sono stati effettuati esperimenti con dati ottenuti da sensori reali e organizzati in strutture dati 3D chiamate point cloud.
Una volta ripresa la scena, segmentate le sue parti e individuato l'oggetto, il sistema realizza una descrizione mediante features estratte utilizzando un algoritmo appositamente studiato. Le features sono caratteristiche salienti che permettono di realizzare un confronto con altre point cloud descritte allo stesso modo. Le features possono essere globali, ovvero una descrizione sommaria dell'intera point cloud, oppure locali cioè più descrizioni eseguite nelle regioni intorno a punti chiave.
In questo progetto sono state utilizzate principalmente le features locali, perché possiedono una descrittività maggiore.
Una rete neurale, per ogni confronto fra descrizioni, si occupa di classificarne il risultato in termini di grado di somiglianza e di produrre un coefficiente compreso fra zero e uno. Per la ricerca dei casi somiglianti sono stati seguiti sia approcci lineari che gerarchici.
Viene anche realizzato un sistema ibrido che unisce i vantaggi di entrambe le tipologie di descrizione.
I risultati raggiunti con gli approcci locali sono molto buoni perché consentono di riconoscere gli oggetti con percentuali di successo molto alte, mediamente intorno al 95%, così come le loro pose con percentuali intorno al 75%. Il sistema ibrido è quello che ha avuto prestazioni migliori, con un tasso di riconoscimento degli oggetti al 99% e delle pose mediamente superiore all'80%.

Il sistema implementato in questa tesi fa parte di una piattaforma che viene sviluppata nell'ambito del progetto PaCMan (Probabilistic and Compositional Representations for Object Manipulation).
Questa tesi è organizzata in modo da offrire una panoramica su questo ambito di ricerca, presentare quindi le tecnologie implementative, l'architettura del nuovo sistema proposto e gli esperimenti eseguiti.
In particolare nel capitolo 2 viene presentato il Case-Based Reasoning, il suo scopo e come può essere realizzato. Nel capitolo 3 si affrontano le problematiche relative agli afferraggi con mano robotica dal punto di vista degli approcci, sia analitici che empirici, evidenziando l'utilità di questi ultimi nell'ambito analizzato. Nel capitolo 4 vengono illustrate tecnologie per realizzare la ripresa della scena davanti al visore, l'acquisizione di immagini tridimensionali e il software che può essere utilizzato per gestire i dati e manipolarli. Nel capitolo 5 viene affrontato il procedimento di manipolazione vera e propria dei dati, al fine di produrre descrizioni coerenti e confrontabili fra loro in ottica CBR. Nel capitolo 6 vengono analizzate e proposte tecniche di confronto fra le features di oggetti. In questo modo è possibile quantificare in prima battuta una sorta di "distanza" relativa fra le descrizioni. Il capitolo 7 introduce e spiega come si utilizzano le reti neurali feedforward multistrato che verranno poi implementate nel capitolo 8. Una volta ottenute le descrizioni e dopo aver eseguito un confronto sulla loro distanza, la rete neurale si occupa di classificarlo producendo un coefficiente di somiglianza. Infine nei capitoli 9, 10 e 11 vengono presentati i risultati ottenuti dagli esperimenti con il sistema ideato in tutte le varianti implementate.
File