Surprise bayesiana in un modello bio-ispirato di visione bottom-up: un'implementazione real-time in CUDA per SABIAN
Dipartimento
SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di studi
INFORMATICA
Relatori
relatore Prof.ssa Laschi, Cecilia
Parole chiave
aggregazione indiretta
attention
attenzione
bayesian surprise
computer vision
CUDA
GPGPU
real-time
realtime
SABIAN
surprise
surprise bayesiana
tempo reale
visione bottom-up
Data inizio appello
12/10/2012
Consultabilità
Non consultabile
Data di rilascio
12/10/2052
Riassunto
La necessità di selezionare il focus dell'attenzione scaturisce da molteplici esigenze. In un sistema robotico, in particolare, questa prima selezione di una sottoregione interessante della scena consente una riduzione del carico computazionale delle successive elaborazioni. In questo lavoro di tesi è stato analizzato il modello di visione proposto da Baldi e Itti, basato sulla misura di surprise bayesiana. L'implementazione in forma matriciale del back-end del modello, a causa dell'elevato numero di matrici di dimensioni ridotte che devono essere elaborate per il calcolo della surprise, presenta un potenziale collo di bottiglia a cui la soluzione proposta pone rimedio. L'implementazione CUDA utilizza una tecnica di aggregazione indiretta delle immagini, al fine di ridurre l'overhead dell'esecuzione di un elevato numero di istanze di un kernel su immagini di dimensioni ridotte. L'integrazione di tale tecnica nell'implementazione del modello ha consentito di effettuare l'elaborazione in tempo reale dell'input proveniente dalle telecamere del sistema visivo della piattaforma robotica umanoide SABIAN, al fine di determinare un potenziale target per le saccadi. È stato effettuato infine un confronto dell'implementazione risultante del modello con le prestazioni dell'implementazione di riferimento fornita dagli autori stessi e con quella ottenuta mediante operazioni su matrici, grazie all'uso del modulo GPU delle librerie OpenCV. I risultati hanno consentito di evidenziare i vantaggi della soluzione proposta in relazione alla risoluzione delle immagini di input al modello.