Tesi etd-08272014-093644

Tipo di tesi

Tesi di laurea magistrale

Autore

PALLA, ALESSANDRO

URN

etd-08272014-093644

Titolo

Progettazzione, realizzazzione e collaudo di un interfaccia vocale uomo-macchina basata su array di microfoni MEMS per persone diversamente abili

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

INGEGNERIA ELETTRONICA

Relatori

tutor Ing. Sannino, Roberto
relatore Prof. Fanucci, Luca

Parole chiave

Beamforming
Dragon Naturally Speaking
Echo Cancelling
Google Speech API
Speech Enanchment
Speech Recognition
Speex
VAD
Voice Activity Detection

Data inizio appello

26/09/2014

Consultabilità

Completa

Riassunto

In questo lavoro sono analizzate le problematiche che le persone con disabilità motoria affrontano giornalmente nell'approccio alla tecnologia, in particolare riguardo all'accesso a Personal Computer (PC) e smartphone.
Il target di disabili di riferimento è quello con problemi riguardanti la sfera moto-sensoriale, ma senza difficoltà dal punto di vista linguistico-lessicale, poiché un'utenza di questo tipo può accedere alla tecnologia mediante controllo vocale. Purtroppo l'interfacciamento vocale può risultare impraticabile in diversi scenari poiché questi sistemi tipo hanno il vincolo molto stringente di richiedere un ambiente privo di rumore per avere un buon riconoscimento.
Dopo un'attenta analisi degli scenari in cui la condizione precedente non può essere soddisfatta, sarà discussa un’architettura hardware/software per ovviare a queste problematiche. In particolare il lavoro centrale di questa tesi è lo sviluppo di una piattaforma embedded il cui compito è filtrare il segnale audio proveniente da uno o più microfoni mirando a incrementare:

. Intelligibilità del parlato
. Separazione efficiente del segnale utile dal rumore di fondo

Il sistema utilizza un array di microfoni MEMS omnidirezionali per estrarre, tramite una particolare tecnica di elaborazione numerica chiamata beamforming, solamente determinati angoli, chiamati beams. Quest’algoritmo è eseguito due volte per filtrare l'audio proveniente dall'utente ed il disturbo privato della voce.
In seguito per attenuare ulteriormente il disturbo dal primo beam è utilizzato un filtro di echo cancelling, il quale si occuperà di processare il segnale proveniente da questi due streams per cancellare dal primo gran parte del rumore.
Può essere utile a seconda dello scenario poter identificare quando l'utente parla al fine di inviare i dati al sistema di speech recognition solamente quando serve risparmiando sulla quantità di campioni da inviare e processare. L'utilizzo di un algoritmo di Voice Activity Detection (VAD) è necessario dunque per sapere quando inviare l'audio precedentemente processato al PC o allo Smartphone.
Sono quindi proposte due architetture basate sul microprocessore STM32F439 che permettano di migliorare sia l'intelligibilità del parlato che il Signal to Noise Ratio (SNR). L'audio è inviato al device a seconda dello scenario tramite USB oppure wireless per mezzo della tecnologia Bluetooth.
In seguito è descritta l'implementazione degli algoritmi sulla piattaforma embedded, in particolare misurandone le performance sia in numero di operazioni al secondo Mega Istruction per Second (MIPS), sia in termine di dimensione del codice.
Infine sono mostrati i risultati dei test eseguiti sia sul sistema di beamforming ed echo cancelling che dal punto di vista del riconoscimento vocale.

File

Nome file	Dimensione
tesi.pdf	6.15 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-08272014-093644