ETD system

Electronic theses and dissertations repository

 

Tesi etd-08272014-093644


Thesis type
Tesi di laurea magistrale
Author
PALLA, ALESSANDRO
URN
etd-08272014-093644
Title
Progettazzione, realizzazzione e collaudo di un interfaccia vocale uomo-macchina basata su array di microfoni MEMS per persone diversamente abili
Struttura
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA ELETTRONICA
Supervisors
tutor Ing. Sannino, Roberto
relatore Prof. Fanucci, Luca
Parole chiave
  • Speech Enanchment
  • Beamforming
  • Echo Cancelling
  • Voice Activity Detection
  • VAD
  • Speech Recognition
  • Speex
  • Dragon Naturally Speaking
  • Google Speech API
Data inizio appello
26/09/2014;
Consultabilità
Completa
Riassunto analitico
In questo lavoro sono analizzate le problematiche che le persone con disabilità motoria affrontano giornalmente nell'approccio alla tecnologia, in particolare riguardo all'accesso a Personal Computer (PC) e smartphone.
Il target di disabili di riferimento è quello con problemi riguardanti la sfera moto-sensoriale, ma senza difficoltà dal punto di vista linguistico-lessicale, poiché un'utenza di questo tipo può accedere alla tecnologia mediante controllo vocale. Purtroppo l'interfacciamento vocale può risultare impraticabile in diversi scenari poiché questi sistemi tipo hanno il vincolo molto stringente di richiedere un ambiente privo di rumore per avere un buon riconoscimento.
Dopo un'attenta analisi degli scenari in cui la condizione precedente non può essere soddisfatta, sarà discussa un’architettura hardware/software per ovviare a queste problematiche. In particolare il lavoro centrale di questa tesi è lo sviluppo di una piattaforma embedded il cui compito è filtrare il segnale audio proveniente da uno o più microfoni mirando a incrementare:

. Intelligibilità del parlato
. Separazione efficiente del segnale utile dal rumore di fondo

Il sistema utilizza un array di microfoni MEMS omnidirezionali per estrarre, tramite una particolare tecnica di elaborazione numerica chiamata beamforming, solamente determinati angoli, chiamati beams. Quest’algoritmo è eseguito due volte per filtrare l'audio proveniente dall'utente ed il disturbo privato della voce.
In seguito per attenuare ulteriormente il disturbo dal primo beam è utilizzato un filtro di echo cancelling, il quale si occuperà di processare il segnale proveniente da questi due streams per cancellare dal primo gran parte del rumore.
Può essere utile a seconda dello scenario poter identificare quando l'utente parla al fine di inviare i dati al sistema di speech recognition solamente quando serve risparmiando sulla quantità di campioni da inviare e processare. L'utilizzo di un algoritmo di Voice Activity Detection (VAD) è necessario dunque per sapere quando inviare l'audio precedentemente processato al PC o allo Smartphone.
Sono quindi proposte due architetture basate sul microprocessore STM32F439 che permettano di migliorare sia l'intelligibilità del parlato che il Signal to Noise Ratio (SNR). L'audio è inviato al device a seconda dello scenario tramite USB oppure wireless per mezzo della tecnologia Bluetooth.
In seguito è descritta l'implementazione degli algoritmi sulla piattaforma embedded, in particolare misurandone le performance sia in numero di operazioni al secondo Mega Istruction per Second (MIPS), sia in termine di dimensione del codice.
Infine sono mostrati i risultati dei test eseguiti sia sul sistema di beamforming ed echo cancelling che dal punto di vista del riconoscimento vocale.
File