ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-07012010-182649


Tipo di tesi
Tesi di laurea specialistica
Autore
ZITO, CLAUDIO
URN
etd-07012010-182649
Titolo
Sviluppo di una voce in italiano per Corpus-Based Text-to-Speech con allineamento forzato e correzione statistica context-dependent
Dipartimento
SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di studi
TECNOLOGIE INFORMATICHE
Relatori
relatore Prof. Attardi, Giuseppe
correlatore Dott. Cosi, Piero
correlatore Dott. Tesser, Fabio
controrelatore Prof. Grossi, Roberto
Parole chiave
  • context-dependent
  • correzione statistica
  • TTS
  • allineamento forzato
  • Text-To-Speech
Data inizio appello
16/07/2010
Consultabilità
Completa
Riassunto
Il linguaggio parlato (in inglese speech) è la forma con la quale le persone interagiscono più comunemente tra di loro. Infatti, la forma parlata della lingua pu\`o esprimere molte informazioni riguardanti lo \emph{speaker} oltre al messaggio da trasmettere come, per esempio, l'emozione, la posizione da cui sta parlando e le proprie caratteristiche vocali. Per questi motivi la forma parlata è considerata il mezzo di comunicazione più naturale e conveniente.
Lo sviluppo tecnologico degli ultimi decenni ha reso possibile una crescita di quelle che generalmente vengono chiamate interfacce uomo-macchina, pertanto molti ricercatori si sono interessati allo studio di come applicare lo speech a tale scopo.

I sistemi con la quale si converte un qualsiasi testo in segnale vocale prendono il nome di sistemi "da-testo-a-voce" (in inglese Text-to-Speech, TTS) e sono una delle tecnologie di speech synthesis più diffuse. Questi sistemi trovano la loro applicazione in numerosi campi, per esempio navigatori satellitari, sistemi di annuncio nelle stazioni ferroviarie e sistemi per l'assistenza di persone disabili. Per questi motivi è desiderabile sviluppare TTS che siano in grado di sintetizzare il testo scritto con accuratezza e naturalezza sempre migliori.

I migliori risultati per quanto riguarda accuratezza e naturalezza si sono avuti grazie ai sintetizzatori concatenativi basati du corpus (in inglese corpus-based TTS). La sintesi concatenativa per campioni unitari è una delle possibili tecniche per la sintesi in corpus-based TTS e si appoggia su grandi database di voci registrate. Durante la creazione del database ogni emissione registrata viene frazionata in uno o più di questi segmenti: suoni isolati, sillabe, morfemi, parole, frasi e periodi completi. La frammentazione impiega un riconoscitore di linguaggio modificato appositamente per eseguire un "allineamento forzato", o segmentazione, a cui seguono solitamente interventi di correzione manuali basati su rappresentazioni visive del suono come le forme d'onda e gli spettrogrammi. I campioni sonori vengono indicizzati nel database e durante la sintesi in tempo reale l'emissione finale viene generata sulla base di un algoritmo di decisione ad albero pesato che identifica la miglior sequenza tra i campioni candidati scelti dal database.

La tesi si prefigge un duplice scopo: (1) presentare un nuovo approccio per migliorare l'allineamento forzato dei corpora utilizzati per sistemi di tipo Text-To-Speech con sintesi concatenativa e (2) creare la prima voce italiana per Festival con sintesi concatenativa per campioni unitari.

Principalmente questa tesi è focalizzata nel costruire un modello statistico che, sfruttando la conoscenza di informazioni contestuali estrapolate tramite l'analisi linguistica del testo, sia in grado di predire l'errore sistematico nell'allineamento commesso dall'algoritmo di segmentazione su un ben determinato corpus e, successivamente, utilizzare tale modello per ridurre l'errore di allineamento su corpora registrati dallo stesso speaker. Tale modello prende il nome di statistical-approach context-dependent units boundary correction.

La voce in italiano corpus-based per Festival è stata utilizzata come "banco di prova" per il modello di correzione statistica.
File