logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05102012-175512


Tipo di tesi
Tesi di laurea specialistica
Autore
SPRUGNOLI, RACHELE
URN
etd-05102012-175512
Titolo
L'annotazione dei nomi di evento per il trattamento automatico della lingua
Dipartimento
INTERFACOLTA'
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Lenci, Alessandro
Parole chiave
  • CrowdFlower
  • crowdsourcing
  • elaborazione temporale
  • nomi d'evento
  • polisemia
  • trattamento automatico della lingua
Data inizio appello
07/06/2012
Consultabilità
Non consultabile
Data di rilascio
07/06/2052
Riassunto
Il concetto di evento, benché sembri di facile comprensione a livello intuitivo, si dimostra di ardua definizione dal punto di vista formale. La nozione di evento è, infatti, complessa in quanto esso può designare sia una categoria ontologica che una categoria linguistica: dal punto di vista ontologico, un evento esiste ed ha luogo a prescindere dalla sua rappresentazione linguistica mentre quest’ultima è la codifica di una delle possibili concettualizzazioni dell’evento attraverso gli enunciati di una lingua. Il rapporto tra il piano ontologico di un evento e quello della sua codifica linguistica non è, però, di uno ad uno in quanto uno stesso evento può essere espresso usando vari tipi di elementi linguistici. Prototipicamente sono i verbi a denotare gli eventi in contrapposizione ai nomi che denotano invece gli oggetti ma in realtà anche i nomi possono esprimere eventi: questa tesi analizza proprio tali nomi, siano essi derivati da verbi (e.g. "inseguimento") o meno (e.g. "festa").
Dopo aver presentato i nomi d'evento dal punto di vista linguistico ed aver inquadrato il problema della polisemia (e.g. "costruzione" come evento vs. "costruzione" come edificio), la tesi si focalizza sul ruolo dei nomi d'evento nel trattamento automatico della lingua. A questo proposito vengono descritti schemi di annotazione, campagne di valutazione e sistemi per l’elaborazione automatica degli eventi. Particolare attenzione viene dedicata allo schema di annotazione TimeML (Pustejovsky et al., 2005) che riserva un ruolo fondamentale all'identificazione degli eventi nei testi e che si sta affermando come standard a livello internazionale.
L'analisi sullo stato dell'arte dell'annotazione di eventi mostra che tale compito è cruciale per un gran numero di applicazioni ma anche complesso e costoso perché richiede molto tempo e l'intervento di lavoratori esperti. L'esperimento riportato nell'ultimo capitolo della tesi ha lo scopo di valutare l'uso del crowdsourcing nel riconoscimento di nomi d'evento all’interno di frasi in lingua italiana: questo approccio prevede di far eseguire a soggetti non esperti un compito di natura linguistica per ridurre tempi e costi di annotazione mantenendo comunque alta la qualità dei risultati. Attraverso questo esperimento è stato quindi possibile non solo verificare l’affidablità del crowdsourcing per compiti linguistici complessi ma anche valutare se e quanto è intuitivo il riconoscimento di nomi di evento.
File