logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09172011-123034


Tipo di tesi
Tesi di laurea specialistica
Autore
BARTALESI LENZI, VALENTINA
URN
etd-09172011-123034
Titolo
L'annotazione dell'aspetto verbale per il trattamento automatico della lingua italiana: esperimenti e valutazioni
Dipartimento
INTERFACOLTA'
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Lenci, Alessandro
Parole chiave
  • CrowdFlower
  • crowdsourcing
  • corpora linguistici
  • azionalità
  • aspetto verbale
  • azione verbale
  • NLP
  • elaborazione temporale
  • aspettualità
Data inizio appello
06/10/2011
Consultabilità
Completa
Riassunto
Il riconoscimento e l’annotazione dell’aspetto e dell’azione verbale si configurano come task complessi, in cui interagiscono allo stesso tempo vari livelli di elaborazione linguistica. Proprio a causa della difficoltà di risoluzione dei problemi che riguardano il dominio tempo-aspettuale, l’indagine svolta in questo lavoro si è sviluppata secondo un processo gerarchicamente ordinato in livelli di difficoltà crescente. Tenendo presente che l’orizzonte di riferimento è costituito dalla creazione di risorse annotate per sistemi di Natural Language Processing (NLP), si è cercato, innanzitutto, di rispondere a tre domande riguardanti lo stato dell’arte:
1. Esistono schemi di annotazione che contemplano l’etichettatura di azione e aspetto verbale?
2. Se e quali sono le risorse annotate attualmente disponibili che riportano questi tipi di informazione?
3. Quali e quanti sono i sistemi automatici disponibili utilizzati per la creazione di risorse linguistiche di questo tipo o che sfruttano questi dati per il proprio l’addestramento?
Un’attenzione particolare è stata rivolta all’analisi dello schema di annotazione TimeML (Pustejovsky et al., 2003), per l’annotazione di eventi, espressioni temporali e delle loro relazioni, nell’ottica di indagare se e in quale misura vengono proposte metodologie per l’annotazione di aspettualità e azionalità e se queste sono sufficientemente esaurienti ed esaustive.
Il lavoro svolto in questa tesi si giustifica proprio alla luce dei risultati ottenuti da quest’analisi. È risultato evidente, infatti, come l’annotazione aspettuale non sia molto diffusa nei corpora, con particolare riferimento alla marcatura dell’aspetto abituale. Tale mancanza è spesso giustificata con l’elevata difficoltà nel distinguere le varie tipologie di aspetto verbale: proprio dalla verifica di questa asserzione prende avvio l’esperimento svolto in questa tesi e l’idea di utilizzare la piattaforma di crowdsoucing CrowdFlower per testare la capacità di utenti non linguisticamente addestrati di individuare una particolare tipologia aspettuale, ovvero l’aspetto afferente alla classe dell’imperfettività gnomica (Bertinetto e Lenci, 2011).
La decisione di marcare l’imperfettività gnomica (aspetti abituale, attitudinale, potenziale, generico e Individual Level predicate) è stata dettata dall’interesse per l’individuazione, all’interno dei testi, di frasi che esprimono una generalizzazione di qualche tipo oppure una proprietà che caratterizza un soggetto per un intero periodo della sua vita o per tutta la sua esistenza. Si è cercato, quindi, di capire se possa essere utile/possibile marcare questa particolare classe aspettuale in prospettiva di un’estrazione automatica di informazione di senso comune (Singh, 2002) da testi scritti.
File