Thesis etd-09172011-123034 |
Link copiato negli appunti
Thesis type
Tesi di laurea specialistica
Author
BARTALESI LENZI, VALENTINA
URN
etd-09172011-123034
Thesis title
L'annotazione dell'aspetto verbale per il trattamento automatico della lingua italiana: esperimenti e valutazioni
Department
INTERFACOLTA'
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Lenci, Alessandro
Keywords
- aspetto verbale
- aspettualità
- azionalità
- azione verbale
- corpora linguistici
- CrowdFlower
- crowdsourcing
- elaborazione temporale
- NLP
Graduation session start date
06/10/2011
Availability
Full
Summary
Il riconoscimento e l’annotazione dell’aspetto e dell’azione verbale si configurano come task complessi, in cui interagiscono allo stesso tempo vari livelli di elaborazione linguistica. Proprio a causa della difficoltà di risoluzione dei problemi che riguardano il dominio tempo-aspettuale, l’indagine svolta in questo lavoro si è sviluppata secondo un processo gerarchicamente ordinato in livelli di difficoltà crescente. Tenendo presente che l’orizzonte di riferimento è costituito dalla creazione di risorse annotate per sistemi di Natural Language Processing (NLP), si è cercato, innanzitutto, di rispondere a tre domande riguardanti lo stato dell’arte:
1. Esistono schemi di annotazione che contemplano l’etichettatura di azione e aspetto verbale?
2. Se e quali sono le risorse annotate attualmente disponibili che riportano questi tipi di informazione?
3. Quali e quanti sono i sistemi automatici disponibili utilizzati per la creazione di risorse linguistiche di questo tipo o che sfruttano questi dati per il proprio l’addestramento?
Un’attenzione particolare è stata rivolta all’analisi dello schema di annotazione TimeML (Pustejovsky et al., 2003), per l’annotazione di eventi, espressioni temporali e delle loro relazioni, nell’ottica di indagare se e in quale misura vengono proposte metodologie per l’annotazione di aspettualità e azionalità e se queste sono sufficientemente esaurienti ed esaustive.
Il lavoro svolto in questa tesi si giustifica proprio alla luce dei risultati ottenuti da quest’analisi. È risultato evidente, infatti, come l’annotazione aspettuale non sia molto diffusa nei corpora, con particolare riferimento alla marcatura dell’aspetto abituale. Tale mancanza è spesso giustificata con l’elevata difficoltà nel distinguere le varie tipologie di aspetto verbale: proprio dalla verifica di questa asserzione prende avvio l’esperimento svolto in questa tesi e l’idea di utilizzare la piattaforma di crowdsoucing CrowdFlower per testare la capacità di utenti non linguisticamente addestrati di individuare una particolare tipologia aspettuale, ovvero l’aspetto afferente alla classe dell’imperfettività gnomica (Bertinetto e Lenci, 2011).
La decisione di marcare l’imperfettività gnomica (aspetti abituale, attitudinale, potenziale, generico e Individual Level predicate) è stata dettata dall’interesse per l’individuazione, all’interno dei testi, di frasi che esprimono una generalizzazione di qualche tipo oppure una proprietà che caratterizza un soggetto per un intero periodo della sua vita o per tutta la sua esistenza. Si è cercato, quindi, di capire se possa essere utile/possibile marcare questa particolare classe aspettuale in prospettiva di un’estrazione automatica di informazione di senso comune (Singh, 2002) da testi scritti.
1. Esistono schemi di annotazione che contemplano l’etichettatura di azione e aspetto verbale?
2. Se e quali sono le risorse annotate attualmente disponibili che riportano questi tipi di informazione?
3. Quali e quanti sono i sistemi automatici disponibili utilizzati per la creazione di risorse linguistiche di questo tipo o che sfruttano questi dati per il proprio l’addestramento?
Un’attenzione particolare è stata rivolta all’analisi dello schema di annotazione TimeML (Pustejovsky et al., 2003), per l’annotazione di eventi, espressioni temporali e delle loro relazioni, nell’ottica di indagare se e in quale misura vengono proposte metodologie per l’annotazione di aspettualità e azionalità e se queste sono sufficientemente esaurienti ed esaustive.
Il lavoro svolto in questa tesi si giustifica proprio alla luce dei risultati ottenuti da quest’analisi. È risultato evidente, infatti, come l’annotazione aspettuale non sia molto diffusa nei corpora, con particolare riferimento alla marcatura dell’aspetto abituale. Tale mancanza è spesso giustificata con l’elevata difficoltà nel distinguere le varie tipologie di aspetto verbale: proprio dalla verifica di questa asserzione prende avvio l’esperimento svolto in questa tesi e l’idea di utilizzare la piattaforma di crowdsoucing CrowdFlower per testare la capacità di utenti non linguisticamente addestrati di individuare una particolare tipologia aspettuale, ovvero l’aspetto afferente alla classe dell’imperfettività gnomica (Bertinetto e Lenci, 2011).
La decisione di marcare l’imperfettività gnomica (aspetti abituale, attitudinale, potenziale, generico e Individual Level predicate) è stata dettata dall’interesse per l’individuazione, all’interno dei testi, di frasi che esprimono una generalizzazione di qualche tipo oppure una proprietà che caratterizza un soggetto per un intero periodo della sua vita o per tutta la sua esistenza. Si è cercato, quindi, di capire se possa essere utile/possibile marcare questa particolare classe aspettuale in prospettiva di un’estrazione automatica di informazione di senso comune (Singh, 2002) da testi scritti.
File
Nome file | Dimensione |
---|---|
TesiBartalesi.pdf | 921.93 Kb |
Contatta l’autore |