logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-02042015-150535


Tipo di tesi
Tesi di laurea specialistica
Autore
ATZENI, CLAUDIO
URN
etd-02042015-150535
Titolo
Progettazione e realizzazione di un algoritmo per l'analisi del linguaggio naturale basata sul paradigma emergente
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA INFORMATICA PER LA GESTIONE D'AZIENDA
Relatori
relatore Vaglini, Gigliola
relatore Bechini, Alessio
relatore Dott. Cimino, Mario Giovanni Cosimo Antonio
Parole chiave
  • natural language processing
  • paradigma emergente
  • web come corpus
Data inizio appello
20/02/2015
Consultabilità
Completa
Riassunto
L’approccio tradizionale per la realizzazione di software di controllo grammaticale per il linguaggio naturale si basa su modelli che provengono dalla linguistica computazionale.
In tale ambito, ci si concentra su formalismi descrittivi del funzionamento del linguaggio
naturale, tali che si possano trasformare in programmi eseguibili dai computer.
Similmente, l’approccio didattico tradizionale per l’insegnamento delle lingue si basa sulle
regole della grammatica, una successione finita di regole necessarie alla corretta costruzione di frasi, sintagmi e parole. In sostanza, in entrambi gli approcci si adopera un paradigma prescrittivo o normativo, in cui la correzione dell’uso della lingua si basa su regole già determinate preliminarmente da un gruppo di studiosi del settore. Dal punto di vista ingegneristico tale approccio si definisce top­down, e richiede la codifica nel software di regole esplicite stabilite da esperti di dominio. Questo approccio ha diversi limiti: (a) per cogliere le varie eccezioni e sfumature della lingua naturale occorre modellare un’ampia casistica di eccezioni; (b) ci sono lingue che non sono strutturabili in tal modo; (c) è difficile rincorrere l’evoluzione moderna delle lingue naturali (es. influenze
di lingue straniere). Consideriamo invece la lingua naturale quale fenomeno sociale emergente, che non prevede alcuna elicitazione di regole. Infatti, la maggioranza delle persone parla correntemente la propria lingua senza ricordare in modo esplicito le regole grammaticali, ma semplicemente tenendo a mente degli esempi e formulando frasi smontando e rimontando tali esempi. Un individuo medio ha in memoria qualche migliaio di termini e modi di dire, ed al posto delle regole grammaticali adopera semplici regole di interscambio dei termini di tali modi di dire. Ad esempio, sa che “Francesco” e “Fernanda” hanno la medesima valenza in termini strutturali. Nei corsi moderni di insegnamento delle lingue, ci si basa molto sull’uso della medesima in vari contesti, per consentire l’emergere di tale consapevolezza di interscambio. Nella progettazione di software che analizza i periodi con tale approccio occorrono nuovi paradigmi funzionali e architetturali, e un’ampia casistica, quest’ultima è fornita dal Web.
File