Thesis etd-07012021-132542 |
Link copiato negli appunti
Thesis type
Tesi di laurea magistrale
Author
PESCATORI, IRENE
URN
etd-07012021-132542
Thesis title
Clustering e riconoscimento automatico di argomenti su testi relativi a brevetti in ambito sanitario
Department
MATEMATICA
Course of study
MATEMATICA
Supervisors
relatore Romito, Marco
tutor Pavanello, Tommaso
controrelatore Trevisan, Dario
tutor Pavanello, Tommaso
controrelatore Trevisan, Dario
Keywords
- Natural Language Processing
- soft clustering
- sperimentazione Python
- topic modeling
- word embeddings
Graduation session start date
16/07/2021
Availability
Withheld
Release date
16/07/2091
Summary
In questo elaborato vengono proposte alcune procedure di NLP per il trattamento di testi tecnici. Nella prima parte sono definiti i concetti teorici di interesse mentre nella seconda sono descritte le analisi sperimentali svolte. Nel primo capitolo vengono analizzate diverse procedure di clustering adatte per l'identificazione della struttura semantica sottostante i dati testuali. In particolare sono descritte procedure di clustering non-esclusivo, come Gaussian Mixtures e Fuzzy C-Means e diversi algoritmi per la calibrazione dei loro iperparametri. Nel secondo capitolo vengono approfondite tre differenti tecniche di rappresentazione vettoriale del linguaggio naturale (Latent Semantic Analysis (LSA), Neural word embeddings e Brown clusters) e alcuni metodi per la loro valutazione. Nel terzo capitolo vengono esaminati diversi modelli statistici, detti topic models, capaci di catturare le informazioni tematiche dai dati testuali. Infine nell'ultimo capitolo viene riportato lo studio sperimentale condotto nella tesi, svolto in parte attraverso un tirocinio presso Errequadro s.r.l., il cui obiettivo principale è studiare modalità di classificazione non supervisionata di documenti tecnici, in particolare brevetti in ambito sanitario, nel caso in cui le classi di attribuzione non siano tutte note a priori, lasciando aperta la possibilità di attribuire i documenti a più di una singola classe.
File
| Nome file | Dimensione |
|---|---|
The thesis is not available. |
|