ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-07012021-132542


Tipo di tesi
Tesi di laurea magistrale
Autore
PESCATORI, IRENE
URN
etd-07012021-132542
Titolo
Clustering e riconoscimento automatico di argomenti su testi relativi a brevetti in ambito sanitario
Dipartimento
MATEMATICA
Corso di studi
MATEMATICA
Relatori
relatore Romito, Marco
tutor Pavanello, Tommaso
controrelatore Trevisan, Dario
Parole chiave
  • word embeddings
  • soft clustering
  • Natural Language Processing
  • sperimentazione Python
  • topic modeling
Data inizio appello
16/07/2021
Consultabilità
Non consultabile
Data di rilascio
16/07/2091
Riassunto
In questo elaborato vengono proposte alcune procedure di NLP per il trattamento di testi tecnici. Nella prima parte sono definiti i concetti teorici di interesse mentre nella seconda sono descritte le analisi sperimentali svolte. Nel primo capitolo vengono analizzate diverse procedure di clustering adatte per l'identificazione della struttura semantica sottostante i dati testuali. In particolare sono descritte procedure di clustering non-esclusivo, come Gaussian Mixtures e Fuzzy C-Means e diversi algoritmi per la calibrazione dei loro iperparametri. Nel secondo capitolo vengono approfondite tre differenti tecniche di rappresentazione vettoriale del linguaggio naturale (Latent Semantic Analysis (LSA), Neural word embeddings e Brown clusters) e alcuni metodi per la loro valutazione. Nel terzo capitolo vengono esaminati diversi modelli statistici, detti topic models, capaci di catturare le informazioni tematiche dai dati testuali. Infine nell'ultimo capitolo viene riportato lo studio sperimentale condotto nella tesi, svolto in parte attraverso un tirocinio presso Errequadro s.r.l., il cui obiettivo principale è studiare modalità di classificazione non supervisionata di documenti tecnici, in particolare brevetti in ambito sanitario, nel caso in cui le classi di attribuzione non siano tutte note a priori, lasciando aperta la possibilità di attribuire i documenti a più di una singola classe.
File