logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01142022-185652


Tipo di tesi
Tesi di laurea magistrale
Autore
BIANCHI, JOHN
Indirizzo email
j.bianchi3@studenti.unipi.it, john.lenci.bianchi@gmail.com
URN
etd-01142022-185652
Titolo
Riconoscimento automatico di nomi scientifici di specie in testi per le indicizzazioni documentali FAO
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Coro, Gianpaolo
correlatore Prof.ssa Simi, Maria
Parole chiave
  • Specie scientifiche
  • Rule-based NER
  • Riconoscimento automatico
  • Open Science
  • NER
  • Indicizzazione
  • FAO
  • FAIR
  • ASFA
Data inizio appello
31/01/2022
Consultabilità
Completa
Riassunto
Nell’ambito del progetto europeo iMarine (2011-2014), un nucleo di esperti ha identificato un insieme ampio di regole ed eccezioni che consentissero di costruire un sistema a regole per identificare nomi scientifici di specie in un testo. Il presente studio, implementa proprio tale sistema, in maniera computazionalmente efficiente, e lo integra in un NER offerto come Web service ad ASFA per le indicizzazioni documentali automatiche. Il NER sviluppato è stato concepito per essere sufficientemente flessibile da riconoscere anche i termini notevoli usati nei documenti ASFA (thesauri). Esso si basa su una ampia base di conoscenza di nomi scientifici di specie (GBIF), disponibile grazie agli investimenti pregressi della Comunità Europea nei dati Findable, Accessible, Interoperable and Re-usable (FAIR) per il monitoraggio della biodiversità mondiale. Il NER realizzato è stato integrato nell’infrastruttura digitale D4Science del CNR e pubblicato mediante un’interfaccia Web (nlp.d4science.org/asfa/) e un sistema di cloud computing ad accesso standardizzato (DataMiner), che permette di parallelizzare le ricerche dei termini su più core e di gestire molteplici richieste utente contemporanee (mediante l’uso di una rete di macchine virtuali).
File