logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05102021-141605


Tipo di tesi
Tesi di laurea magistrale
Autore
CARIELLO, MARIA CARMELA
URN
etd-05102021-141605
Titolo
A comparison between named entity recognition models in the biomedical domain
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Lenci, Alessandro
correlatore Prof. Mitkov, Ruslan
Parole chiave
  • biomedical NLP
  • named entity recognition
  • natural language processing
  • machine learning
  • deep learning
Data inizio appello
28/05/2021
Consultabilità
Non consultabile
Data di rilascio
28/05/2091
Riassunto
La Named Entity Recognition (NER) è un task di Information Extraction (IE) che si pone l'obiettivo di riconoscere e classificare le cosiddette Entità Nominate (EN) all'interno di dati non strutturati, come articoli di giornale o altro tipo di testo libero. Le entità nominate sono classificate in categorie semantiche predefinite come "persona", "organizzazione", "luogo", "espressione temporale", "valuta" e altre. Nel campo del Natural Language Processing (NLP), la NER non viene utilizzata solo come strumento per IE, ma gioca un ruole essenziale in una grande varietà di task di NLP come l' information retrieval, la text summarization, il machine translations e la question answering. Un'applicazione dominio-specifica della NER è conosciuta come Biomedical Named Entity Recognition (BioNER) ed ha lo scopo di identificare e classificare termini tecnici che si riferiscono a concetti chiave che interessano i ricercatori nell'ambito biomedico, come per esempio "geni", "prodotti di geni", "malattie", "sostanze chimiche", "mutazioni" e così via, all'interno di testo non strutturato che appartiene al dominio biomedico. Il task di BioNER è molto simile a quello della NER tradizionale, ma riconoscere Entità Nominate Biomediche (BNE) viene generalmente ritenuto più difficile che riconoscere nomi propri all'interno di articoli di giornale o di testi tecnici. Nonostante gran parte della ricerca scientifica si sia concentrata nello sviluppo di sistemi in grado di estrarre BNE come geni e proteine in articoli della letteratura scientifica, oggi i tool di BioNER possono essere applicati per individuare e classificare molti tipi di entità in ogni tipo di testo relativo al campo medico, comprese note cliniche, registri di dimissioni e persino report di radiologia.
La BioNER è considerato un task più difficile della NER tradizionale perché estrarre entità nominate dai testi biomedici è complicato da una serie di fattori. Innanzitutto i testi biomedici sono caratterizzati dall'uso di un vocabolario tecnico e complesso che viene continuamente arricchito di nuovi termini. Inoltre, le EN sono spesso lunghe sequenze di parole che contengono al loro interno caratteri controllati, presentano un grande numero di sinonimi, possono essere espresse con abbreviazioni e sono spesso parole Out-Of-Vocabulary (OOV). In questo lavoro, ho addestrato sette modelli di Machine Learning (ML) su due diversi datasets biomedici con l'obiettivo di risolvere le sfide poste dal task di BioNER. Per l'addestramento e la valutazione di questi modelli, sono stati usati due noti corpora: JNLPBA e BIOCREATIVE IV (BC-IV). Entrambi i corpora contengono abstract di articoli della letteratura scientifica scaricati tramite MEDLINE e PUBMED e sono stati annotati manualmente da esperti del settore. Seguendo l'approccio sequenziale, ho implementato i sette modelli con l'obiettivo di fare un confronto e stabilire quale modello riesce ad ottenere i risultati migliori sui due dataset. Come modello "baseline" ho scelto un modello di ML tradizionale conosciuto come Conditional Random Fields (CRF), mentre gli altri modelli sono modelli neurali. Sei di questi sono basati su una classica architettura encoder-decoder. Un primo modello utilizza un tipo di rete neurale ricorrente chiamata Bidirectional-LSTM e come strato di decoder uno strato Softmax. In un secondo modello, ho poi provato a sostituire Softmax con CRF. Ho poi provato a potenziare quest'ultimo modello con diversi modelli di rappresentazione distribuita. Ho utilizzato vettori di embedding pre-addestrati come FastText e GloVe, prendendo in considerazione anche un tipo di rappresentazione character-level. Per codificare le informazioni a livello dei caratteri, vettori di caratteri e una rete LSTM sono stati impiegati in modo da ottenere delle rappresentazioni delle parole basate sui caratteri. Queste rappresentazioni vengono poi concatenate con le rappresentazioni estratte da Glove e l'output finale viene inviato all'encoder Bi-LSTM. Un altro modello ancora prende in considerazione anche gli embedding word- e character-level di tipo "contextualized". A questo proposito ho utilizzato ELMo, un metodo che permette di ottenere una rappresentazione per le parole che dipende dall'intero contesto in cui viene usata. Infine, seguendo i progressi recenti nel campo del NLP, ho utilizzato per l'ultimo modello un'architettura basata sui Transformers, chiamata BERT, un sistema pre-addestrato che viene impiegato in modalità fine-tuned per risolvere una serie di task di NLP, incluso la NER. BERT viene considerato un progresso rivoluzionario nel campo dell'NLP in quanto ha permesso di raggiungere nuovi risultati state-of-the-art. Per la valutazione e il confronto tra i modelli, Precision, Recall e F1-score sono stati utilizzati come punteggi di valutazione delle performance. Come criteri di valutazione vengono considerati "strict matching" e "partial matching". I risultati riportati mostrano che il modello BERT supera in termini di performance tutti gli altri modelli, raggiungendo i punteggi più alti su tutte le metriche e avvicinandosi ai risultati state-of-the-art per entrambi i dataset.

Named Entity Recognition (NER) is a subtask of information extraction (IE) that aims to recognize and classify mentions of named entities in unstructured text into pre-defined semantic categories such as person, organizations, locations, time expressions, monetary values, etc. In the field of Natural Language Processing (NLP), NER not only acts as a tool for information extraction (IE), but plays an essential role in a variety of NLP applications such as information retrieval, text summarization, machine translation and question answering. A domain-specialized application of NER is known as Biomedical NER (BioNER), which aims to identify and classify technical terms that refer to key concepts that are of interest to biomedical researchers, such as "genes" and "gene products", "diseases", "chemical compounds", "drugs", "mutations" and so on, in unstructured texts that belong to the biomedical domain. The BioNER task is very similar to general NER but recognizing Biomedical Named Entities (BNEs) is more challenging than recognizing proper names from newspapers or technical text.
Although a large body of BioNER systems are dedicated to extract BNEs, such as gene and protein, in biomedical paper abstracts and in texts that belong to the scientific literature in general, BioNER tools can be applied to find all kinds of entities in any kind of medical related text, clinical notes, discharge summaries and radiology reports included.
BioNER is usually considered a more challenging task compared to regular NER, since extracting NE from biomedical texts is complicated by a number of factors.
First of all, biomedical text is characterized by the usage of complex and technical vocabularies that are continuously enriched with new terms. Moreover, biomedical text is characterized by complex multiword BNEs that could contain numbers and control characters, have large numbers of synonyms, could be expressed with abbreviations, and are often out-of-vocabulary (OOV) words. In this work, I have trained several Machine Learning (ML) models on two biomedical datasets with the aim of solving the challenges posed by the BioNER task. For the training and evaluation of these models, two well-known corpora were used: JNLPBA and BIOCREATIVE IV (BC-IV). Both corpora contain abstracts of scientific literature articles downloaded via MEDLINE and PUBMED and have been manually annotated by biomedical experts. Following a sequence-based approach, I implemented seven ML models with the aim of making a comparison and establishing which model achieves the best results on the two datasets. As the "baseline" model I have chosen a traditional ML model known as Conditional Random Fields (CRF), while the other models are neural models. Six of these are based on a classic encoder-decoder architecture. A first model uses a type of recurrent neural network called Bidirectional-LSTM and a Softmax layer as the decoder layer. In a second model, I then tried replacing Softmax with CRF. I tried to enhance this latter model with different distributed representation models. I used pre-trained embedding vectors such as FastText and GloVe, also taking into account character-level representation. To encode information at the character level, character vectors and an LSTM network were employed to get word encodings by characters. These representations are then combined with the representations extracted from Glove and the final output is sent to the Bi-LSTM encoder. Another model also takes into account "contextualized" word- and character-level embeddings. In this regard, I used ELMo, a method that allows us to obtain a representation for words that depends on the entire context in which it is used. Finally, following the recent advances in the field of NLP, I used for the latest model a Transformers-based architecture, called BERT, a pre-trained system that is used in fine-tuned mode to solve several NLP tasks, including NER. BERT is considered a revolutionary advance in the field of NLP as it has allowed to gain new state-of-the-art achievements. For the evaluation and comparison between the models, Precision, Recall and F1-score were used as performance evaluation scores. "Strict matching" and "partial matching" are considered as evaluation criteria. The reported results show that the BERT model outperforms all other models, achieving the highest scores on all metrics and approaching state-of-the-art results for both datasets.
File