logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-08292024-111235


Tipo di tesi
Tesi di laurea magistrale
Autore
CAPARRINI, BIANCA
URN
etd-08292024-111235
Titolo
Skill Foresight Through Natural Language Processing: design of a new methodology and a case study
Dipartimento
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Corso di studi
INGEGNERIA GESTIONALE
Relatori
relatore Prof.ssa Martini, Antonella
correlatore Ing. Giordano, Vito
correlatore Chiarello, Filippo
Parole chiave
  • competence analysis
  • generative artificial intelligence (gen ai)
  • named entity recognition (ner)
  • natural language processing (nlp)
  • skill intelligence
  • text mining
Data inizio appello
02/10/2024
Consultabilità
Non consultabile
Data di rilascio
02/10/2027
Riassunto
Questo lavoro di tesi è il risultato di una Borsa di Ricerca, della durata di sei mesi, dal titolo “Sviluppo di una metodologia di skill intelligence”, nell’ambito del progetto PRA 2022-24: EduSkillMeter, a text mining based tool to support universities & companies to be in line with SDGs. Il lavoro ha previsto lo svolgimento delle seguenti attività: (1) analisi della letteratura sulle tecniche di skill intelligence, con particolare focus sul Natural Language Processing; (2) progettazione di una metodologia per l’analisi delle skill, tramite tecniche di Natural Language Processing (NLP); (3) sviluppo di metodi di valutazione e validazione della metodologia proposta; (4) applicazione della metodologia di skill intelligence al dominio di conoscenza dell’Intelligenza Artificiale. A conclusione del lavoro di tesi sono stati discussi i risultati e identificate delle linee guida per l’analisi delle skill individuate all’interno dei dati testuali nel dominio scelto per il caso di studio.
La metodologia proposta si compone di cinque step: (1) raccolta dei dati, (2) costruzione del sistema di NER, (3) pulizia dei risultati, (4) analisi e (5) interpretazione dei risultati.
La fase di raccolta dei dati (1) riguarda l'identificazione delle fonti rilevanti, la costruzione di query efficaci per estrarre dati relativi al dominio scelto e, infine, l'esecuzione della preparazione dei dati per garantire che il testo sia accurato e pulito per le fasi successive.
La fase di costruzione del sistema di NER (2) mira a sviluppare e perfezionare il sistema stesso, analizzando e selezionando prima le variabili rilevanti, ordinando i dati e implementando gli approcci di NER. A seguito di ciò, la performance del sistema viene valutata attraverso l'identificazione e la misurazione di metriche di performance. Il filtraggio del rumore viene effettuato identificando gli indicatori di rumore, impostando soglie e misurando il rumore per garantire l'accuratezza e l'affidabilità del sistema.
La fase di pulizia dei risultati (3) ha lo scopo di migliorare la qualità e la rilevanza dell'output del sistema NER, identificando e applicando metodi per aumentare recall e precision e raggruppando le competenze per ridurre la dimensione dei dati e fornire un'interpretazione più sintetica.
La fase di analisi dei risultati (4) serve ad analizzare gli esiti del sistema di NER, calcolando le occorrenze dei termini di competenza, eseguendo un'analisi grammaticale di questi termini e visualizzando i dati per ottenere approfondimenti sulle competenze rilevate.
Infine, la fase di interpretazione dei risultati (5) permette di dare un significato ai dati analizzati e tradurre i risultati ottenuti in informazioni e applicabili nel contesto specifico.

This thesis work is the result of a six-month Research Fellowship titled “Development of a Skill Intelligence Methodology” within the PRA 2022-24 project: EduSkillMeter, a text mining-based tool to support universities & companies in aligning with the SDGs. The work involved the following activities: (1) a literature review on skill intelligence techniques, with a particular focus on Natural Language Processing; (2) the design of a methodology for skill analysis using Natural Language Processing (NLP) techniques; (3) the development of evaluation and validation methods for the proposed methodology; (4) the application of the skill intelligence methodology to the knowledge domain of Artificial Intelligence. At the conclusion of the thesis work, the results were discussed, and guidelines were identified for the analysis of the skills identified within the textual data in the chosen domain for the case study.
The proposed methodology consists of five steps: (1) data collection, (2) NER system building, (3) results cleaning, (4) results analysis, and (5) results interpretation.
The data collection phase (1) involves identifying relevant sources, constructing effective queries to extract data related to the chosen domain, and finally performing data preparation to ensure that the text is accurate and clean for the subsequent phases.
The NER system building phase (2) aims to develop and refine the system itself by first analysing and selecting relevant variables, tidying the data, and implementing NER approaches. Following this, the system's performance is evaluated through the identification and measurement of performance metrics. Noise filtering is performed by identifying noise indicators, setting thresholds, and measuring the noise to ensure the system's accuracy and reliability.
The results cleaning phase (3) aims to improve the quality and relevance of the NER system's output by identifying and applying methods to increase recall and precision and by clustering the competencies to reduce data size and provide a more synthetic interpretation.
The results analysis phase (4) serves to analyse the NER system's outcomes by calculating the occurrences of competence terms, performing a grammatical analysis of these terms, and visualising the data to gain insights into the identified competencies.
Finally, the results interpretation phase (5) allows for giving meaning to the analysed data and translating the obtained results into useful and applicable information within the specific context.
File