ETD system

Electronic theses and dissertations repository

 

Tesi etd-05292019-135515


Thesis type
Tesi di laurea magistrale
Author
BUFFONI, NICOLA
URN
etd-05292019-135515
Title
The Soft Skill Extractor: Text Mining Techniques applied to Heterogeneous Data Sources
Struttura
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Corso di studi
INGEGNERIA GESTIONALE
Supervisors
relatore Prof. Fantoni, Gualtiero
correlatore Dott.ssa Fareri, Silvia
Parole chiave
  • natural language procesing
  • named entity recognition
  • job profile
  • extraction
  • ESCO
  • dictionary
  • data set
  • cluster analysis
  • clue
  • BIO tagging
  • algorithm
  • O*NET
  • Scopus papers
  • soft skills
  • text mining
Data inizio appello
19/06/2019;
Consultabilità
Secretata d'ufficio
Data di rilascio
19/06/2089
Riassunto analitico
Sommario
Il fenomeno “Industria 4.0” è definito come un trend di automazione e scambio di dati, basati sull’introduzione di nuove tecnologie e le loro interconnessioni. Il nuovo paradigma avrà inevitabilmente ripercussioni eterogenee e difficilmente prevedibili, alcune delle quali impattano sul mondo del lavoro. In merito a ciò, si evidenzia la crescente integrazione delle competenze per alcune figure professionali, la nascita di profili ex novo e l’eliminazione di altri. Inoltre, nell’era dell’innovazione tecnologica, come dichiarato da (Frey, 2017), a subire l’impatto più forte saranno le professioni caratterizzate da task routinari, al contrario di quelle la cui componente cognitiva-relazionale risulta preponderante. A fronte di ciò, lo scopo della presente tesi è stato la creazione e sviluppo di un Tool di Text-Mining basato su sistemi di Named Entity Recognition, capace di riconoscere ed estrarre “Soft Skills” da qualsiasi fonte testuale, strutturata e non. Nel dettaglio, i tool di NER, selezionata una determinata classe semantica, mirano ad estrarre tutte le parole che vi appartengono. Nella prima fase dell’analisi è stata condotta una rassegna della letteratura, che ha consentito di individuare una lista iniziale di 116 “soft skills”. Quest’ultima è stata riproiettata su 4084 paper di psicologia e management e ampliata automaticamente, catturando le parole nell’intorno degli elementi di partenza. Successivamente, la lista espansa è stata riproiettata su due database di skill internazionalmente riconosciuti (ESCO e O*NET), con lo scopo di valutare attraverso una cluster analysis (e il corrispondente grafo delle relazioni), convergenze di professioni sulla base di soft skills condivise. Le evidenze emerse dall’analisi sono risultate essere ad alto valore strategico e a supporto dell’ottimizzazione dei processi di re-skilling aziendali, mentre il tool ha dato prova di essere adattabile, efficiente e scalabile.

Abstract
The phenomenon "Industry 4.0" is defined as a trend of automation and data exchange, based on the introduction of new technologies and their interconnections. The new paradigm will inevitably have heterogeneous and difficult to predict repercussions, some of which have an impact on the Labour Market. In this context, there is a growing integration of skills for some professional figures, the creation of new profiles and the elimination of others. Moreover, in the age of technological innovation the professions characterized by routine tasks will suffer the greatest impact, as opposed to those whose cognitive-relational component is predominant (Frey1, 2017). Against this, the aim of this thesis was the creation and development of a Text-Mining Tool based on Named Entity Recognition systems, capable of recognizing and extracting "Soft Skills" from any textual source, structured or not. In detail, the tools of NER, selected a certain semantic class, aim to extract all the words that belong to it. In the first phase of the analysis a literature review was conducted, which allowed to identify an initial list of 116 "soft skills". This list was projected on 4084 psychology and management papers and automatically expanded, capturing the words around the starting elements. Subsequently, the expanded list was re-projected on two internationally recognized skill databases (ESCO and O*NET), with the aim of assessing through a cluster analysis (and the corresponding graph of relationships), convergences of professions on the basis of shared soft skills. The evidence emerging from the analysis was found to be of high strategic value and to support the optimization of corporate re-skilling processes, while the tool has proven to be adaptable, efficient and scalable.
File