logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-06302017-121959


Thesis type
Tesi di laurea magistrale
Author
BARILARI, GIANLUCA
URN
etd-06302017-121959
Thesis title
Advanced Methods for Technology Mapping and Intelligence
Department
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Course of study
INGEGNERIA GESTIONALE
Supervisors
relatore Prof. Bonaccorsi, Andrea
correlatore Dott. Chiarello, Filippo
Keywords
  • clustering
  • industry 4.0
  • patent analysis
  • text mining
Graduation session start date
19/07/2017
Availability
Full
Summary
L'ultimo decennio ha visto il moltiplicarsi delle tecniche di Data Mining, contestualmente alla nascita di un nuovo background culturale.
All'interno della pletora di tecniche emerse, la definizione di Text Mining racchiude strumenti e metodi utilizzati nell'analisi documentale.
Questo lavoro ha lo scopo di definire una nuova metodologia, basata sul concetto di Features, intese come parole singole o multiple in grado di descrivere il documento tramite il suo contenuto tecnico. Selezionando il giusto set di Features è infatti possibile analizzare la similarità tra documenti appartenenti ad un medesimo corpus in maniera performante, ottenendo preziose informazioni da essi.
Lo strumento utilizzato a tale scopo è la Matrice Documenti-Features, punto di partenza per le successive analisi di similarità attraverso cui costruire successivamente i cluster contenenti gli oggetti più simili tra loro.
La metodologia è stata validata usando un primo set brevettuale contenente invenzioni catalogate secondo quattro differenti categorie IPC, già conosciute in partenza. I risultati ottenuti dimostrano come sia possibile selezionare appropriatamente un dizionario in maniera tale da ottenere una distinzione tra i documenti che rispecchi le loro differenze tecnologiche, certificate tramite la classe di appartenenza.
Il Caso Studio successivo ha riguardato l'applicazione della tecnica alla ricerca di brevetti nel campo Industry 4.0; l'attività è stata svolta in collaborazione con Errequadro Srl. nell'ambito di una application per EPO. Stavolta è stato testato il Technimetro 4.0, un dizionario contenente Features afferenti al concetto di Industria 4.0. L'oggetto di analisi, dopo una prima scrematura su quattro tecnologie (Augmented/virtual reality, Barcode/RFID, Blockchain), ha riguardato l'analisi di brevetti legati a Blockchain.

Data Mining techniques acquired growing importance during the last decade, contextually to the born of a new industrial background. In this situation of innovative turbulence is fundamental to delineate methods to be able to detect and map emerging technologies; monitoring patents and technical papers, particularly, could give the meter of how new paradigms born and raised.
Text Mining is the global definition of tools and tasks used to analyze documents, including clustering algorithms, citation analysis, co-word analysis, overlay mapping, pattern recognition.
This work aims to define a new method for Text Mining, basing on the concept of Features, intended as single or multiple words able to describe a document in its technical content. Selecting the proper set of features to analyze patents could give useful information on how a patent set is composed, and what are the relations between documents. Various sets of features were tested, using Document-feature matrices to relate terms with their occurrences in each document; these information gave a measure of similarity by which clustering patents in order to observe their distribution, using both a graphical visualization and a clustering algorithm of new conception.
The method was validated using a known set of patents, pertaining to four di erent IPC classes, chosen for the verticality between two of them and the transversal position of the remaining two, with characteristics common with both of them. The results obtained demonstrated that is possible to maximize distances between patent classes by selecting suitable sets of features; in particular it emerges that a set of Actions qualifies for distinguish patents.
Once validated, the method was applied to a Case Study to retrieve patents in the environment of Industry 4.0 concept. The activity was done in collaboration with Errequadro Srl, due to apply for a EPO project. The aim of the work was to test Technimeter 4.0, a list of features consisting in technologies of Industry 4.0; firstly the terms were used to make queries for retrieving patents related to three technologies (Augmented/virtual reality, Barcode/RFID, Blockchain), then the patent set containing documents about Blockchain was analyzed using the method described above and the features of the Technimeter.
File