logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11142025-173447


Tipo di tesi
Tesi di laurea magistrale
Autore
ORSELLI, CARLOTTA
URN
etd-11142025-173447
Titolo
Generazione di Dati Sintetici per l'Analisi Brevettuale: Definizioni, Applicazioni e Valutazione Empirica delle Performance
Dipartimento
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Corso di studi
INGEGNERIA GESTIONALE
Relatori
relatore Prof. Fantoni, Gualtiero
relatore Dott. Giordano, Vito
relatore Dott. Losanno, Marco
Parole chiave
  • Analisi Brevettuale
  • Dataset sintetici
  • Engineering Design
  • Large Language Model
  • Machine Learning
  • Natural Language Processing
Data inizio appello
04/12/2025
Consultabilità
Non consultabile
Data di rilascio
04/12/2028
Riassunto
Sommario
Con la diffusione dei sistemi di Intelligenza Artificiale (IA), i dati hanno assunto un ruolo centrale quale principale fonte di apprendimento dei modelli di IA e creazione di valore per le imprese. Tuttavia, i dati reali risultano spesso costosi, difficili da scalare e soggetti a vincoli di privacy. In questo contesto cresce l’interesse verso i dati sintetici, ovvero dati artificiali che replicano le principali caratteristiche di quelli reali. Grazie alla possibilità di generare dataset personalizzabili in termini di volume di dati e distribuzioni statistiche, i dati sintetici supportano sia l’addestramento e la validazione dei sistemi di IA, sia lo svolgimento di simulazioni in contesti aziendali, riducendo l’incertezza associata alle decisioni strategiche. In questo contesto, il lavoro di tesi propone un framework per la sintesi e valutazione dei dati artificiali, applicato all’Analisi dei Brevetti. Nel caso studio, sono stati generati dataset di frasi brevettuali sintetiche e valutati sia in termini di somiglianza con i dati reali, sia in termini di performance in un task di Classificazione Testuale. I risultati confermano il ruolo strategico dei dati sintetici a supporto delle attività di innovazione, evidenziando come la sintesi consenta di ridurre tempi e costi e permetta la personalizzazione dei volumi e dei vincoli di generazione.

Abstract
With the diffusion of Artificial Intelligence (AI) systems, data have taken on a central role as the primary source of learning for AI models and value creation for firms. However, real data is often costly to collect, difficult to scale, and subject to privacy constraints. In this context, growing interest has emerged in synthetic data, namely artificial data that replicate the main characteristics of real data. Owing to the possibility of generating datasets customizable in terms of data volume and statistical distributions, synthetic data supports both training and validation of AI systems and the execution of simulations within firms, reducing uncertainty in strategic decision-making. In this context, the thesis proposes a framework for generation and evaluation of synthetic data applied to Patent Analysis. In the case study, datasets of synthetic patent-style sentences were evaluated both in terms of similarity to real data and performance in a text classification task. The results confirm the strategic role of synthetic data in supporting innovation activities, showing how data synthesis reduces time and costs and enables the customization of data volumes and generation constraints.
File