logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03112026-202517


Tipo di tesi
Tesi di laurea magistrale
Autore
RAGUSA, MICHELE
URN
etd-03112026-202517
Titolo
Generazione di dati sintetici per l'engineering design: caso studio sulla classificazione di frasi per l'analisi dei brevetti
Dipartimento
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Corso di studi
INGEGNERIA GESTIONALE
Relatori
relatore Prof. Fantoni, Gualtiero
tutor Dott. Losanno, Marco
Parole chiave
  • Analisi dei Brevetti
  • Classificazione del Testo
  • Data Augmentation
  • Dati Sintetici
  • Engineering Design
  • Intelligenza Artificiale
  • Large Language Models
  • Machine Learining
Data inizio appello
14/04/2026
Consultabilità
Non consultabile
Data di rilascio
14/04/2066
Riassunto (Inglese)
Riassunto (Italiano)
La tesi si propone di esplorare l’impiego dei Large Language Models (LLM) come strumenti di supporto ai processi di engineering design, attraverso l’analisi dei brevetti, con l’obiettivo di estrarre insight utili alla progettazione ingegneristica.
In una prima fase, sono state analizzate frasi estratte dai brevetti, già classificate in due categorie principali, “Funzionale” e “Strutturale”. Su queste frasi sono stati applicati algoritmi tradizionali di machine learning per annotare le entità ingegneristiche presenti. Le frasi annotate sono state quindi utilizzate per addestrare un algoritmo Support Vector Machine (SVM), con l’obiettivo di distinguere automaticamente tra le due classi.
Nella fase successiva, le stesse frasi brevettuali reali, classificate nelle classi "Funzionale" e "Strutturale, sono state impiegate come base per la generazione di frasi brevettuali sintetiche tramite ChatGPT. Le frasi sintetiche hanno mantenuto la categorizzazione originale, consentendo di addestrare il modello Bert-for-Patents alla classificazione nelle due classi. I risultati ottenuti con i dati sintetici sono stati confrontati con quelli del modello addestrato esclusivamente su dati reali, permettendo di valutare l’efficacia dell’approccio basato sulla generazione automatica di contenuti.
Infine, la tesi ha affrontato l’analisi dell’interpretabilità del modello, esaminando come le informazioni sintattiche e semantiche delle frasi vengano elaborate e rappresentate lungo i diversi strati del modello. Questa analisi ha fornito una comprensione più approfondita dei meccanismi attraverso cui il modello apprende il compito di classificazione.
File