Tesi etd-04042021-095806 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
CINQUINI, MARTINA
URN
etd-04042021-095806
Titolo
Boosting Synthetic Data Generation with Effective Nonlinear Causal Discovery
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof. Guidotti, Riccardo
Parole chiave
- Causal Discovery
- Data Generation
- Explainability
Data inizio appello
07/05/2021
Consultabilità
Completa
Riassunto
La scoperta dei rapporti di causalità che regolano i fenomeni osservati può aiutare a interpretare i dati, a formulare e a testare ipotesi e a spiegare le teorie di modellazione. Ciò ha incentivato la creazione di numerosi approcci in grado di dedurre meccanismi causali da dati osservazionali. Nell’ambito di tale indirizzo di ricerca, questo lavoro si pone come obiettivi la realizzazione di un metodo ottimizzato per identificare le relazioni causali non lineari, e la definizione di un processo generativo dei dati basato sulla conoscenza di tali relazioni. Il primo obiettivo viene realizzato attraverso lo sviluppo di una metodologia di causal discovery efficiente sfruttando i pattern frequenti osservabili nei dati attraverso tecniche di pattern mining. Il secondo obiettivo si concretizza mediante l’implementazione di una tecnica generativa che prende in input le causalità identificate dalla metodologia di causal discovery e restituisce un dataset sintetico che rispetta le stesse causalità di uno reale. La valutazione sperimentale è effettuata su dataset reali e sintetici con causalità note. Per la creazione di quest'ultimi, viene realizzato un generatore di dataset sintetici causali. Le metodologie definite nel presente lavoro mostrano per il causal discovery una riduzione della complessità computazionale senza influire sulla accuratezza nella scoperta della struttura causale, e per la data generation un’alta aderenza tra i dati reali e quelli sintetici.
File
Nome file | Dimensione |
---|---|
TesiCinquini.pdf | 2.30 Mb |
Contatta l’autore |