Tesi etd-06132022-004027 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
MESSINA, VALERIA
URN
etd-06132022-004027
Titolo
Explainable Artificial Intelligence: Modelli di interpretazione Local-Agnostic sul database DIVA.
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof. Rinzivillo, Salvatore
correlatore Prof.ssa Monreale, Anna
correlatore Prof.ssa Monreale, Anna
Parole chiave
- black-box
- Explainable artificial intelligence
- Lime
- Lore
- Shap
- XAI
Data inizio appello
01/07/2022
Consultabilità
Tesi non consultabile
Riassunto
La diffusione dell’uso di tecniche di intelligenza artificiale è pervasiva ed inarrestabile. Tuttavia, essa porta con sé non solo nuove opportunità, ma anche problemi che, se ignorati, rischiano di compromettere un’evoluzione efficace e consapevole.
L’Explainable Artificial Intelligence o più comunemente “XAI” rappresenta una risposta a questi problemi in grado di riavvicinare l’uomo alle macchine.
L’intelligenza artificiale spiegabile è una disciplina emergente nell’ambito del machine learning che si prefigge l’obiettivo di far chiarezza sulle logiche spesso opache dei suoi modelli. Questi ultimi, a causa della loro crescente complessità, vengono definiti “black box” poiché, similmente a una scatola nera, sono descrivibili essenzialmente nel loro comportamento esterno (output) a una o più sollecitazioni in ingresso (input).
Queste tecniche di apprendimento automatico, seppur non nuove per la comunità scientifica, hanno, negli ultimi anni, raggiunto un nuovo stadio di maturazione ed efficienza, sfruttando sia la disponibilità sempre crescente di nuovi dati (e.g. l’esplosione dei big data, IoT…) sia le ingenti potenze di elaborazione a costi sempre più contenuti.
L’insieme di queste considerazioni, hanno suscitato discussioni sempre più frequenti riguardo la reale necessità di adottare un’intelligenza artificiale “responsabile” a garanzia di un uso trasparente, etico e coerente nei confronti delle aspettative degli utenti, dei valori organizzativi, delle leggi e delle norme della società.
Quanto esposto è stato confermato da un recente sondaggio di PwC che ha stimato che la maggioranza degli amministratori delegati (67%) concorda sul fatto che le decisioni sull’AI per essere affidabili devono necessariamente essere spiegabili, o l’impatto sulla fiducia dei vari stakeholder potrebbe essere negativa.
Una delle possibili soluzioni a questa problematica consiste nel costruire metodi di spiegazioni sui modelli di black box con l’obiettivo di comprendere meglio perché un modello di intelligenza artificiale generi certe decisioni. Piu specificatamente, il caso di studio è rappresentato da analisi eseguite sul dataset DIVA, così chiamato perché classifica ogni azienda (istanza) con un valore che identifica il relativo rischio di evasione fiscale.
L’approccio proposto sfrutta inizialmente due modelli di black box per il machine learning supervisionato, al fine di classificare le istanze.
Il primo obiettivo dell’elaborato consiste nel modellare, adattare e confrontare metodologie di spiegazione per un modello di black box applicato a dati tabulari contenenti informazioni finanziarie, al fine di rilevare potenziali aziende fraudolente. Nell’elaborato verranno analizzati tre diversi metodi di spiegazione: Local Rule Based (LORE), Local Interpretable Model-Agnostic Explanations (LIME) e Shapley Additive exPlanations (SHAP), congiuntamente vengono delineate le loro caratteristiche principali.
Il secondo obiettivo che ci proponiamo in questa tesi e quello di identificare i punti di forza e di debolezza, delineando caratteri confrontabili tra i diversi metodi di spiegazione analizzati.
Il raffronto dei risultati dei modelli viene analizzato sia quantitativamente (e.g. score, value-contribution delle dimensioni, precision & fidelity…), che qualitativamente (e.g. significato, comprensibilita…).
Il resto della tesi è strutturato come segue. Inizialmente viene presentata una descrizione dei modelli di black-box e white-box, sottolineando le loro diverse funzionalità ed i punti di forza e di debolezza dell’uso di queste diverse tecniche a fini predittivi (Capitolo 2). Segue una formalizzazione matematica dei modelli di predizione e della relativa funzione di spiegazione (Capitolo 3), necessaria per comprendere al meglio i modelli di spiegazione analizzati nei capitoli seguenti. Successivamente, viene presentato il dataframe DIVA come oggetto di studio (Capitolo 3), sul quale vengono modellati sia algoritmi di white-box (il Decision Tree), sia algoritmi di black-box ( Tabnet come rete neurale e il Random Forest) (Capitolo 4). Il Capitolo 5, core della tesi, affronta i tre modelli di spiegazione locali ed agnostici LORE, LIME e SHAP per i quali vengono anche restituiti output di visualizzazione su fattispecie di istanze del dataset DIVA. Infine, nel Capitolo 5, sono riportate le conclusioni e le analisi qualitative e quantitative. Inoltre, vengono presentati alcuni spunti ed attenzioni su possibili sviluppi futuri.
L’Explainable Artificial Intelligence o più comunemente “XAI” rappresenta una risposta a questi problemi in grado di riavvicinare l’uomo alle macchine.
L’intelligenza artificiale spiegabile è una disciplina emergente nell’ambito del machine learning che si prefigge l’obiettivo di far chiarezza sulle logiche spesso opache dei suoi modelli. Questi ultimi, a causa della loro crescente complessità, vengono definiti “black box” poiché, similmente a una scatola nera, sono descrivibili essenzialmente nel loro comportamento esterno (output) a una o più sollecitazioni in ingresso (input).
Queste tecniche di apprendimento automatico, seppur non nuove per la comunità scientifica, hanno, negli ultimi anni, raggiunto un nuovo stadio di maturazione ed efficienza, sfruttando sia la disponibilità sempre crescente di nuovi dati (e.g. l’esplosione dei big data, IoT…) sia le ingenti potenze di elaborazione a costi sempre più contenuti.
L’insieme di queste considerazioni, hanno suscitato discussioni sempre più frequenti riguardo la reale necessità di adottare un’intelligenza artificiale “responsabile” a garanzia di un uso trasparente, etico e coerente nei confronti delle aspettative degli utenti, dei valori organizzativi, delle leggi e delle norme della società.
Quanto esposto è stato confermato da un recente sondaggio di PwC che ha stimato che la maggioranza degli amministratori delegati (67%) concorda sul fatto che le decisioni sull’AI per essere affidabili devono necessariamente essere spiegabili, o l’impatto sulla fiducia dei vari stakeholder potrebbe essere negativa.
Una delle possibili soluzioni a questa problematica consiste nel costruire metodi di spiegazioni sui modelli di black box con l’obiettivo di comprendere meglio perché un modello di intelligenza artificiale generi certe decisioni. Piu specificatamente, il caso di studio è rappresentato da analisi eseguite sul dataset DIVA, così chiamato perché classifica ogni azienda (istanza) con un valore che identifica il relativo rischio di evasione fiscale.
L’approccio proposto sfrutta inizialmente due modelli di black box per il machine learning supervisionato, al fine di classificare le istanze.
Il primo obiettivo dell’elaborato consiste nel modellare, adattare e confrontare metodologie di spiegazione per un modello di black box applicato a dati tabulari contenenti informazioni finanziarie, al fine di rilevare potenziali aziende fraudolente. Nell’elaborato verranno analizzati tre diversi metodi di spiegazione: Local Rule Based (LORE), Local Interpretable Model-Agnostic Explanations (LIME) e Shapley Additive exPlanations (SHAP), congiuntamente vengono delineate le loro caratteristiche principali.
Il secondo obiettivo che ci proponiamo in questa tesi e quello di identificare i punti di forza e di debolezza, delineando caratteri confrontabili tra i diversi metodi di spiegazione analizzati.
Il raffronto dei risultati dei modelli viene analizzato sia quantitativamente (e.g. score, value-contribution delle dimensioni, precision & fidelity…), che qualitativamente (e.g. significato, comprensibilita…).
Il resto della tesi è strutturato come segue. Inizialmente viene presentata una descrizione dei modelli di black-box e white-box, sottolineando le loro diverse funzionalità ed i punti di forza e di debolezza dell’uso di queste diverse tecniche a fini predittivi (Capitolo 2). Segue una formalizzazione matematica dei modelli di predizione e della relativa funzione di spiegazione (Capitolo 3), necessaria per comprendere al meglio i modelli di spiegazione analizzati nei capitoli seguenti. Successivamente, viene presentato il dataframe DIVA come oggetto di studio (Capitolo 3), sul quale vengono modellati sia algoritmi di white-box (il Decision Tree), sia algoritmi di black-box ( Tabnet come rete neurale e il Random Forest) (Capitolo 4). Il Capitolo 5, core della tesi, affronta i tre modelli di spiegazione locali ed agnostici LORE, LIME e SHAP per i quali vengono anche restituiti output di visualizzazione su fattispecie di istanze del dataset DIVA. Infine, nel Capitolo 5, sono riportate le conclusioni e le analisi qualitative e quantitative. Inoltre, vengono presentati alcuni spunti ed attenzioni su possibili sviluppi futuri.
File
Nome file | Dimensione |
---|---|
Tesi non consultabile. |