ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-04032022-111442


Tipo di tesi
Tesi di laurea magistrale
Autore
FAIMAN, VALENTINA
URN
etd-04032022-111442
Titolo
Sviluppo di una piattaforma analitica per il supporto alle decisioni per la gestione di crediti deteriorati
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof. Rinzivillo, Salvatore
Parole chiave
  • non performing loans
  • data lake
  • data engineering
  • crediti deteriorati
  • decision support system
Data inizio appello
22/04/2022
Consultabilità
Non consultabile
Data di rilascio
22/04/2092
Riassunto
L’obiettivo dell’elaborato è esporre il processo di sviluppo di una modern cloud data platform, avvenuto presso l’azienda di consulenza Cluster Reply per un importante cliente del settore dei servizi immobiliari e del credit servicing. In una prima parte vengono introdotte al lettore le principali tematiche inerenti al mondo della gestione delle Non Performing Exposures, ovvero quei crediti per i quali la riscossione è incerta, sia in termini di rispetto della scadenza, sia per l’ammontare dell’esposizione di capitale. Il fenomeno dei crediti deteriorati da elemento marginale e fisiologico prima della crisi finanziaria del 2008 è diventato di ben più ampia portata, portando le banche alla necessità di cedere sul mercato i crediti non performanti, con conseguente aumento delle opportunità di business per le imprese operanti nel mercato della gestione e del recupero crediti. La gestione e il prezzatura di un credito in sofferenza necessitano di un potente sistema informativo automatizzato al supporto delle decisioni, dal quale derivare informazioni riguardanti sia la situazione economica e finanziaria del debitore, sia informazioni sulle eventuali garanzie a supporto del credito, spesso di tipo ipotecario. E’ in questo contesto che per l’azienda cliente è nata la necessità di integrare in un'unica piattaforma analitica il proprio patrimonio informativo, precedentemente diviso nelle basi di dati proprietarie di ciascuna delle sue business unit, al fine di sfruttare in modo condiviso i dati generati dalle business unit legate al mondo dei servizi immobiliari e quelle del servizio crediti.La soluzione proposta supera il tradizionale approccio del data warehouse sfruttando un data lake. La presenza di questo archivio dati consente l’applicazione di un complesso processo di estrazione, trasformazione e caricamento, durante il quale vengono effettuati anche diversi controlli sulla qualità del dato. L’obiettivo del processo di ETL è rendere le informazioni provenienti dalle diverse fonti dati il più possibile armonizzate tra loro, così che possano essere consultate come un tutt’uno dal team di lavoro di ciascuna business unit su un presentation layer, costruito in un database relazionale, nel quale i dati vengono inseriti alla fine del processo di trasformazione.La presenza del data lake apre le porte anche alla possibilità di allenare modelli di machine learning al fine di supportare le decisioni riguardanti la gestione dei crediti deteriorati, attività che soprattutto per portafogli di titoli di credito di grandi dimensioni richiede sforzi e tempi molto elevati. A questo proposito è stato allenato un classificatore per effettuare una predizione sul fatto che una fase di gestione di un credito in sofferenza vada in ritardo o meno. Ritardi nella gestione del credito determinano un aumento delle tempistiche di risoluzione e di rientro dello stesso per la banca, cosa che comporta perdite maggiori. L’approccio seguito è quello CRISP-DM, il dataset creato è stato generato a partire dal patrimonio informativo presente nel presentation layer della piattaforma dati. Viene successivamente discussa la preparazione del dataset, caratterizzato da una maggioranza di attributi categorici ad alta cardinalità e da sbilanciamento tra le classi di predizione, problematica affrontata tramite una tecnica di oversampling. Durante la fase di valutazione dei modelli è stato tenuto conto delle particolari necessità di business, infatti per il caso della predizione di ritardo un falso negativo (ovvero una fase in ritardo classificata come non in ritardo) risultava essere più dannoso di un falso positivo. Per questo motivo è stata prestata particolare attenzione alla metrica recall della classe positiva. Una volta selezionato il modello migliore è stata discussa la fase di deployment del modello, considerando come esso possa essere integrato nell’architettura della piattaforma dati. In particolare è stato proposto un approccio che potesse considerare e sfruttare l’aggiornamento dei dati nel tempo. Infatti al termine di una delle fasi per le quali precedentemente veniva effettuata una predizione riguardante lo stato di ritardo, sarà possibile confrontare il true label con l’etichetta predetta dal modello, determinando il numero di falsi negativi, falsi positivi ecc. e andando a calcolare le metriche di accuracy, precision e recall. Questo permette di monitorare nel tempo le performance del modello.
File