logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03292016-102214


Tipo di tesi
Tesi di laurea magistrale
Autore
ELIA, FILOMENA
URN
etd-03292016-102214
Titolo
Analisi e sperimentazione di Algoritmi di Outlier Detection in Sistemi GDO
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Relatori
relatore Prof.ssa Scutellà, Maria Grazia
tutor Dott. Calvi, Gianfranco
Parole chiave
  • algoritmi outlier detection in R
  • data mining
  • grande distribuzione organizzata
  • outlier detection
  • rapidminer
Data inizio appello
29/04/2016
Consultabilità
Completa
Riassunto
Il lavoro presentato in questa tesi ha avuto come obiettivo quello di individuare
e confrontare alcune tra le maggiori e più efficaci tecniche di Outlier
Detection presenti in letteratura, in modo da individuare la metodologia che
meglio si adatta ad un determinato dominio applicativo e alla struttura dei
dati oggetto della sperimentazione condotta.
Il dominio applicativo in esame è rappresentato dalla Grande Distribuzione
Organizzata (GDO), il moderno sistema di vendita al dettaglio attraverso
una rete di supermercati e di altre catene di intermediarie di varia natura.
L’intero lavoro è stato svolto tramite uno stage della durata di 6 mesi presso
l’azienda Target Reply, che ha messo a disposizione le tecnologie adatte
al raggiungimento degli obiettivi di tesi e ha fornito i dati di un’azienda
appartenente all’ambito GDO per effettuare la sperimentazione su dati appartenenti
al mondo reale.
Sistemi di Business Intelligence (BI) e tecniche di Data Mining saranno di
fondamentale importanza per il raggiungimento di questo obiettivo:
 nel mondo BI lo strumento centrale è rappresentato dal DataWarehouse,
di fondamentale importanza per la fase di selezione e preparazione
dei dati;
 il Data Mining è la disciplina che permette di individuare relazioni
prima sconosciute attraverso l’esplorazione e analisi di grandi quantità
di dati; nell’ambito di questo lavoro di tesi, tale disciplina ha fornito
strumenti e metodologie adeguati sia per la fase di analisi e sviluppo
che per la fase di valutazione e validazione dei risultati.
L’ Outlier Detection è infatti un problema chiave nel campo Data Mining,
che trova applicazione in numerosi ambiti, soprattutto dove si desidera
individuare quegli eventi inusuali che portano a scoperte interessanti nell’attività
di generazione dei dati. La prassi adottata nella maggior parte delle
metodologie è la creazione di un modello probabilistico, statistico o algoritmico
che caratterizzi il comportamento normale dei dati. Le deviazioni da
questo comportamento permettono di discernere i valori anomali da quelli
normali.
Perchè è cosi importante individuare questi valori anomali? Uno dei motivi
riguarda la necessità di un’azienda di avere dati affidabili, in modo da poter
prendere decisioni consapevoli e coerenti con il sistema.
Inoltre la presenza di tali valori riduce la potenza dei test statistici o influenza
le stime, cambiando drasticamente i risultati di eventuali altre analisi o
predizioni che l’azienda desidera condurre.
Il presente documento si compone di sei capitoli ed è così suddiviso:
1. il primo capitolo si pone l’obiettivo di definire il problema in maniera
generale, introducendo il concetto di Data Mining e presentando il
problema di Outlier Detection, offrendo una panoramica del dominio
applicativo di riferimento;
2. il secondo capitolo descrive la fase di preparazione del modello dati,
attraverso l’esplorazione e la pulizia dei dati, che hanno portato alla
costruzione della Tabella di Mining, passata in seguito agli algoritmi
di mining;
3. il terzo capitolo analizza le diverse tecniche di Outlier Detection presenti
in letteratura, analisi utile ad effettuare una scelta consapevole
delle tre tecniche che sono state sviluppate e testate nel lavoro di tesi;
4. il quarto capitolo ha l’obiettivo di definire i dettagli funzionali ed
implementativi degli algoritmi sviluppati;
5. il quinto capitolo descrive i test effettuati e la relativa fase di valutazione,
attraverso alcune delle metriche più conosciute in Data Mining;
6. il sesto capitolo conclude il lavoro di tesi offrendo degli spunti su
eventuali integrazioni future e su eventuali applicazioni nel mondo
reale.
File