ETD system

Electronic theses and dissertations repository

 

Tesi etd-11172003-174953


Thesis type
Tesi di laurea vecchio ordinamento
Author
Piastra, Manuele
email address
manupia@libero.it
URN
etd-11172003-174953
Title
CURE+: un'implementazione dell'algoritmo di clustering gerarchico agglomerativo CURE con riferimento all'analisi di grandi volumi di dati
Struttura
INGEGNERIA
Corso di studi
INGEGNERIA INFORMATICA
Commissione
relatore Lazzerini, Beatrice
Parole chiave
  • knowledge discovery
  • cluster
  • cluster analysis
  • clustering
  • algoritmo
  • gerarchico
  • agglomerativo
  • CURE+
  • CURE
  • BIRCH
  • KD-Tree
  • Heap
  • data mining
Data inizio appello
18/12/2003;
Consultabilità
completa
Riassunto analitico
La quantità di dati a nostra disposizione, in qualsiasi settore dello scibile umano (scientifico, medico, demografico, finanziario, commerciale etc.) è diventata tale da <br>richiedere un&#39;enorme quantità di tempo per essere analizzata con profitto. Poiché <br>l&#39;attenzione umana è diventata una risorsa preziosa, è necessario disporre di metodi <br>automatici per analizzare, classificare e compendiare i dati. Tali tecniche devono essere in grado di evidenziare distribuzioni di interesse contenute nei dati ed eventuali anomalie e singolarità.<br><br>Quest&#39;impellente esigenza ha fatto sì che oggi l&#39;analisi dei dati impegni ricercatori di varie discipline: statistica, intelligenza artificiale, machine learning e data mining. Il <br>clustering, nell&#39;ambito del data mining, è utilizzato per scoprire pattern di interesse nei <br>dati, soprattutto quando il loro volume ponga requisiti stringenti, se vogliamo mantenere <br>accettabili le prestazioni degli strumenti utilizzati.<br><br>Il lavoro di tesi da noi proposto consiste nell&#39;implementazione dell&#39;algoritmo di clustering gerarchico CURE. CURE+, il software a tale scopo realizzato, è un&#39;applicazione per i sistemi operativi facenti parte della famiglia Microsoft Windows, sviluppata utilizzando il <br>linguaggio di programmazione C++ nell&#39;ambito dell&#39;Integrated Development Environment <br>Microsoft Visual Studio .Net.<br><br>Nei capitoli 1 e 2 illustriamo la nomenclatura e i concetti generali che stanno alla base del clustering.<br><br>Nel capitolo 3 descriviamo più in dettaglio cosa si intenda per clustering gerarchico e quali sono i vantaggi che tale strumento è in grado di offrire.<br><br>Nel capitolo 4 proponiamo invece una descrizione (tutt&#39;altro che esaustiva) dell&#39;algoritmo di clustering gerarchico agglomerativo BIRCH. Riteniamo che tale descrizione possa essere utile, in quanto BIRCH è stato il primo algoritmo di tipo gerarchico che si è prefisso l&#39;obiettivo di rendere scalabile la complessa analisi dei dati nei confronti di grandi database. BIRCH costituirà il nostro trampolino di lancio per l&#39;introduzione dell&#39;algoritmo CURE, che ne raccoglie l&#39;eredità pur cercando di limitarne gli inconvenienti.<br><br>Nel capitolo 5 passiamo dunque all&#39;esposizione di una dettagliata descrizione dell&#39;algoritmo CURE.<br><br>Nel capitolo 6 illustriamo in dettaglio l&#39;interessante struttura dati kD-Tree e la sua versione randomizzata, denominata rkD-Tree.<br><br>Nel capitolo 7 passiamo, senza ulteriori indugi, all&#39;esposizione approfondita di CURE+, illustrando gli strumenti, i metodi, le scelte e le innovazioni da noi effettuate durante lo sviluppo di tale applicazione.<br><br>Infine nel capitolo 8 forniamo una breve descrizione dei risultati forniti dall&#39;analisi <br>effettuata da CURE+ su un file contenente dati di prova.
File