logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10242016-131822


Tipo di tesi
Tesi di laurea magistrale
Autore
CONOCI, FEDERICO
URN
etd-10242016-131822
Titolo
Analisi delle performance di Spark tramite tecniche di Datawarehouse
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Relatori
relatore Cisternino, Antonio
Parole chiave
  • Spark
  • Performance
  • Tuning
  • RDD
  • Data Warehouse
Data inizio appello
02/12/2016
Consultabilità
Completa
Riassunto
L’oggetto di questa tesi è Spark e in particolare lo studio delle sue pre-
stazioni tramite tecniche di analisi di Data Warehousing. In
particolare, viene proposta una metodologia per analizzare in maniera siste-
matica l’esecuzione di una o più applicazioni su Spark indipendentemente
dal dominio applicativo. Sono stati inoltre effettuati dei test strutturati e
pensati per poter comprendere gli aspetti critici da considerare quando si
riscontrano problemi di inefficienza; i fattori considerati sono l’utilizzo della
CPU e della memoria e, più in generale, la quantità di risorse da allocare per
una esecuzione più efficiente delle applicazioni. Grazie a questa tecnica si ha
la possibilità di esplorare le metriche relative allo svolgimento dei programmi
mettendo l’utente nelle condizioni di individuare facilmente eventuali colli di
bottiglia. Infine, tramite i vari test, sono state formulate delle best practices
il cui scopo è quello di guidare nell’allocazione ottimale delle risorse.
File