logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11062024-104132


Tipo di tesi
Tesi di laurea magistrale
Autore
LAMIA, UMBERTO
URN
etd-11062024-104132
Titolo
Sviluppo di una Data Platform: Automazione dei Flussi e Integrazione di Template ETL e Machine Learning
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof.ssa Guidi, Barbara
tutor Dott. Sitta, Federico
Parole chiave
  • AI
  • analisi sentimento
  • artificial intelligence
  • automation
  • automazione
  • BI
  • business intelligence
  • data lakehouse
  • data platform
  • ETL
  • IA
  • intelligenza artificiale
  • KNIME
  • layer
  • mascheramento
  • masking
  • OLLAMA
  • piattaforma dati
  • sentiment analysis
  • stratificazione
  • template
Data inizio appello
29/11/2024
Consultabilità
Non consultabile
Data di rilascio
29/11/2027
Riassunto
Il presente progetto è stato commissionato da un ente della Pubblica Amministrazione, in collaborazione con diverse aziende private, con l’obiettivo di trasformare l’organizzazione in una realtà orientata ai dati (data driven). In particolare, è stato definito il perimetro di una Data Platform, che comprenda tutte le componenti tra lo strato di Reporting, denominato Consumo Dati, e lo strato delle Sorgenti da cui provengono i dati.
La Data Platform ha il compito di gestire tutte le fasi di raccolta, elaborazione, integrazione e conservazione dei dati provenienti da fonti eterogenee, per renderli disponibili all’analisi da parte degli utenti finali. Il tirocinio, svolto all’interno di una delle aziende coinvolte nel progetto, si è focalizzato sulla progettazione e implementazione di flussi di lavoro automatizzati e manuali per raccogliere, integrare, gestire, conservare ed elaborare i dati. Questi flussi garantiscono che i dati, partendo dalle Sorgenti, attraversino la Data Platform per raggiungere lo strato di Consumo Dati, in modo ottimizzato e funzionale alle esigenze analitiche.
Nello specifico, i flussi di lavoro sono stati sviluppati per supportare vari scenari, come l’aggiornamento automatico dei dataset, il controllo della qualità dei dati e l’esecuzione di trasformazioni complesse, necessarie per adattare i dati alle specifiche esigenze degli utenti. L’obiettivo principale è stato quello di ottimizzare la disponibilità dei dati per gli analisti, riducendo gli interventi manuali, aumentando l’accuratezza e migliorando i tempi di generazione degli insight.
Infine, tutta la documentazione relativa ai processi implementati è stata accuratamente redatta, con l’obiettivo di fornire al cliente una guida chiara e strutturata per comprendere, riprodurre e creare autonomamente nuovi flussi di lavoro, incluse soluzioni di ETL (Extract, Transform, Load ) e modelli di Machine Learning per l’analisi predittiva. Questo approccio permetterà al cliente di proseguire autonomamente nello sviluppo della Data Platform e delle proprie attività di analisi dati.



This project was commissioned by a public administrative entity, in partnership with several private companies, with the goal of transforming the organization into a data-driven entity. In particular, the scope of a Data Platform has been defined, which includes all the components between the Reporting layer, called Data Consumption, and the Source layer from which the data comes.
The Data Platform is responsible for managing all phases of data collection, processing, integration, and storage from various sources, making it available for analysis by end users. The internship, conducted at one of the private companies involved in the project, focused on designing and implementing both automated and manual workflows to collect, integrate, manage, store, and process the data. These workflows ensure that the data flows from the Sources through the Data Platform to reach the Data Consumption layer, in an optimized manner that meets analytical needs.
Specifically, workflows were developed to support various scenarios, such as automatic dataset updates, data quality control, and the execution of complex transformations needed to tailor the data to specific user needs. The main objective was to optimize data availability for analysts by reducing manual interventions, increasing accuracy, and improving the speed of insight generation.
Lastly, comprehensive documentation of the implemented processes was meticulously prepared to provide the customer with a clear, structured guide for understanding, reproducing, and independently creating new workflows, including ETL (Extract, Transform, Load) solutions and Machine Learning models for predictive analysis. This approach will enable the customer to continue developing the Data Platform and their own data analysis activities independently.
File