ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03162026-090535

Tipo di tesi

Tesi di laurea magistrale

URN

etd-03162026-090535

Titolo

Implementation of Telemetry System to Monitor Job Runtime and Energy Footprint in HPC Platforms

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

COMPUTER ENGINEERING

Parole chiave

energy
hpc
telemetry

Data inizio appello

15/04/2026

Consultabilità

Non consultabile

Data di rilascio

15/04/2096

Riassunto (Inglese)

The High-Performance Computing (HPC) landscape is currently undergoing a fundamental shift necessitated by the "Energy Wall" challenge. While supercomputer success was historically measured by peak computational power (FLOPS), the exascale era has established energy consumption as a critical design constraint, driven by both operational costs and environmental sustainability. Consequently, the scientific community is moving toward energy efficiency, where the primary objective is defined as maximizing performance-per-watt.

This thesis addresses the lack of visibility into energy consumption at the node level, moving beyond the traditional approach that treats servers as "black boxes". Many existing tools are limited to reporting total power or introduce significant overhead that skews the measurements. This work describes the design and implementation of a granular monitoring framework capable of disaggregating energy consumption across key hardware components: CPU, RAM, storage, and cooling systems.

The proposed architecture utilizes a distributed approach to ensure performance isolation. The system is organized into two primary logical nodes: the Bridge Server, serving as the management and storage hub, and the Target Server, which is the machine subject to energy analysis. To minimize the impact on scientific workloads (the observer effect), the Target Server only hosts a lightweight microservice called the HW Monitor. The Bridge Server hosts the complete monitoring stack, including Telegraf for data collection, InfluxDB for time-series storage, PostgreSQL for PBS job log management, and Grafana for real-time visualization.

A central element of the framework is its hybrid telemetry strategy. To obtain accurate physical data without interference, Out-of-Band (OOB) monitoring is utilized via the Dell iDRAC9 interface and the Redfish API, providing access to hardware sensors typically hidden from the operating system. To supplement these metrics with detailed information on per-core CPU frequency and load, an In-Band monitoring service was developed in Rust. Rust was chosen to ensure memory safety and deterministic execution without the unpredictable pauses of garbage-collected languages, ensuring negligible computational overhead.

System validation was performed through automated benchmark cycles (such as STREAM and HPCG) orchestrated via Ansible. This phase verified the tool's sensitivity in detecting dynamic variations in power draw. Preliminary observations confirm that the framework can clearly distinguish between baseline (static) consumption and the dynamic power associated with workload intensity. Specifically, the telemetry dashboards reveal a tight correlation between computational activity, thermal fluctuations, and cooling system response, highlighting distinct behavioral patterns for each analyzed subsystem.

In conclusion, this work demonstrates that it is possible to implement a high-frequency monitoring system that is both granular and non-invasive. The collected data provides a robust foundation for HPC workload characterization and the development of energy-aware scheduling strategies. The ability to transform raw telemetry into actionable insights paves the way for advanced statistical analysis and the integration of Machine Learning models to optimize data center energy efficiency.

Riassunto (Italiano)

Il settore del calcolo ad alte prestazioni (HPC) è attualmente protagonista di una trasformazione fondamentale guidata dalla necessità di superare la cosiddetta "Energy Wall". Se storicamente il successo di un supercomputer veniva misurato quasi esclusivamente in termini di operazioni in virgola mobile al secondo (FLOPS), l'avvento dell'era exascale ha reso il consumo energetico un vincolo di progettazione critico, non solo per i costi operativi ma anche per la sostenibilità ambientale. Di conseguenza, l'attenzione della comunità scientifica si è spostata verso l'efficienza energetica, ridefinendo l'obiettivo primario come il raggiungimento delle massime prestazioni per watt.

Questa tesi affronta il problema della visibilità del consumo energetico all'interno dei nodi di calcolo, superando l'approccio tradizionale che tratta il server come una "scatola nera". Molti degli strumenti esistenti sono limitati al reporting della potenza totale o introducono un overhead significativo che altera le misurazioni. Il lavoro descrive la progettazione e l'implementazione di un framework di monitoraggio granulare capace di disaggregare il consumo tra i principali componenti hardware: CPU, memoria RAM, sottosistema di storage e dispositivi di raffreddamento.

L'architettura proposta adotta un approccio distribuito per garantire l'isolamento delle prestazioni. Il sistema è suddiviso in due nodi logici: il Bridge Server, che funge da hub di gestione e archiviazione, e il Target Server, ovvero la macchina soggetta all'analisi energetica. Per minimizzare l'impatto sui carichi di lavoro scientifici (effetto osservatore), sul Target Server viene eseguito esclusivamente un microservizio leggero denominato HW Monitor. Il Bridge Server ospita invece l'intero stack di monitoraggio, che include Telegraf per la raccolta dei dati, InfluxDB per l'archiviazione delle serie temporali, PostgreSQL per la gestione dei log dei job PBS e Grafana per la visualizzazione in tempo reale.

Un elemento centrale del framework è la strategia di telemetria ibrida. Per ottenere dati fisici accurati senza interferenze, viene utilizzato il monitoraggio Out-of-Band (OOB) tramite l'interfaccia Dell iDRAC9 e l'API Redfish, che permette di accedere a sensori hardware tipicamente inaccessibili al sistema operativo. Per integrare queste metriche con informazioni dettagliate sugli stati di frequenza e carico dei singoli core della CPU, è stato implementato un monitoraggio In-Band tramite il microservizio HW Monitor sviluppato in linguaggio Rust. La scelta di Rust è motivata dalla necessità di garantire sicurezza della memoria e tempi di esecuzione deterministici senza le pause imprevedibili tipiche dei linguaggi dotati di garbage collection, assicurando un overhead computazionale trascurabile.

La validazione del sistema è stata condotta attraverso cicli di benchmark automatizzati (come STREAM e HPCG) gestiti tramite Ansible. Questa fase ha permesso di verificare la sensibilità dello strumento nel rilevare variazioni dinamiche della potenza assorbita. Le osservazioni preliminari confermano come il framework sia in grado di distinguere chiaramente tra il consumo di base (statico) e la potenza dinamica legata all'intensità del carico di lavoro. In particolare, i grafici di telemetria mostrano una stretta correlazione tra l'attività computazionale, le variazioni termiche e la risposta del sistema di raffreddamento, evidenziando comportamenti specifici per ogni sottosistema analizzato.

In conclusione, questo lavoro dimostra che è possibile implementare un sistema di monitoraggio ad alta frequenza che sia allo stesso tempo granulare e non invasivo. I dati raccolti forniscono una base solida per la caratterizzazione dei workload HPC e per lo sviluppo di strategie di schedulazione "energy-aware". La capacità di trasformare dati telemetrici grezzi in informazioni azionabili apre la strada ad analisi statistiche avanzate e all'integrazione di modelli di Machine Learning per l'ottimizzazione dell'efficienza energetica dei data center.

File

Nome file	Dimensione
La tesi non è consultabile. Contatta l’autore