Tesi etd-03132026-092958 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
BERNARDI, MATTIA REMO
URN
etd-03132026-092958
Titolo
Analisi Comparativa di Modelli di Apprendimento Automatico per la Rilevazione di Anomalie Cyber-Fisiche nei Sistemi di Controllo Operativo Navale (OT)
Dipartimento
SCIENZE POLITICHE
Corso di studi
SCIENZE MARITTIME E NAVALI
Relatori
relatore Maio, Giacomo
Parole chiave
- AI
- Forze Armate
- Intrusion Detection System
- Marina Militare
- NATO
Data inizio appello
31/03/2026
Consultabilità
Completa
Riassunto (Inglese)
Riassunto (Italiano)
Titolo: Analisi Comparativa di Modelli di Apprendimento Automatico per la Rilevazione di Anomalie Cyber-Fisiche nei Sistemi di Controllo Operativo Navale (OT)
La trasformazione digitale delle piattaforme navali sta spingendo le unità di nuova generazione verso un paradigma di “Digital Ship”, in cui sistemi di navigazione, automazione di piattaforma, reti di bordo e capacità C2 risultano sempre più interconnessi. Questo processo abilita benefici operativi (efficienza, manutenzione predittiva, readiness) ma, allo stesso tempo, amplia la superficie di attacco e introduce vulnerabilità tipiche dei sistemi cyber-fisici: non è necessario “fermare” un sottosistema per produrre un impatto, spesso è sufficiente manipolare dati e telemetrie in modo plausibile, alterando il quadro decisionale dell’operatore e generando conseguenze reali sul comportamento della nave. La tesi si concentra proprio su questo punto: la minaccia più insidiosa non è solo il Denial of Service o il guasto evidente, ma la deception semantica, cioè la falsificazione di informazioni tecnicamente corrette (a livello di formato e protocollo) ma fisicamente incoerenti rispetto allo stato della piattaforma e dei sensori.
L’obiettivo principale del lavoro è progettare e valutare, in modo comparativo, modelli di Machine Learning per la rilevazione di anomalie cyber-fisiche in un contesto OT navale. Il dominio di interesse viene inteso come insieme dei sistemi di bordo che supportano sia le funzioni di navigazione e posizionamento (PNT), sia l’automazione di piattaforma (IPMS/SCADA/PLC), sia i domini di rete e telemetria necessari a un SOC. L’assunto guida è che un rilevatore efficace debba integrare segnali eterogenei: la coerenza fisica non è visibile in una singola sorgente, ma emerge dalla correlazione tra flussi PNT, stati OT e metadati di rete, con timestamp coerenti. In tal senso, la tesi collega la dimensione algoritmica con quella architetturale e normativa: se non esistono logging robusto, segmentazione e sincronizzazione temporale, nessun modello potrà produrre un allarme affidabile con valore operativo.
Il lavoro si sviluppa lungo quattro direttrici. La prima riguarda le architetture e i protocolli di bordo, descritti come infrastruttura tecnica su cui poggiano sia la sicurezza sia la generazione dei dati osservabili. Vengono analizzati i protocolli di navigazione (NMEA 0183 e NMEA 2000/CAN), evidenziando come l’assenza di meccanismi nativi di autenticazione e integrità consenta attacchi di spoofing e iniezione, spesso non rilevabili tramite controlli sintattici. A valle di questi, viene approfondito AIS come interfaccia informativa verso l’esterno: progettato per safety e interoperabilità, trasmette in chiaro e senza autenticazione forte, rendendo possibili scenari di “ghost ships” e manipolazioni del traffico che degradano la situational awareness. In parallelo, viene analizzato ECDIS come componente safety-critical, in cui la minaccia si sposta dal “contatto” al contesto cartografico: integrità di ENC, catena di update e layer di presentazione (S-52) diventano punti sensibili per deception e supply chain attack. Il filo comune è che molti attacchi mirano a produrre decisioni errate senza causare un guasto evidente.
La seconda direttrice riguarda l’automazione OT e i protocolli industriali. Si discute la coesistenza tra tecnologie legacy, come Modbus TCP, e approcci moderni, come OPC UA. Modbus, nato in un’epoca pre-cyber, non fornisce autenticazione e cifratura nativa: chi ottiene accesso al segmento OT può inviare comandi formalmente corretti e alterare setpoint o stati di impianto. In questi casi l’anomalia non è “il pacchetto”, ma la sua compatibilità con il contesto operativo. Al contrario, OPC UA introduce un modello informativo più ricco e meccanismi di sicurezza (certificati, canali cifrati, policy), aumentando la qualità del dato osservabile e migliorando la tracciabilità. Tuttavia, anche in questo caso, la sicurezza dipende dalla gestione reale delle trust list e dalle procedure operative: un’identità legittima compromessa può produrre effetti simili a quelli di un attacco esterno. L’idea centrale è che la qualità del dataset e la capacità di detection sono direttamente influenzate dal protocollo, non solo dall’algoritmo.
La terza direttrice riguarda telemetrie e SOC: syslog, network flows (IPFIX/NetFlow), eventi di autenticazione, log applicativi e sincronizzazione temporale (NTP/PTP) vengono trattati come abilitatori della cyber situational awareness e, in prospettiva, della costruzione di dataset affidabili. La tesi evidenzia che, senza timestamp coerenti e verificabili, la correlazione multi-sorgente perde significato: non si può ricostruire la sequenza causale tra un’anomalia PNT, un comando OT e un evento di rete. Questo aspetto viene ancorato anche ai requisiti nazionali: la direttiva NAV-50-4217 impone logging e sincronizzazione come requisiti mandatori, specialmente per OT, proprio per garantire investigabilità e controllo. In tal modo, l’approccio di anomaly detection viene interpretato non come esercizio accademico, ma come evoluzione naturale di obblighi contrattuali e architetturali che rendono la nave monitorabile e difendibile.
La quarta direttrice riguarda la dimensione europea e il quadro di capability: programmi come ECYSAP-EYE e PANDORA vengono analizzati come iniziative che mirano a una cyber situational awareness comune, threat hunting e condivisione strutturata di threat intelligence. Questa cornice serve a collocare la tesi in un contesto realistico, in cui le soluzioni di detection non sono isolate ma integrate in pipeline di raccolta, correlazione, risposta e governance (human-in-the-loop). Il messaggio è che un modello ML deve produrre output interpretabili, perché l’operatore e il decisore devono poter giustificare l’allarme e scegliere la risposta; da qui il collegamento con XAI e con la necessità di evidenze comprensibili e tracciabili.
Sul piano metodologico, la tesi propone un approccio comparativo tra modelli supervisionati e non supervisionati, con un’attenzione esplicita alla prevenzione del data leakage. Poiché i segnali sono serie temporali e vengono lavorati con finestre scorrevoli, l’uso di split casuali porterebbe a contaminazione tra train e test: porzioni molto simili della stessa finestra finirebbero su set diversi, gonfiando artificialmente le metriche. Per questo il lavoro adotta uno split temporale coerente (train/validation/test in ordine cronologico) e mantiene una strategia uniforme di resampling e windowing su tutti gli stadi. Questo non è solo “buona pratica ML”, ma replica il vincolo reale di un SOC: non si possiede il futuro per addestrare il passato, e un sistema operativo deve generalizzare a condizioni nuove.
La costruzione del dataset si basa su tre domini: PNT (sentenze e variabili di navigazione), OT (parametri e comandi di piattaforma), rete (flows e log). La feature engineering punta a catturare la coerenza fisica: ad esempio, la relazione tra velocità e variazione di posizione, tra RPM e SOG, tra ratei di accostata e cinematica plausibile. L’idea è trasformare la deception semantica in una deviazione misurabile: il dato “sembra normale” ma viola vincoli fisici o correlazioni stabili. Sul fronte rete, i flows supportano l’identificazione di movimenti laterali, beaconing e attraversamenti anomali tra segmenti, fornendo contesto e “perché” all’allarme.
In termini di modelli, vengono confrontati: un classificatore interpretabile e robusto come Random Forest, un baseline lineare (regressione logistica) e un approccio non supervisionato basato su ricostruzione (autoencoder o proxy equivalente). Random Forest è scelto come compromesso tra performance e spiegabilità: gestisce feature eterogenee, riduce la sensibilità a scale diverse, fornisce importanza delle variabili e può essere spiegato con metodi XAI (ad esempio SHAP) per attribuire il contributo delle feature a un allarme. L’autoencoder (o la ricostruzione PCA) serve invece a intercettare deviazioni non etichettate, rappresentando un “sensore di novità” utile per zero-day e condizioni fuori distribuzione. La tesi discute anche il problema del drift: in mare reale la “normalità” cambia con carico, stato mare, manovre e regime di navigazione; per questo si introducono strategie di calibrazione delle soglie e KPI operativi, perché un modello con troppi falsi positivi è inutilizzabile in contesto militare, dove il carico cognitivo e il tempo decisionale sono risorse critiche.
La validazione viene strutturata su scenari di attacco simulati coerenti con i capitoli tecnici: drift GNSS lento, step GNSS, mismatch PNT↔OT, manipolazioni plausibili e anomalie di rete. La definizione di ground truth è deterministica per consentire misure oggettive di detection delay (TTD) e di falsi positivi per ora (FP/h), KPI che in un SOC risultano più significativi della sola accuracy. Il lavoro pone l’accento sulla misurazione “operativa”: non basta riconoscere l’attacco, occorre farlo in tempo utile e con un tasso di allarmi sostenibile, producendo un output interpretabile e attivabile.
In sintesi, la tesi costruisce un ponte tra tre livelli: vulnerabilità e protocolli (che generano la superficie di attacco), requisiti architetturali e normativi (che rendono possibile la raccolta dati e la forensics), e modelli ML/XAI (che trasformano segnali eterogenei in allarmi utili e spiegabili). L’elemento distintivo è la focalizzazione sulla deception semantica come minaccia cyber-fisica: l’avversario non deve spegnere la nave, gli basta farle “credere” qualcosa di sbagliato. La risposta proposta non è un singolo algoritmo, ma un metodo di integrazione: dataset multi-dominio, correlazione temporale, modelli comparati e criteri di accettazione basati su KPI operativi, con un percorso chiaro verso un Proof of Concept dimostrabile e integrabile in pipeline SOC e programmi di difesa europei e nazionali.
La trasformazione digitale delle piattaforme navali sta spingendo le unità di nuova generazione verso un paradigma di “Digital Ship”, in cui sistemi di navigazione, automazione di piattaforma, reti di bordo e capacità C2 risultano sempre più interconnessi. Questo processo abilita benefici operativi (efficienza, manutenzione predittiva, readiness) ma, allo stesso tempo, amplia la superficie di attacco e introduce vulnerabilità tipiche dei sistemi cyber-fisici: non è necessario “fermare” un sottosistema per produrre un impatto, spesso è sufficiente manipolare dati e telemetrie in modo plausibile, alterando il quadro decisionale dell’operatore e generando conseguenze reali sul comportamento della nave. La tesi si concentra proprio su questo punto: la minaccia più insidiosa non è solo il Denial of Service o il guasto evidente, ma la deception semantica, cioè la falsificazione di informazioni tecnicamente corrette (a livello di formato e protocollo) ma fisicamente incoerenti rispetto allo stato della piattaforma e dei sensori.
L’obiettivo principale del lavoro è progettare e valutare, in modo comparativo, modelli di Machine Learning per la rilevazione di anomalie cyber-fisiche in un contesto OT navale. Il dominio di interesse viene inteso come insieme dei sistemi di bordo che supportano sia le funzioni di navigazione e posizionamento (PNT), sia l’automazione di piattaforma (IPMS/SCADA/PLC), sia i domini di rete e telemetria necessari a un SOC. L’assunto guida è che un rilevatore efficace debba integrare segnali eterogenei: la coerenza fisica non è visibile in una singola sorgente, ma emerge dalla correlazione tra flussi PNT, stati OT e metadati di rete, con timestamp coerenti. In tal senso, la tesi collega la dimensione algoritmica con quella architetturale e normativa: se non esistono logging robusto, segmentazione e sincronizzazione temporale, nessun modello potrà produrre un allarme affidabile con valore operativo.
Il lavoro si sviluppa lungo quattro direttrici. La prima riguarda le architetture e i protocolli di bordo, descritti come infrastruttura tecnica su cui poggiano sia la sicurezza sia la generazione dei dati osservabili. Vengono analizzati i protocolli di navigazione (NMEA 0183 e NMEA 2000/CAN), evidenziando come l’assenza di meccanismi nativi di autenticazione e integrità consenta attacchi di spoofing e iniezione, spesso non rilevabili tramite controlli sintattici. A valle di questi, viene approfondito AIS come interfaccia informativa verso l’esterno: progettato per safety e interoperabilità, trasmette in chiaro e senza autenticazione forte, rendendo possibili scenari di “ghost ships” e manipolazioni del traffico che degradano la situational awareness. In parallelo, viene analizzato ECDIS come componente safety-critical, in cui la minaccia si sposta dal “contatto” al contesto cartografico: integrità di ENC, catena di update e layer di presentazione (S-52) diventano punti sensibili per deception e supply chain attack. Il filo comune è che molti attacchi mirano a produrre decisioni errate senza causare un guasto evidente.
La seconda direttrice riguarda l’automazione OT e i protocolli industriali. Si discute la coesistenza tra tecnologie legacy, come Modbus TCP, e approcci moderni, come OPC UA. Modbus, nato in un’epoca pre-cyber, non fornisce autenticazione e cifratura nativa: chi ottiene accesso al segmento OT può inviare comandi formalmente corretti e alterare setpoint o stati di impianto. In questi casi l’anomalia non è “il pacchetto”, ma la sua compatibilità con il contesto operativo. Al contrario, OPC UA introduce un modello informativo più ricco e meccanismi di sicurezza (certificati, canali cifrati, policy), aumentando la qualità del dato osservabile e migliorando la tracciabilità. Tuttavia, anche in questo caso, la sicurezza dipende dalla gestione reale delle trust list e dalle procedure operative: un’identità legittima compromessa può produrre effetti simili a quelli di un attacco esterno. L’idea centrale è che la qualità del dataset e la capacità di detection sono direttamente influenzate dal protocollo, non solo dall’algoritmo.
La terza direttrice riguarda telemetrie e SOC: syslog, network flows (IPFIX/NetFlow), eventi di autenticazione, log applicativi e sincronizzazione temporale (NTP/PTP) vengono trattati come abilitatori della cyber situational awareness e, in prospettiva, della costruzione di dataset affidabili. La tesi evidenzia che, senza timestamp coerenti e verificabili, la correlazione multi-sorgente perde significato: non si può ricostruire la sequenza causale tra un’anomalia PNT, un comando OT e un evento di rete. Questo aspetto viene ancorato anche ai requisiti nazionali: la direttiva NAV-50-4217 impone logging e sincronizzazione come requisiti mandatori, specialmente per OT, proprio per garantire investigabilità e controllo. In tal modo, l’approccio di anomaly detection viene interpretato non come esercizio accademico, ma come evoluzione naturale di obblighi contrattuali e architetturali che rendono la nave monitorabile e difendibile.
La quarta direttrice riguarda la dimensione europea e il quadro di capability: programmi come ECYSAP-EYE e PANDORA vengono analizzati come iniziative che mirano a una cyber situational awareness comune, threat hunting e condivisione strutturata di threat intelligence. Questa cornice serve a collocare la tesi in un contesto realistico, in cui le soluzioni di detection non sono isolate ma integrate in pipeline di raccolta, correlazione, risposta e governance (human-in-the-loop). Il messaggio è che un modello ML deve produrre output interpretabili, perché l’operatore e il decisore devono poter giustificare l’allarme e scegliere la risposta; da qui il collegamento con XAI e con la necessità di evidenze comprensibili e tracciabili.
Sul piano metodologico, la tesi propone un approccio comparativo tra modelli supervisionati e non supervisionati, con un’attenzione esplicita alla prevenzione del data leakage. Poiché i segnali sono serie temporali e vengono lavorati con finestre scorrevoli, l’uso di split casuali porterebbe a contaminazione tra train e test: porzioni molto simili della stessa finestra finirebbero su set diversi, gonfiando artificialmente le metriche. Per questo il lavoro adotta uno split temporale coerente (train/validation/test in ordine cronologico) e mantiene una strategia uniforme di resampling e windowing su tutti gli stadi. Questo non è solo “buona pratica ML”, ma replica il vincolo reale di un SOC: non si possiede il futuro per addestrare il passato, e un sistema operativo deve generalizzare a condizioni nuove.
La costruzione del dataset si basa su tre domini: PNT (sentenze e variabili di navigazione), OT (parametri e comandi di piattaforma), rete (flows e log). La feature engineering punta a catturare la coerenza fisica: ad esempio, la relazione tra velocità e variazione di posizione, tra RPM e SOG, tra ratei di accostata e cinematica plausibile. L’idea è trasformare la deception semantica in una deviazione misurabile: il dato “sembra normale” ma viola vincoli fisici o correlazioni stabili. Sul fronte rete, i flows supportano l’identificazione di movimenti laterali, beaconing e attraversamenti anomali tra segmenti, fornendo contesto e “perché” all’allarme.
In termini di modelli, vengono confrontati: un classificatore interpretabile e robusto come Random Forest, un baseline lineare (regressione logistica) e un approccio non supervisionato basato su ricostruzione (autoencoder o proxy equivalente). Random Forest è scelto come compromesso tra performance e spiegabilità: gestisce feature eterogenee, riduce la sensibilità a scale diverse, fornisce importanza delle variabili e può essere spiegato con metodi XAI (ad esempio SHAP) per attribuire il contributo delle feature a un allarme. L’autoencoder (o la ricostruzione PCA) serve invece a intercettare deviazioni non etichettate, rappresentando un “sensore di novità” utile per zero-day e condizioni fuori distribuzione. La tesi discute anche il problema del drift: in mare reale la “normalità” cambia con carico, stato mare, manovre e regime di navigazione; per questo si introducono strategie di calibrazione delle soglie e KPI operativi, perché un modello con troppi falsi positivi è inutilizzabile in contesto militare, dove il carico cognitivo e il tempo decisionale sono risorse critiche.
La validazione viene strutturata su scenari di attacco simulati coerenti con i capitoli tecnici: drift GNSS lento, step GNSS, mismatch PNT↔OT, manipolazioni plausibili e anomalie di rete. La definizione di ground truth è deterministica per consentire misure oggettive di detection delay (TTD) e di falsi positivi per ora (FP/h), KPI che in un SOC risultano più significativi della sola accuracy. Il lavoro pone l’accento sulla misurazione “operativa”: non basta riconoscere l’attacco, occorre farlo in tempo utile e con un tasso di allarmi sostenibile, producendo un output interpretabile e attivabile.
In sintesi, la tesi costruisce un ponte tra tre livelli: vulnerabilità e protocolli (che generano la superficie di attacco), requisiti architetturali e normativi (che rendono possibile la raccolta dati e la forensics), e modelli ML/XAI (che trasformano segnali eterogenei in allarmi utili e spiegabili). L’elemento distintivo è la focalizzazione sulla deception semantica come minaccia cyber-fisica: l’avversario non deve spegnere la nave, gli basta farle “credere” qualcosa di sbagliato. La risposta proposta non è un singolo algoritmo, ma un metodo di integrazione: dataset multi-dominio, correlazione temporale, modelli comparati e criteri di accettazione basati su KPI operativi, con un percorso chiaro verso un Proof of Concept dimostrabile e integrabile in pipeline SOC e programmi di difesa europei e nazionali.
File
| Nome file | Dimensione |
|---|---|
| tesi_BER...I_fin.pdf | 7.34 Mb |
Contatta l’autore |
|