logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-07132025-182733


Tipo di tesi
Tesi di dottorato di ricerca
Autore
ARTUSO, FRANCESCO
URN
etd-07132025-182733
Titolo
Algoritmi di deep learning e adversarial neural network per il riconoscimento e la predizione di eventi acustici spuri in relazione all'emissione di una o più sorgenti di disturbo
Settore scientifico disciplinare
FIS/07 - FISICA APPLICATA (A BENI CULTURALI, AMBIENTALI, BIOLOGIA E MEDICINA)
Corso di studi
FISICA
Relatori
tutor Prof. Fidecaro, Francesco
supervisore Prof. Licitra, Gaetano
supervisore Prof. Razzano, Massimiliano
Parole chiave
  • apprendimento automatico
  • apprendimento profondo
  • classificazione audio
  • Contrastive Language-Audio Pretraining CLAP
  • deep learning
  • environmental noise
  • generative adversarial networks
  • machine learning
  • modelli pre-addestrati
  • pretrained models
  • reti generative avversarie
  • rilevamento di eventi sonori
  • rumore ambientale
  • sound event classification
  • sound event detection
  • transfer learning
Data inizio appello
17/07/2025
Consultabilità
Non consultabile
Data di rilascio
17/07/2028
Riassunto
L’obiettivo principale di questa tesi è lo sviluppo di sistemi per il riconoscimento automatico di segnali acustici di natura ambientale, tramite l’uso di algoritmi di machine learning e deep learning. Sebbene questi sistemi trovino applicazioni in vari campi, la principale motivazione di questo lavoro risiede nella necessità di velocizzare la pulizia di monitoraggi acustici di lunga durata, che possono durare anche per settimane, dai suoni cosiddetti spuri. Vengono definiti come suoni spuri i segnali che non possono essere attribuiti alla sorgente sotto indagine e non sono tipici del rumore residuo tipico dell’area di misura, e che per tale motivo, a norma di legge, devono essere esclusi dal calcolo degli indicatori acustici. Il presente lavoro si concentra su due compiti molto noti e studiati, ovvero la classificazione di eventi sonori (Sound Event Classification SEC), e il rilevamento di eventi sonori (Sound Event Detection SED). Il compito di classificazione prevede solamente di assegnare una classe ad una misura precedentemente tagliata al fine di contenere solamente l’evento di interesse, mentre il rilevamento si pone anche l’obiettivo di identificare l’inizio e la fine di un evento, all’interno di una misura più lunga che contiene anche rumore residuo di sottofondo. Per costruire questo sistema è stato seguito un approccio sistematico, cominciando dalla costruzione di un dataset contenente le classi di interesse per i compiti sia di SEC che di SED. Questo dataset, che comprende sia misure reperite online che misurazioni originali effettuate dagli autori dello stesso, è stato attentamente costruito al fine di garantire un numero sufficiente di campioni e bilanciamento tra le classi, ed è stato inoltre corredato delle annotazioni del ground truth. Il passo successivo ha riguardato la scelta dell’insieme di feature più adatto da estrarre dalle misure audio. Un esperimento comparativo è stato eseguito utilizzando alcune classi del dataset ESC-50, per confrontare l’efficacia delle feature classiche con quella delle feature artificiali, ovvero ottenute tramite modelli di deep learning, nei compiti di clustering e classificazione usando algoritmi classici di machine learning. La scelta è ricaduta sulle feature estratte tramite il modello denominato Contrastive Language-Audio Pretraining (CLAP), basato sull’architettura dei Transformer che sfrutta la semantica del linguaggio per costruire nel dominio audio uno spazio delle feature semanticamente significativo. Tramite l’utilizzo del paradigma del Transfer Learning, la conoscenza contenuta nel modello CLAP è stata adattata alle classi contenute nel dataset costruito in precedenza. Per fare questo, un layer lineare è stato allenato a mappare gli embedding ricavati da CLAP nelle diverse classi. Il dataset di classificazione è stato usato per allenare e validare questo modello, ed in particolare per costruire la rappresentazione che il modello utilizza per effettuare il riconoscimento degli embedding. I risultati ottenuti nel compito di classificazione dimostrano l’efficacia dell’approccio proposto. Il modello allenato è stato poi integrato in una procedura di rilevamento, che è stata applicata al dataset costruito per il SED per valutare e validare la capacità di rilevamento del sistema. Infine, il lavoro ha esplorato il dominio dell’intelligenza artificiale generativa, in particolare delle Reti Generative Avversarie (Generative Adversarial Networks GANs), con lo scopo iniziale di costruire un modello capace di riprodurre fedelmente i dati reali per effettuare data augmentation. Addestramenti preliminari di GANs sono stati eseguiti a questo scopo, dal momento che un generatore efficace può essere usato per affrontare problemi di sbilanciamento del dataset o per arricchire classi con limitata variabilità dei dati. Le prospettive future di questa ricerca riguardano tre aree principali. La prima riguarda il miglioramento dell’accuratezza del rilevamento per poter sviluppare uno strumento affidabile in grado di ripulire monitoraggi acustici di lunga durata. La seconda riguarda l’avanzamento nello studio delle reti generative avversarie, attraverso l’utilizzo di diverse strategie di addestramento. Infine, l’ultimo e più promettente sviluppo di questa ricerca è l’implementazione del modello per il rilevamento addestrato su dispositivi per l’edge-computing, per consentire il rilevamento degli eventi acustici in tempo reale.


This thesis focuses on the development of systems for the automatic recognition of environmental acoustic signals using machine learning and deep learning algorithms. Although such systems have applications in various fields, the primary motivation lies in the need to speed up the cleaning of long-term acoustic monitoring recordings, which may last for weeks, from so-called spurious sounds. These sounds are unrelated to either the monitored source or the typical background noise of the measurement area and therefore must be removed in accordance with current regulations. The work concentrates on two well-known and widely studied tasks: Sound Event Classification (SEC) and Sound Event Detection (SED). The classification task involves only assigning a class to a pre-segmented recording containing only the event of interest, whereas detection aims to identify also the onset and offset times of the event, within a longer measurement that includes also residual background noise. A systematic approach was followed to build such a system, beginning with the construction of a dataset tailored to the classes of interest for both SEC and SED tasks. This dataset, comprising both online and on-field original data, was carefully designed to ensure sufficient population and class balance, and was accompanied by the preparation of corresponding ground truth annotations. Next step involved the selection of the most suitable feature set to extract from the audio recordings. A comparative experiment was conducted using some classes of the ESC-50 dataset, to evaluate the effectiveness of traditional features versus those generated by deep learning models, in clustering and classification tasks using classical machine learning algorithms. The choice fell on features extracted using a pretrained model called Contrastive Language-Audio Pretraining (CLAP), which is based on Transformer architecture and leverages language semantics to structure a semantically meaningful audio feature space. Using transfer learning, the knowledge embedded in the CLAP model was adapted to specialize it for the classes defined in the constructed dataset. A linear layer was trained to map the CLAP embeddings to class probabilities. The SEC dataset was used to train and validate this model, building the required audio representation for recognition tasks. The results obtained in the SEC domain demonstrate the effectiveness of the proposed approach. This trained model was then integrated into a detection pipeline, with the SED dataset employed for validating the system’s detection capabilities. Finally, the work explored the domain of generative AI, particularly Generative Adversarial Networks (GANs), with the initial aim of constructing a model capable of faithfully reproducing input data to enable data augmentation. Preliminary training of GANs has been carried out in this direction, given that an effective generator can be used to address dataset imbalance issues or to enrich classes which exhibit limited data diversity. Future directions for this research include three main areas. The first is improving detection accuracy to support the development of a reliable tool for cleaning long-term acoustic monitoring data. The second involves advancing the study of generative methods based on GANs through the exploration of alternative training strategies. The final promising direction is the integration of the trained SED model into an edge-computing device to enable real-time detection.
File