logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-04012026-151639


Tipo di tesi
Tesi di dottorato di ricerca
URN
etd-04012026-151639
Titolo
Exploring Convolutional Neural Networks for Music Information Retrieval: Neural Architecture Search, Data Augmentation, and Explainability
Settore scientifico disciplinare
ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Corso di studi
DOTTORATO NAZIONALE IN INTELLIGENZA ARTIFICIALE
Parole chiave
  • convolutional neural networks
  • data augmentation
  • explainability
  • music emotion recognition
  • music information retrieval
  • neural architecture search
Data inizio appello
04/05/2026
Consultabilità
Completa
Riassunto (Inglese)
This thesis explores three key aspects of applying Convolutional Neural Networks (CNNs) to Music Information Retrieval (MIR): hyperparameter optimization, data augmentation, and explainability. First, I developed a custom Neural Architecture Search method based on genetic algorithms to optimize CNNs for classifying guitar effect chains, achieving a better balance between accuracy and model compactness than Random Search. Second, I investigated data augmentation for Music Emotion Recognition (MER) on guitar recordings, systematically testing 11 techniques and showing that pitch shifting, time stretching, and time shifting were the most effective without significantly affecting perceived emotion. Finally, I studied explainability in MER by adapting Grad-CAM, SHAP, and LIME to musical spectrograms, and I developed an application that provides multi-level explanations of emotion predictions in guitar improvisations.
Riassunto (Italiano)
In questa tesi analizzo tre aspetti chiave dell’applicazione delle Convolutional Neural Networks (CNNs) al Music Information Retrieval (MIR): l’ottimizzazione degli iperparametri, la data augmentation e l’interpretabilità dei modelli. In primo luogo, ho sviluppato un metodo personalizzato di Neural Architecture Search basato su algoritmi genetici per ottimizzare CNN destinate alla classificazione di catene di effetti per chitarra, ottenendo un miglior compromesso tra accuratezza e compattezza del modello rispetto alla Random Search. In secondo luogo, ho studiato la data augmentation per il Music Emotion Recognition (MER) su registrazioni di chitarra, testando in modo sistematico 11 tecniche e mostrando che pitch shifting, time stretching e time shifting sono risultate le più efficaci senza alterare in modo significativo l’emozione percepita. Infine, ho studiato l’interpretabilità nel campo MER adattando Grad-CAM, SHAP e LIME a spettrogrammi musicali, e ho sviluppato un’applicazione in grado di fornire spiegazioni multilivello delle predizioni emotive ottenute da improvvisazioni di chitarra.
File