logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03092025-172407


Tipo di tesi
Tesi di dottorato di ricerca
Autore
PACHETTI, EVA
URN
etd-03092025-172407
Titolo
Few-shot Learning in Medical Imaging: Bridging the Data Gap in the Deep Learning Era
Settore scientifico disciplinare
IINF-05/A - Sistemi di elaborazione delle informazioni
Corso di studi
INGEGNERIA DELL'INFORMAZIONE
Relatori
tutor Prof. Cimino, Mario Giovanni Cosimo Antonio
tutor Dott.ssa Colantonio, Sara
Parole chiave
  • deep learning
  • few-shot learning
  • medical image analysis
  • medical imaging
Data inizio appello
21/03/2025
Consultabilità
Completa
Riassunto
Italiano:

L'intelligenza artificiale (IA) ha di fatto trasformato il nostro modo di lavorare, di creare, di scambiarci informazioni, di vivere. Il rilascio di ChatGPT nel 2022 ha segnato un punto di svolta, rivoluzionando il modo in cui molti problemi erano stati affrontati fino a quel momento. Da allora, abbiamo assistito a un'ondata di strumenti in grado di generare script di codice, produrre immagini su richiesta e persino creare filmati di alta qualità, il tutto partendo da poche righe di testo. L'impatto dell'IA è stato così profondo da scatenare dibattiti sulla rilevanza futura di alcune professioni. Alcuni, infatti, mettono in dubbio la necessità a lungo termine di ruoli come gli ingegneri del software, dato che strumenti come Copilot automatizzano le attività di coding. Allo stesso modo, si teme che modelli di IA altamente efficienti ed economici possano presto sostituire artisti, registi e attori.

Oltre ai campi già citati, l'IA si sta rapidamente affermando in medicina. Mentre le possibilità sono vaste e i progressi tecnologici impressionanti (ogni mese vengono rilasciati nuovi modelli più performanti) l'uso effettivo dell'IA in medicina rimane, tuttavia, relativamente limitato, spesso confinato alla ricerca. Il motivo è semplice: il campo medico presenta sfide solitamente assenti in altri settori di computer vision. Infatti, le applicazioni mediche sono pesantemente regolamentate per garantire la sicurezza dei pazienti, rendendo impensabile l'impiego di un modello che non sia stato rigorosamente testato e dimostrato affidabile. Inoltre, mentre la raccolta dei dati in altri campi di computer vision è relativamente facile nell'era di Internet e dei big data, non vale lo stesso per il campo medico. L'acquisizione di immagini mediche presenta sfide fisiche che non esistono per le immagini catturate con una semplice fotocamera, ad esempio. Anche quando queste immagini sono disponibili, il loro utilizzo può essere difficile a causa delle severe norme sulla privacy dei pazienti. Per questi motivi, la raccolta di grandi insiemi di dati per addestrare e testare i modelli di IA in campo medico è complessa. Di conseguenza, i modelli sviluppati spesso hanno problemi di generalizzazione, ovvero hanno difficoltà ad applicarsi a set di dati di domini diversi da quelli su cui sono stati addestrati.

In questa tesi esploriamo il modo in cui il deep learning può essere applicato all'analisi delle immagini mediche in contesti dove c'è scarsità di dati utilizzando tecniche di few-shot learning.
Nello specifico, partendo dalle soluzioni allo stato dell'arte, proponiamo innovazioni metodologiche per superare le limitazioni attuali. Inizialmente, viene presentata un'introduzione all'IA nell'ambito delle immagini medicali, e al few-shot learning, fornendo anche una panoramica teorica delle principali tecniche presenti in letteratura. Segue un'ampia revisione della letteratura sul few-shot learning applicato all'imaging medico, in cui sono stati analizzati 80 articoli per evidenziare le principali tendenze della ricerca e le attuali capacità dei modelli in vari task clinici. La tesi illustra poi le nostre proposte metodologiche. Partendo da un approccio data-driven incentrato sull'ottimizzazione delle principali architetture utilizzate in computer vision (reti neurali convolutive e vision transformers) in presenza di dataset di piccole dimensioni, si passa a un'indagine più approfondita nell'ambito del few-shot learning. In questo contesto, viene proposto un metodo per migliorare le capacità di generalizzazione dei modelli combinando il meta-learning, il principale framework utilizzato per il few-shot learning, con il concetto di causalità, che negli ultimi anni ha ottenuto un'attenzione significativa nella ricerca sull'IA. Basandoci sul meta-learning, abbiamo anche esplorato come l'integrazione di quest'ultimo con una fase di pre-addestramento che sfrutti self-supervised learning e features disentanglement, possa migliorare le prestazioni del modello rispetto agli approcci tradizionali di meta-learning. Inoltre, sfruttando la recente popolarità dell'IA generativa, abbiamo proposto un metodo che migliora le prestazioni di un feature extractor convolutivo allenandolo insieme a un modello generativo secondo un approccio a episodi. In particolare, in ogni episodio di allenamento, il modello generativo sintetizza immagini aggiuntive, così da fornire al feature extractor più informazioni da analizzare e potenziando così le sue capacità in fase di inferenza. Come contributo finale, abbiamo esteso la nostra ricerca al di là dell'imaging medico sviluppando un modello per classificare automaticamente gli strumenti per la rianimazione neonatale da utilizzare in uno scenario con dati limitati.
Complessivamente, l'obiettivo ultimo di questa tesi è quello di offrire alla comunità scientifica una panoramica dell'attuale stato dell'arte del few-shot learning per l'imaging medico e di proporre direzioni di ricerca promettenti che possano contribuire a colmare il divario tra la ricerca accademica e l'applicazione pratica di questi metodi in ambito clinico.


Inglese:

Artificial intelligence (AI) has deeply transformed the way we work, create, share information, and live. The release of ChatGPT in 2022 marked a turning point, revolutionizing how many tasks were approached. Since then, we've seen a wave of tools that can generate code scripts, produce images on demand, and even create high-quality movies—all from just a few lines of text. The impact of AI has been so profound that it has sparked debates about the future relevance of certain professions. Some question the long-term necessity of roles like software engineers, as tools like Copilot automate coding tasks. Similarly, there are concerns that highly efficient, cost-effective AI models may soon replace artists, filmmakers, and actors.

Beyond the fields already mentioned, AI is rapidly gaining traction in medicine. While the possibilities are vast and technological advancements impressive—new, better-performing models are released every few months—the actual use of AI in medicine remains relatively limited, often confined to research. The reason for this is straightforward: the medical field presents challenges usually absent in other computer vision scenarios. Medical applications are heavily regulated to ensure patient safety, making it unthinkable to deploy a model that has not been rigorously tested and proven reliable. Additionally, while data collection in other computer vision tasks is relatively easy in the age of the internet and big data, the same is not valid for the medical field. Acquiring medical images presents physical challenges that do not exist for images captured with a simple camera, for example. Even when these images are available, using them can be difficult due to strict patient privacy regulations. For these reasons, collecting large datasets to train and test AI models in the medical field is complex. As a result, the models developed often struggle with generalization—meaning they have difficulty applying to datasets from different domains than those they were trained on.

This thesis investigates the application of deep learning (DL) to medical image analysis in data-scarce environments by utilizing few-shot learning (FSL) techniques. Building on state-of-the-art (SoTA) approaches, it proposes novel methodological innovations to address the current limitations in this field. Specifically, we begin with a general introduction to AI in medical imaging and to FSL, providing a theoretical insight into the most popular SoTA methods. This is followed by a comprehensive literature review of FSL in medical imaging, analyzing 80 papers to highlight the main research trends and the current capabilities of AI models in various clinical tasks. The thesis then details our methodological proposals. Starting with a data-driven approach focused on optimizing the main architectures used for computer vision tasks, namely convolutional neural networks (CNNs) and vision transformers (ViTs), in data-scarce environments, it moves to a deeper investigation of FSL methodologies. In this context, we proposed a method to enhance the generalization capabilities of models in data-scarce environments by combining meta-learning with the concept of causality, which has gained significant attention in AI research in recent years.
Building on meta-learning, we also explored how integrating meta-learning with a self-supervised pre-training phase where feature disentanglement is enforced, can enhance model performance compared to traditional meta-learning approaches. Additionally, leveraging the recent surge in generative AI, we proposed a method that improves the performance of a convolutional feature extractor by meta-training it jointly with a generative model. The latter synthesizes additional images during each epoch, increasing the information the feature extractor can analyze, thus boosting its capabilities. As a final contribution, we extended our research beyond medical imaging by developing a classification model to automatically classify neonatal resuscitation tools designed for use in data-limited scenarios.
The ultimate goal of this thesis is to offer the scientific community insights into the current state-of-the-art in FSL for medical imaging and to propose promising research directions that can help bridge the gap between academic research and the practical application of such methods in clinical settings.
File