logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01072026-164345


Tipo di tesi
Tesi di laurea magistrale
Autore
MARCUZZO, RICCARDO
URN
etd-01072026-164345
Titolo
Mappare la Ricerca Europea: LLM-Based Topic Modeling e Visual Analytics del Database CORDIS
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Bondielli, Alessandro
Parole chiave
  • european projects
  • natural language processing
  • rag system
  • topic modeling
Data inizio appello
06/02/2026
Consultabilità
Non consultabile
Data di rilascio
06/02/2029
Riassunto
Il database CORDIS raccoglie oltre 100.000 progetti di ricerca finanziati dall'Unione Europea dal 1984 a oggi. Nonostante la sua rilevanza strategica, la navigazione e l'interrogazione efficace di questo corpus rappresenta una sfida per ricercatori e analisti.
Questa tesi presenta la costruzione di una tassonomia gerarchica data-driven e di una dashboard interattiva per l'esplorazione del database. La tassonomia, generata con BERTopic testando 30 configurazioni diverse su tre embedding model, organizza i progetti in 259 topic distribuiti su quattro livelli gerarchici, convergenti verso 5 macro-aree disciplinari.
La dashboard integra funzionalità di visual analytics per l'esplorazione della tassonomia, analisi dell'expertise delle organizzazioni, e un sistema RAG per interrogazioni semantiche sui progetti con threshold adattive e un router conversazionale.
Il risultato è uno strumento operativo che rende interrogabile un corpus altrimenti difficilmente navigabile, fornendo supporto a decisioni di research intelligence.

The CORDIS database contains over 100,000 research projects funded by the European Union from 1984 to the present. Despite its strategic relevance, effective navigation and querying of this corpus remain a challenge for researchers and analysts.
This thesis presents the construction of a data-driven hierarchical taxonomy and an interactive dashboard for exploring the database. The taxonomy, was using BERTopic, testing 30 different configurations across three embedding models, organizes projects into 259 topics distributed across four hierarchical levels, converging into five macro-disciplinary areas.
The dashboard integrates visual analytics functionalities for exploring the taxonomy, analyzing organizational expertise, and a RAG system for semantic querying of projects with adaptive thresholds and a conversational router.
The result is an operational tool that makes an otherwise difficult-to-navigate research corpus queryable, providing support for research intelligence decision-making.
File