logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03032025-123507


Tipo di tesi
Tesi di laurea magistrale
Autore
CONGIU, CARLA
URN
etd-03032025-123507
Titolo
Dante Similarity Search: un’applicazione web per ritrovare Dante nelle testimonianze dei sopravvissuti al Lager
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof.ssa Riccucci, Marina
relatore Prof. Del Grosso, Angelo Mario
Parole chiave
  • Embeddings
  • Sentence Similarity
  • Sentence Transformers
  • Vector Database
  • Voci dall’Inferno
Data inizio appello
04/04/2025
Consultabilità
Completa
Riassunto
Voci dall’Inferno è un progetto di ricerca dell’Università di Pisa coordinato dalla prof.ssa Marina Riccucci e sviluppato con il supporto dell’Istituto di Linguistica Computazionale “A. Zampolli”. L’iniziativa ha due principali obiettivi. Il primo mira a digitalizzare un ampio corpus di testimonianze non letterarie di deportati sopravvissuti ai campi di concentramento; il secondo obiettivo ambisce a identificare all’interno del repertorio la presenza di citazioni e/o allusioni al lessico di Dante. L’applicazione web Dante Similarity Search intende raggiungere questo secondo obiettivo. Lo strumento software è progettato per individuare, mediante approcci computazionali, citazioni e allusioni al lessico dantesco presenti nelle testimonianze e per condurre un confronto tra gli enunciati dei sopravvissuti e i versi della Commedia di Dante Alighieri. L’applicazione, realizzata impiegando il linguaggio di programmazione Python, utilizza diverse tecnologie di rappresentazione vettoriale dei dati testuali come Weaviate, una piattaforma open-source per la conservazione, la ricerca e la restituzione del testo, e Streamlit, un framework per lo sviluppo di applicazioni web perfettamente integrato in workflow di analisi del testo. Basandosi su metriche di Sentence Similarity, l’applicazione sfrutta modelli numerici per ottenere embeddings contestuali e in seguito misurarne la similarità.

Voci dall'Inferno is a research project of the University of Pisa, coordinated by Prof. Marina Riccucci and developed with the support of the "A. Zampolli" Institute of Computational Linguistics. The initiative has two main objectives. The first aims to digitize a vast corpus of non-literary testimonies from deportees who survived concentration camps. The second goal seeks to identify the presence of quotations and/or allusions to Dante's lexicon within this repertoire. The Dante Similarity Search web application is designed to achieve this second objective. This software tool employs computational approaches to detect citations and allusions to Dantean lexicon within the testimonies and to compare the survivors' statements with the verses of The Divine Comedy by Dante Alighieri. The application, developed using the Python programming language, leverages various vector representation technologies for textual data, such as Weaviate, an open-source platform for text storage, search, and retrieval, and Streamlit, a framework for developing web applications seamlessly integrated into text analysis workflows. By relying on Sentence Similarity metrics, the application utilizes numerical models to generate contextual embeddings and subsequently measure their similarity.
File