Tesi etd-11192025-113810 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
RUSSO, FEDERICO
URN
etd-11192025-113810
Titolo
Semantic chunking di video lezioni basato su modelli linguistici
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Cimino, Mario Giovanni Cosimo Antonio
relatore Galatolo, Federico Andrea
relatore Galatolo, Federico Andrea
Parole chiave
- Dense Retrieval
- Information Retrieval
- Knowledge Base
- Large Language Models
- LLM
- RAG
- Retrieval-Augmented Generation
- Semantic Chunking
Data inizio appello
05/12/2025
Consultabilità
Non consultabile
Data di rilascio
05/12/2095
Riassunto
Le architetture Retrieval-Augmented Generation (RAG) rappresentano oggi lo standard per mitigare le allucinazioni e l'obsolescenza della conoscenza nei Large Language Models (LLM). Tuttavia, l'efficacia di tali sistemi dipende strettamente dalla qualità della Knowledge Base. Nel contesto della formazione, le videolezioni costituiscono una fonte informativa di alto valore, ma le loro trascrizioni, generate tramite Automatic Speech Recognition (ASR), sono intrinsecamente rumorose, ridondanti e prive di struttura, rendendo il processo di retrieval spesso inefficiente.
Il presente lavoro di tesi propone e valida una pipeline automatizzata per l'acquisizione, la pulizia e la segmentazione (chunking) di trascrizioni da videolezioni, con il vincolo di operare su hardware locale. Nella prima fase, viene presentata una strategia di pulizia del testo basata su LLM locali (gemma3:12b). Sono stati confrontati tre approcci di pulizia: Category-Based Cleaning, Topic-Based Cleaning e Stylistic Reformulation. Tramite una valutazione LLM-as-a-Judge, l'approccio di riformulazione stilistica è risultato superiore, ottenendo i punteggi più alti in termini di densità informativa e RAG Effectiveness.
Nella seconda fase, lo studio analizza l'impatto delle strategie di chunking sulle performance di recupero. Sono stati confrontati metodi euristici (Recursive Character Text Splitter), semantici (Semantic Chunking) e basati su LLM. Per la validazione quantitativa è stato generato un Silver Dataset composto da query e riferimenti puntuali, misurando metriche token-wise quali Recall, Precision e Intersection over Union (IoU). L'analisi è stata completata da una valutazione qualitativa end-to-end della pipeline RAG utilizzando il framework Ragas, focalizzandosi su metriche come Answer Correctness e Context Precision.
I risultati sperimentali delineano un trade-off tra i diversi metodi di segmentazione: il metodo euristico (Recursive Character Text Splitter) configurato per chunks di piccole dimensioni si conferma come la scelta più robusta per massimizzare la correttezza fattuale della risposta generata da un RAG e per completezza del recupero.
Il metodo semantico proposto a finestre più ampie emerge come la strategia superiore per la precisione del contesto, dimostrandosi più efficace nell'isolare le informazioni rilevanti e ridurre il rumore.
Al contrario, il metodo di chunking basato su piccoli LLM locali evidenzia criticità strutturali nella gestione di documenti non strutturati.
Il lavoro conclude che non esiste una soluzione univoca e che l'ottimizzazione di un sistema RAG richiede una selezione della strategia di segmentazione guidata dalla priorità assegnata alla precisione del contesto rispetto alla granularità del recupero.
Il presente lavoro di tesi propone e valida una pipeline automatizzata per l'acquisizione, la pulizia e la segmentazione (chunking) di trascrizioni da videolezioni, con il vincolo di operare su hardware locale. Nella prima fase, viene presentata una strategia di pulizia del testo basata su LLM locali (gemma3:12b). Sono stati confrontati tre approcci di pulizia: Category-Based Cleaning, Topic-Based Cleaning e Stylistic Reformulation. Tramite una valutazione LLM-as-a-Judge, l'approccio di riformulazione stilistica è risultato superiore, ottenendo i punteggi più alti in termini di densità informativa e RAG Effectiveness.
Nella seconda fase, lo studio analizza l'impatto delle strategie di chunking sulle performance di recupero. Sono stati confrontati metodi euristici (Recursive Character Text Splitter), semantici (Semantic Chunking) e basati su LLM. Per la validazione quantitativa è stato generato un Silver Dataset composto da query e riferimenti puntuali, misurando metriche token-wise quali Recall, Precision e Intersection over Union (IoU). L'analisi è stata completata da una valutazione qualitativa end-to-end della pipeline RAG utilizzando il framework Ragas, focalizzandosi su metriche come Answer Correctness e Context Precision.
I risultati sperimentali delineano un trade-off tra i diversi metodi di segmentazione: il metodo euristico (Recursive Character Text Splitter) configurato per chunks di piccole dimensioni si conferma come la scelta più robusta per massimizzare la correttezza fattuale della risposta generata da un RAG e per completezza del recupero.
Il metodo semantico proposto a finestre più ampie emerge come la strategia superiore per la precisione del contesto, dimostrandosi più efficace nell'isolare le informazioni rilevanti e ridurre il rumore.
Al contrario, il metodo di chunking basato su piccoli LLM locali evidenzia criticità strutturali nella gestione di documenti non strutturati.
Il lavoro conclude che non esiste una soluzione univoca e che l'ottimizzazione di un sistema RAG richiede una selezione della strategia di segmentazione guidata dalla priorità assegnata alla precisione del contesto rispetto alla granularità del recupero.
File
| Nome file | Dimensione |
|---|---|
La tesi non è consultabile. |
|