logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-02062026-163614


Tipo di tesi
Tesi di laurea magistrale
Autore
TRENTACAPILLI, GUIDO
URN
etd-02062026-163614
Titolo
From Single-Tool selection to Tool Pipelines: Extension and Evaluation of the Visual AI pilot VisionAgent
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Venturini, Rossano
Parole chiave
  • single-tool
  • tool-pipelines
  • VisionAgent
  • Visual AI Pilot
Data inizio appello
27/02/2026
Consultabilità
Completa
Riassunto (Inglese)
Riassunto (Italiano)
Questa tesi si propone di discutere ed estendere l'architettura del Visual AI Pilot Vision-Agent, un sistema agente multimodale adattato alle attività di visione artificiale automatizzando la pianificazione, la generazione di codice e l'esecuzione. La prima fase si basa sull'architettura originale del sistema: il lavoro presenta una demo funzionale che incorpora un'interfaccia utente e modelli di visione open source mantenendo la logica dell'agente originale. I contributi principali forniti dalla tesi sono estensioni nell'ambito della costruzione e del miglioramento della robustezza, della controllabilità e della scalabilità. In particolare, il lavoro introduce pipeline di visione strutturate e un catalogo tipizzato di strumenti di visione, descrivendo esplicitamente le richieste non visive da gestire e le pipeline in più fasi. Tali modifiche riducono l’ambiguità decisionale, migliorano il funzionamento e migliorano l’affidabilità del sistema senza modificare i modelli sottostanti. A ciò si aggiunge un benchmark controllato che confronta la versione di base e quella estesa del suo agente per valutare le soluzioni proposte. Sebbene entrambi gli approcci possano risolvere più o meno lo stesso compito semplice e alcuni intermedi, i risultati sperimentali suggeriscono che gli approcci basati su pipeline strutturate superano significativamente la baseline in un compito più sofisticato, poiché entrambi i metodi basati su pipeline mostrano la massima stabilità e la latenza più bassa, nonché alti tassi di successo in un dato compito.


This thesis aims to discuss and extend the architecture of the Visual AI Pilot Vision-Agent, a multimodal agentic system adapted to computer vision tasks by automating planning, code generation, and execution. The first phase builds upon the original architecture of the system: the work presents a functional demo that incorporates a UI and open-source vision models while maintaining the original agent logic. The core contributions made by the thesis are extensions in the aspect of building and enhancing robustness, controllability, and scalability. In particular, the work introduces structured vision pipelines and a typed catalog of vision tools, explicitly describing non-vision requests to be handled and multi-step pipelines. Such alterations decrease decision ambiguity, enhance operation, and improve system dependability without modifying the underlying models. This is complemented using a controlled benchmark comparing the baseline and the extended version of its agent to evaluate the proposed solutions. And while both approaches can solve fairly the same simple, and some intermediate, task, experimental results suggest structured pipeline approaches significantly outperform baseline on a more sophisticated task, as both pipeline methods exhibit the highest stability and lowest latency as well as high success rates on a given task.
File