logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03122025-142127


Tipo di tesi
Tesi di dottorato di ricerca
Autore
COCCOMINI, DAVIDE ALESSANDRO
URN
etd-03122025-142127
Titolo
Deepfake Detection in Images and Videos
Settore scientifico disciplinare
IINF-03/A - Telecomunicazioni
Corso di studi
INGEGNERIA DELL'INFORMAZIONE
Relatori
tutor Dott. Amato, Giuseppe
tutor Dott. Caldelli, Roberto
tutor Dott. Falchi, Fabrizio
tutor Dott. Gennaro, Claudio
Parole chiave
  • articial intelligence
  • computer vision
  • deep learning
  • deepfake detection
Data inizio appello
24/03/2025
Consultabilità
Completa
Riassunto
The unstoppable and ever-increasing development of artificial intelligence is causing an existential problem to emerge in society, namely that of being able to distinguish between what is real and what is fiction. Techniques for manipulating multimedia content, and in particular images and videos, are now within anyone's reach and allow them to obtain results that are difficult to distinguish from real content. Deepfakes are the main phenomenon often consisting of images or videos manipulated to distort reality or modify the features and actions of filmed people. Also increasingly common are totally synthetic images obtained from textual prompts that can represent whatever the creator wishes. In such a context, it is crucial to be able to implement automatic systems to support human vision that can effectively identify deepfakes.
In this thesis, we have therefore tackled the problem of image and video deepfake detection starting with the realisation of hybrid techniques that simultaneously exploit the peculiarities of Convolutional Neural Networks and Vision Transformers. In doing so, we proposed novel Deep Learning architectures on which we based deepfake detectors capable of achieving state-of-the-art results. We subsequently tackled the problem of generalisation. Detectors are commonly particularly effective in identifying content manipulated with the techniques used for constructing the training set while they struggle in detection when the method used has not been seen before. We conducted various analyses to find out which deep learning architectures are more robust to this problem, highlighting the peculiarities of each. Also along these lines, we have proposed a technique for training deepfake detectors that, instead of relying on specific manipulation methods, exploits the concept of fingerprinting that is introduced by deepfake generation techniques. The results obtained with this technique show a very high level of generalization to synthetic image detection. In the field of synthetic image detection, we also proposed a multi-modality approach exploiting the prompt used for image generation in order to perform better detection.
Another problem affecting deepfake detectors is that of dealing with situations rarely represented in datasets but frequent in the real world. In this sense, we have proposed MINTIME, a spatiotemporal deepfake detector to identify manipulations made on videos and which can effectively handle situations such as multi-identity cases, i.e. videos in which several subjects are present in the same scene.
Finally, we explored the possible use of Super-Resolution as an adversarial attack technique toward deepfake detectors. From our experiments, we showed how using these approaches, which tend to be legitimate, on a pristine image can lead deepfake detectors to identify it as fake. On the other hand, and far more serious, a fake image manipulated further with super-resolution techniques can lose the characteristic artifacts that help identify it often ending up causing deepfake detectors numerous false negatives. In addition to an adversarial attack pipeline, we explored possible solutions to make the detectors more robust to this specific type of attack.
In conclusion, the research presented in this thesis aims to broadly address the problems related to deepfake detection such as the generalization and adversarial attacks, proposing innovative and more robust solutions like fingerprints-based detectors training or multimodality detection but also highlighting the still open challenges that will need to be faced in the future.

L'inarrestabile e sempre crescente sviluppo dell'intelligenza artificiale sta facendo emergere nella società un problema esistenziale ovvero quello di essere in grado di distinguere tra ciò che è reale e ciò che è finzione. Infatti, tecniche per manipolare contenuti multimediali e in particolare immagini e video, sono ormai alla portata di chiunque e consentono di ottenere risultati difficilmente distinguibili da contenuti reali. I deepfakes sono il principale fenomeno derivante da questa evoluzione. Si tratta tendenzialmente di immagini o video manipolate al fine di distorcere la realtà o modificare i tratti e le azioni delle persone filmate. Inoltre, sono sempre più comuni anche le immagini totalmente sintetiche ottenute a partire da prompt testuali e che possono rappresentare qualsiasi scenario o soggetto che l'ideatore desideri. In un contesto del genere, è fondamentale essere in grado di realizzare sistemi automatici a supporto della visione umana che siano in grado di identificare efficaciemente i deepfake.
In questa tesi abbiamo affrontato pertanto il problema della image e video deepfake detection partendo dalla realizzazione di tecniche ibride che sfruttino in maniera simultanea le peculiarità di Convolutional Neural Networks e Vision Transformers. Così facendo abbiamo proposto nuove architetture di Deep Learning su cui abbiamo basato dei deepfake detectors in grado di ottenere risultati allo stato dell'arte. Abbiamo successivamente affrontato il problema della generalizzazione. I detectors infatti sono comunemente particolarmente efficaci nell'identificare contenuti manipolati con le tecniche usate per la costruzione del training set mentre faticano nella detection quando il metodo utilizzato è inedito. Abbiamo condotto varie analisi per scoprire quale architetture di deep learning è più robusta a questo problema evidenziandone peculiarità di ognuna. Sempre su questo filone abbiamo proposto una tecnica di addestramento di deepfake detectors che anziché basarsi su specifici metodi di manipolazione, sfrutta il concetto di fingerprint che viene genericamente introdotto dalle tecniche di deepfake generation. I risultati ottenuti con questa tecnica sono molto promettenti in termini di generalizzazione su immagini sintetiche. Nel campo del rilevamento di immagini sintetiche, abbiamo anche proposto alcune soluzioni multimodali che sfruttano il prompt utilizzato per la generazione delle immagini al fine di eseguire una detection migliore.
Un altro problema che caratterizza i deepfake detectors è quello del gestire situazioni raramente rappresentate nei dataset ma frequenti nel mondo reale. In tal senso abbiamo proposto MINTIME, un deepfake detector spaziotemporale per identificare manipolazioni effettuate su video e che è in grado di gestire efficaciemente situazioni come i casi di multi-identity, ovvero video in cui sono presenti vari soggetti nella stessa scena.
Infine, abbiamo esplorato il possibile uso della Super-Resolution come tecnica di adversarial attack verso i deepfake detectors. Dai nostri esperimenti abbiamo evidenziato come usare questi approcci, tendenzialmente leggittimi, su un immagine pristine può condurre un deepfake detectors a identificarla come fake. D'altra parte e ben più grave, un'immagine fake manipolata ulteriormente con tecniche di super resolution può perdere gli artifacts caratteristici che aiutano ad identificarla finendo spesso per causare nei deepfake detectors numerosi falsi negativi. Oltre ad una adversarial attack pipeline abbiamo esplorato possibili soluzione per rendere più robusti i detectors a questo specifico tipo di attacchi.
In conclusione, la ricerca presentata in questa tesi ha lo scopo di affrontare ad ampio raggio i problemi legati alla deepfake detection, proponendo soluzioni innovative e più robuste ma anche evidenziando le sfide e i problemi ancora aperti.
File