Tesi etd-01282022-191248

Tipo di tesi

Tesi di laurea magistrale

Autore

BONGIOVANNI, MARCO

URN

etd-01282022-191248

Titolo

Design and implementation of a system for automatic pedestrian counting in video streams based on artificial intelligence techniques

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING

Relatori

relatore Prof. Gennaro, Claudio
relatore Prof. Falchi, Fabrizio
relatore Dott. Messina, Nicola
relatore Dott. Ciampi, Luca

Parole chiave

computer vision
convolutional neural network
crowd counting
deep learning
self-attention
TimeSformer

Data inizio appello

18/02/2022

Consultabilità

Completa

Riassunto

Crowd counting aims to estimate the total number of people in images or videos. In recent years, it has become a hot topic in computer vision, thanks to its several real-world applications, such as in public safety and disaster management. However, the crowd counting task involves some difficult challenges: people density not being uniform in the scene, inter-object occlusion, changes in light conditions or perspective between different scenes.
Most of the existing approaches use Convolutional Neural Networks (CNN) to estimate people density maps from static input images. Even though crowded video sequences are usually available, only very few methods proposed in the literature take advantage of the temporal correlation between neighbor frames in the same video.
In this thesis, in order to exploit temporal consistency, we regress people flows between consecutive frames instead of considering frames as independent images and estimating people density within them. Moreover, we exploit some state-of-the-art self-attention mechanisms, such as TimeSformer and Self-Attention convolution, to improve the counting capabilities. The proposed architecture performs better than the benchmark architecture in the video-based crowd counting literature. Furthermore, by testing both networks on datasets they had never seen before, our network also proves to have better generalization capability.

Il crowd counting cerca di stimare il numero totale di persone presenti in immagini o video. Negli ultimi anni, è diventato un hot topic nella computer vision grazie alle sue molteplici applicazioni nel mondo reale, ad esempio nella sicurezza pubblica e nella gestione dei disastri. Tuttavia, il crowd counting presenta alcune difficoltà: il fatto che la densità delle persone non sia uniforme nella scena, l'occlusione tra gli oggetti, i cambiamenti di illuminazione o prospettiva tra scene diverse.
La maggior parte degli approcci esistenti usa reti neurali convoluzionali (CNN) per stimare le mappe di densità partendo da immagini statiche in input. Anche se di solito sono disponibili sequenze video, solo pochissimi metodi proposti in letteratura sfruttano la correlazione temporale tra fotogrammi vicini nello stesso video.
In questa tesi, per sfruttare la correlazione temporale, stimiamo i flussi di persone tra fotogrammi consecutivi, piuttosto che considerare i fotogrammi come immagini indipendenti e stimare la densità di persone al loro interno. Inoltre, sfruttiamo alcuni meccanismi di self-attention all'avanguardia, come i TimeSformer e le Self-Attention convolution, per migliorare le capacità di conteggio. L'architettura sviluppata risulta avere performance migliori rispetto a quella di riferimento nella letteratura del video-based crowd counting. Inoltre, testando entrambe le reti su dataset su cui non erano state allenate precedentemente, la nostra rete risulta avere anche una migliore capacità di generalizzazione.

File

Nome file	Dimensione
Thesis.pdf	8.68 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01282022-191248