ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-01282022-191248


Thesis type
Tesi di laurea magistrale
Author
BONGIOVANNI, MARCO
URN
etd-01282022-191248
Thesis title
Design and implementation of a system for automatic pedestrian counting in video streams based on artificial intelligence techniques
Department
INGEGNERIA DELL'INFORMAZIONE
Course of study
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Supervisors
relatore Prof. Gennaro, Claudio
relatore Prof. Falchi, Fabrizio
relatore Dott. Messina, Nicola
relatore Dott. Ciampi, Luca
Keywords
  • TimeSformer
  • self-attention
  • deep learning
  • crowd counting
  • convolutional neural network
  • computer vision
Graduation session start date
18/02/2022
Availability
Full
Summary
Crowd counting aims to estimate the total number of people in images or videos. In recent years, it has become a hot topic in computer vision, thanks to its several real-world applications, such as in public safety and disaster management. However, the crowd counting task involves some difficult challenges: people density not being uniform in the scene, inter-object occlusion, changes in light conditions or perspective between different scenes.
Most of the existing approaches use Convolutional Neural Networks (CNN) to estimate people density maps from static input images. Even though crowded video sequences are usually available, only very few methods proposed in the literature take advantage of the temporal correlation between neighbor frames in the same video.
In this thesis, in order to exploit temporal consistency, we regress people flows between consecutive frames instead of considering frames as independent images and estimating people density within them. Moreover, we exploit some state-of-the-art self-attention mechanisms, such as TimeSformer and Self-Attention convolution, to improve the counting capabilities. The proposed architecture performs better than the benchmark architecture in the video-based crowd counting literature. Furthermore, by testing both networks on datasets they had never seen before, our network also proves to have better generalization capability.


Il crowd counting cerca di stimare il numero totale di persone presenti in immagini o video. Negli ultimi anni, è diventato un hot topic nella computer vision grazie alle sue molteplici applicazioni nel mondo reale, ad esempio nella sicurezza pubblica e nella gestione dei disastri. Tuttavia, il crowd counting presenta alcune difficoltà: il fatto che la densità delle persone non sia uniforme nella scena, l'occlusione tra gli oggetti, i cambiamenti di illuminazione o prospettiva tra scene diverse.
La maggior parte degli approcci esistenti usa reti neurali convoluzionali (CNN) per stimare le mappe di densità partendo da immagini statiche in input. Anche se di solito sono disponibili sequenze video, solo pochissimi metodi proposti in letteratura sfruttano la correlazione temporale tra fotogrammi vicini nello stesso video.
In questa tesi, per sfruttare la correlazione temporale, stimiamo i flussi di persone tra fotogrammi consecutivi, piuttosto che considerare i fotogrammi come immagini indipendenti e stimare la densità di persone al loro interno. Inoltre, sfruttiamo alcuni meccanismi di self-attention all'avanguardia, come i TimeSformer e le Self-Attention convolution, per migliorare le capacità di conteggio. L'architettura sviluppata risulta avere performance migliori rispetto a quella di riferimento nella letteratura del video-based crowd counting. Inoltre, testando entrambe le reti su dataset su cui non erano state allenate precedentemente, la nostra rete risulta avere anche una migliore capacità di generalizzazione.
File