Video
Surveillance for Road Traffic Monitoring
Articolul
descrie cum a fost ales si implementat un algoritm de computer vision in 2
cazuri, MTSC si MTMC, unde MT vine de la “Multi Target”, SC vine de la “Single
Camera” si MC de la “Multi Camera”.
Pentru MTSC, se
utilizează DeepSORT, TC și MOANA.
DeepSORT
este o metodă online care combină caracteristicile de deep learning cu
urmărirea bazată pe filtrul Kalman și algoritmul lui Hungarian.
TC
utilizează o combinație de caracteristici vizuale și semantice pentru a
clusteriza și asocia datele, în timp ce
MOANA
utilizează asociația de date spațio-temporale folosind un model adaptiv de
aparență.
Pentru MTMC, re-ID
asociază obiectele între camere. Re-ID-ul vehiculelor a câștigat mai multă
atenție, cu propuneri precum cadrul PROVID (PROgressive Vehicle
re-Identification) și metoda DRDL (Deep Relative Distance Learning).
PROVID
utilizează rețele neurale de deep learning pentru o căutare superficiala în
domeniul de caracteristici și o căutare apropiată-până-la-distantă în spațiul
fizic.
DRDL
exploatează o rețea de convoluție profundă cu două ramuri pentru a proiecta
imaginile brute ale vehiculelor într-un spațiu euclidian, unde distanța poate
fi utilizată direct pentru a măsura similaritatea a două vehicule.
MTSC (Multi-Target Single-Camera):
Sunt comparati diferiti
algoritmi de deep learning, cum ar fi RetinaNet, YOLOv3, Mask RCNN, si Faster
R-CNN, pentru a vedea care este cel mai consistent algoritm. Modelul
pre--trained Faster R-CNN fiind cel mai bun cu o acuratete de 60%. Dupa
fine-tuning cu restul de frame-uri de la camera, rezultatul acuratetii este de
97%.
In
primul rand, detectia pentru fiecare imagine este calculata separat. O metoda
de abstractie a fundalului cum ar fi MOG este aplicata pentru a detecta doar
obiectele in miscare, de asemenea o tehnica de post procesare este aplicata
ulterior pentru a elimina din cadru alte obiecte in miscare cum ar fi biciclete
sau pietoni, ramanand numai obiectele ce au dimensiuni similare cu o masina.
Pentru
a menține ID-ul aceleiași mașini, sunt implementate două strategii, una bazată
pe suprapunerea maximă și cealaltă utilizând un filtru Kalman.
Metoda
de urmărire bazată pe suprapunerea maximă atribuie noi ID-uri fiecărui bounding
box (BB) detectat în primul cadru și apoi atribuie ID-urile detectărilor
anterioare către BB-urile noului cadru cu suprapunere maximă.
Filtrul
Kalman prezice poziția unui obiect în cadru următor, permițând menținerea
ID-ului unei mașini urmărite de-a lungul secvenței, chiar dacă o detectare este
pierdută într-un cadru. Fluxul optic este utilizat pentru a îmbunătăți
urmărirea, iar implementarea SORT a filtrului Kalman este utilizată.
MTMC (Multi-Target Multi-Camera):
Aceasta
sectiune descrie un sistem pentru a re-identifica mașinile în mai multe camere
într-o secvență video.
În
primul rând, se obțin fragmente de mașini din anotările de referință și se
utilizează pentru a antrena rețeaua, pentru a crea perechi pozitive și
negative. Ieșirea rețelei este folosită pentru a grupa vectorii de încorporare
folosind similaritatea cosinus ca funcție de distanță. Apoi, se proiectează un
sistem pentru a re-atribui ID-urile mașinilor între camerele diferite folosind
acest spațiu de încorporare.
Sistemul
de re-ID utilizează o cameră de referință pentru a menține ID-urile mașinilor
și compară fragmente de la o altă cameră pentru a atribui ID-uri. Procesul este
repetat pentru toate camerele într-o schemă cascada. Sistemul utilizează mai
multe fragmente pentru fiecare mașină pentru a asigura robustețea, iar
fragmentele sunt selectate în funcție de apariția lor în cadre consecutive.
Autorii remarcă că camerele nu sunt bine sincronizate, astfel încât o analiză
spațio-temporală nu este efectuată.
Pentru
a evalua metodele de urmărire MTSC si MTMC, sa calculat IDF1 separat pentru
toate camerele (10-15) ale secvenței 3 și media rezultatelor. O comparație
între algoritmii implementați este prezentată în Tabelul 2. Cel mai bun
rezultat este obținut utilizând detectorul de obiecte Faster R-CNN
pre-antrenat, cu suprapunere maximă ca metodă de urmărire (IDF1 mediu de 0,72).
Observăm, de asemenea, că performanța ambelor metode de urmărire este similară.
Există unele inconsistențe în rezultatele camerelor 12 și 15, pe care le
identifică ca probleme de teren. Aceste situații duc la unele comparații
incorecte, de exemplu, când Faster R-CNN se comportă bine în camera 12 pentru
că detecțiile cu această rețea sunt mai potrivite, în timp ce rezultatele
celorlalte metode sunt slabe.
Concluzie
Autorii au implementat o
tehnologie capabilă să urmărească cu succes mai multe vehicule pe o singură
cameră. Cele mai bune rezultate s-au obținut cu Faster R-CNN, care a fost
ajustat și optimizat special pentru acest set de date. Ambele metode de
urmărire, suprapunere maximă și Kalman, au funcționat la fel de bine, cu prima
fiind ușor mai bună. Cu toate acestea, rezultatele cantitative obținute au fost
slabe din cauza inconsistentei.
În
scenariul MTMC, se bazeaza pe performanța rețelei, iar precizia sa scăzută
afectează sistemul general de re-ID. În cele din urmă, lipsa informațiilor
temporale face ca abordarea lor să fie o problemă, deoarece este imposibil să
obțina o soluție în care două vehicule cu aceeași culoare și model să fie
diferențiate fără o referință temporală. Lipsa de sincronizare între camere
face dificilă proiectarea unui model care să rezolve această problemă fără a se
suprasolicita la secvența utilizată. Acest lucru ar necesita o sincronizare
manuală pentru fiecare secvență specifică de cadre și obiecte care trebuie
urmărite.
Link Lucrare: https://arxiv.org/pdf/2105.04908v1.pdf
Niciun comentariu:
Trimiteți un comentariu