miercuri, 31 mai 2023

Video Surveillance for Road Traffic Monitoring - Brainstormers v 2

 

Video Surveillance for Road Traffic Monitoring

                                     -Raul Sauca

            Articolul descrie cum a fost ales si implementat un algoritm de computer vision in 2 cazuri, MTSC si MTMC, unde MT vine de la “Multi Target”, SC vine de la “Single Camera” si MC de la “Multi Camera”.  

Pentru MTSC, se utilizează DeepSORT, TC și MOANA.

            DeepSORT este o metodă online care combină caracteristicile de deep learning cu urmărirea bazată pe filtrul Kalman și algoritmul lui Hungarian.

            TC utilizează o combinație de caracteristici vizuale și semantice pentru a clusteriza și asocia datele, în timp ce

            MOANA utilizează asociația de date spațio-temporale folosind un model adaptiv de aparență.

 

Pentru MTMC, re-ID asociază obiectele între camere. Re-ID-ul vehiculelor a câștigat mai multă atenție, cu propuneri precum cadrul PROVID (PROgressive Vehicle re-Identification) și metoda DRDL (Deep Relative Distance Learning).

            PROVID utilizează rețele neurale de deep learning pentru o căutare superficiala în domeniul de caracteristici și o căutare apropiată-până-la-distantă în spațiul fizic.

            DRDL exploatează o rețea de convoluție profundă cu două ramuri pentru a proiecta imaginile brute ale vehiculelor într-un spațiu euclidian, unde distanța poate fi utilizată direct pentru a măsura similaritatea a două vehicule.

 

MTSC (Multi-Target Single-Camera):

Sunt comparati diferiti algoritmi de deep learning, cum ar fi RetinaNet, YOLOv3, Mask RCNN, si Faster R-CNN, pentru a vedea care este cel mai consistent algoritm. Modelul pre--trained Faster R-CNN fiind cel mai bun cu o acuratete de 60%. Dupa fine-tuning cu restul de frame-uri de la camera, rezultatul acuratetii este de 97%.

            In primul rand, detectia pentru fiecare imagine este calculata separat. O metoda de abstractie a fundalului cum ar fi MOG este aplicata pentru a detecta doar obiectele in miscare, de asemenea o tehnica de post procesare este aplicata ulterior pentru a elimina din cadru alte obiecte in miscare cum ar fi biciclete sau pietoni, ramanand numai obiectele ce au dimensiuni similare cu o masina.

            Pentru a menține ID-ul aceleiași mașini, sunt implementate două strategii, una bazată pe suprapunerea maximă și cealaltă utilizând un filtru Kalman.

            Metoda de urmărire bazată pe suprapunerea maximă atribuie noi ID-uri fiecărui bounding box (BB) detectat în primul cadru și apoi atribuie ID-urile detectărilor anterioare către BB-urile noului cadru cu suprapunere maximă.

            Filtrul Kalman prezice poziția unui obiect în cadru următor, permițând menținerea ID-ului unei mașini urmărite de-a lungul secvenței, chiar dacă o detectare este pierdută într-un cadru. Fluxul optic este utilizat pentru a îmbunătăți urmărirea, iar implementarea SORT a filtrului Kalman este utilizată.

 

MTMC (Multi-Target Multi-Camera):

            Aceasta sectiune descrie un sistem pentru a re-identifica mașinile în mai multe camere într-o secvență video.

            În primul rând, se obțin fragmente de mașini din anotările de referință și se utilizează pentru a antrena rețeaua, pentru a crea perechi pozitive și negative. Ieșirea rețelei este folosită pentru a grupa vectorii de încorporare folosind similaritatea cosinus ca funcție de distanță. Apoi, se proiectează un sistem pentru a re-atribui ID-urile mașinilor între camerele diferite folosind acest spațiu de încorporare.

            Sistemul de re-ID utilizează o cameră de referință pentru a menține ID-urile mașinilor și compară fragmente de la o altă cameră pentru a atribui ID-uri. Procesul este repetat pentru toate camerele într-o schemă cascada. Sistemul utilizează mai multe fragmente pentru fiecare mașină pentru a asigura robustețea, iar fragmentele sunt selectate în funcție de apariția lor în cadre consecutive. Autorii remarcă că camerele nu sunt bine sincronizate, astfel încât o analiză spațio-temporală nu este efectuată.

            Pentru a evalua metodele de urmărire MTSC si MTMC, sa calculat IDF1 separat pentru toate camerele (10-15) ale secvenței 3 și media rezultatelor. O comparație între algoritmii implementați este prezentată în Tabelul 2. Cel mai bun rezultat este obținut utilizând detectorul de obiecte Faster R-CNN pre-antrenat, cu suprapunere maximă ca metodă de urmărire (IDF1 mediu de 0,72). Observăm, de asemenea, că performanța ambelor metode de urmărire este similară. Există unele inconsistențe în rezultatele camerelor 12 și 15, pe care le identifică ca probleme de teren. Aceste situații duc la unele comparații incorecte, de exemplu, când Faster R-CNN se comportă bine în camera 12 pentru că detecțiile cu această rețea sunt mai potrivite, în timp ce rezultatele celorlalte metode sunt slabe.

 

Concluzie

 

Autorii au implementat o tehnologie capabilă să urmărească cu succes mai multe vehicule pe o singură cameră. Cele mai bune rezultate s-au obținut cu Faster R-CNN, care a fost ajustat și optimizat special pentru acest set de date. Ambele metode de urmărire, suprapunere maximă și Kalman, au funcționat la fel de bine, cu prima fiind ușor mai bună. Cu toate acestea, rezultatele cantitative obținute au fost slabe din cauza inconsistentei.

            În scenariul MTMC, se bazeaza pe performanța rețelei, iar precizia sa scăzută afectează sistemul general de re-ID. În cele din urmă, lipsa informațiilor temporale face ca abordarea lor să fie o problemă, deoarece este imposibil să obțina o soluție în care două vehicule cu aceeași culoare și model să fie diferențiate fără o referință temporală. Lipsa de sincronizare între camere face dificilă proiectarea unui model care să rezolve această problemă fără a se suprasolicita la secvența utilizată. Acest lucru ar necesita o sincronizare manuală pentru fiecare secvență specifică de cadre și obiecte care trebuie urmărite.

 

Link Lucrare: https://arxiv.org/pdf/2105.04908v1.pdf

Niciun comentariu:

Trimiteți un comentariu

MNIST Digit Classification

  MNIST MNIST este un set de date clasic în domeniul recunoașterii de imagini, utilizat  pentru a antrena și evalua algoritmi de învățare au...