Optimization of Track-Before-Detect Systems for GPGPU

Szczegóły
Opis

Tytuł:: Optimization of Track-Before-Detect Systems for GPGPU
Optymalizacja systemów śledzenia przed detekcją dla GPGPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/154551.pdf
Data publikacji:: 2010
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie ruchu
równoległe przetwarzanie obrazów
GPGPU
śledzenie przed detekcją
Tracking
Parallel Image Processing
estimation
parallel image processing
Track-Before-Detect
Źródło:: Pomiary Automatyka Kontrola; 2010, R. 56, nr 7, 7; 655-667
0032-4140
Język:: angielski
Prawa:: CC BY: Creative Commons Uznanie autorstwa 3.0 Unported
Dostawca treści:: Biblioteka Nauki
: Artykuł

Przejdź do źródła

A computation speed of Track-Before-Detect algorithm with GPGPU implementations are compared in the paper. The conventional and subpixel variants for different thread processing block sizes are compared. Decimation of the state space for reduction of the external memory accesses is assumed. The GPGPU code profiling technique by the source code synthesis is applied for finding of the best parameters and code variants for particular GPGPU.

Systemy śledzenia oparte na schemacie śledzenia przed detekcją (TBD) umożliwiają śledzenia obiektów o niskim stosunku sygnału do szumu (SRN<1), co jest ważne dla zastosowań cywilnych i wojskowych. Konwencjonalne systemy śledzenia oparte na detekcji i śledzeniu nie są odpowiednie z uwagi na dużą ilość fałszywych lub utraconych detekcji. Najważniejszą wadą algorytmów TBD jest skala obliczeń, ponieważ wszystkie hipotezy (trajektorie) powinny być testowane, nawet jeśli nie ma obiektu w zasięgu. Proponowana metoda [8] oparta o decymację daje istotną (kilka razy) redukcję czasu przetwarzania na GPGPU. Programowalne karty graficzne (GPGPU) zawierają dużą ilość jednostek przetwarzania (procesorów strumieniowych) z bardzo małą, ale szybką pamięcią współdzieloną oraz dużą, ale bardzo wolną pamięcią globalną. Proponowana metoda [8] została w artykule przetestowana z wykorzystaniem algorytmu Spatio-Temporal TBD z dodatkowym profilowaniem kodu z wykorzystaniem platformy przetwarzania Nvidia CUDA. Kompilator CUDA jest dodatkowo używany do optymalizacji czasu przetwarzania z różnymi rozmiarami bloku przetwarzania. Przestrzeń stanów jest przetwarzana wewnętrznie z wykorzystaniem pamięci współdzielonej i przechowywana w pamięci globalnej po pewnej określonej liczbie kroków czasowych. Podejście z okienkowaniem jest używane do przetwarzania wejściowych danych pomiarowych 2D przechowywanych w pamięci globalnej.

Informacja

Powiązane pozycje