Optimization of Track-Before-Detect Systems with Decimation for GPGPU

Szczegóły
Opis

Tytuł:: Optimization of Track-Before-Detect Systems with Decimation for GPGPU
Optymalizacja systemów śledzenia przed detekcją z decymacją dla GPGPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/153570.pdf
Data publikacji:: 2010
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie ruchu
równoległe przetwarzanie obrazów
GPGPU
estimation
tracking
Track-Before-Detect
Źródło:: Pomiary Automatyka Kontrola; 2010, R. 56, nr 12, 12; 1523-1525
0032-4140
Język:: angielski
Prawa:: CC BY: Creative Commons Uznanie autorstwa 3.0 Unported
Dostawca treści:: Biblioteka Nauki
: Artykuł

Przejdź do źródła

Tracking systems based on Track-Before-Detect (TBD) scheme support tracking of low-SNR objects even if object signal is hidden in a noise. In this paper proposed method [1] is tested using Spatio-Temporal TBD algorithm with an additional code profiling using Nvidia CUDA computational platform. Different implementations are possible and the best solution for downsampled approach is based on the separate, register based state-space (without Shared Memory) and texture cache for input measurements.

Algorytmy śledzenia przed detekcją umożliwiają śledzenie obiektów w warunkach niskiej wartości SNR (Signal-to-Noise Ratio) jednak są one bardzo złożone obliczeniowo. Wykorzystując GPGPU (programowalny procesor graficzny) możliwa jest implementacja czasu rzeczywistego. Dla zaproponowanego w [1] rozwiązania optymalizacji implementacji algorytmu z decymacją sygnału wyjściowego możliwe jest kilkukrotne skrócenie czasu obliczeń. W artykule przedstawiono i porównano dalsze możliwe rozwiązania optymalizacji z wykorzystaniem platformy programowej Nvidia CUDA dla rekurencyjnego algorytmu Spatio-Temporal Track-Before-Detect. Przestrzeń stanów może być decymowana w celu lepszego wykorzystania szybkiej pamięci współdzielonej dostępnej w GPGPU, podczas gdy dane wejściowe oraz wyjściowe przechowywane są w wolnej pamięci globalnej. Wykorzystując testy numeryczne z wykorzystaniem opracowanego oprogramowania do profilowania kodu źródłowego stwierdzono, że najbardziej wydajnym rozwiązaniem spośród analizowanych jest implementacja z oddzielnymi kernelami przetwarzania dla poszczególnych wektorów ruchu, wykorzystania rejestrów do przechowywania danych przestrzeni stanów w miejsce pamięci współdzielonej oraz pamięci texture cache do buforowania danych wejściowych. W przypadku niewykorzystywania metody decymacji optymalnym jest wykorzystanie oddzielnych kerneli, rejestrów dla przestrzeni stanów i bezpośredniego dostępu do pamięci globalnej dla danych wejściowych.

Informacja

Powiązane pozycje