Temat: przetwarzanie równoległe - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: An experimental study on recognizing classes of dependence relations
Techniki identyfikacji klas relacji zależności w pętlach programowych
Autorzy:: Bielecki, W.
Klimek, T.
Pietrasik, M.
Powiązania:: https://bibliotekanauki.pl/articles/156048.pdf
Data publikacji:: 2009
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: pętle afiniczne
relacja zależności
transformacje pętli
przetwarzanie równoległe
affine loops
dependence relations
program transformation
parallelization
Opis:: A classification of dependence relations representing exact dependences in program loops is presented. The class of a relation causes the choice of techniques for program loop parallelization. Techniques to recognize the class of a relation are presented. The implementation of these techniques by means of the Omega library is discussed. Results of an experimental study aimed at recognizing classes of dependence relations extracted for popular benchmarks (Livermore Loops, NAS, and UTDSP) are outlined.
W artykule dokonano podziału relacji zależności występujących w pętlach programowych. Na podstawie przeprowadzonych obserwacji wyodrębniono sześć podstawowych klas takich relacji. Trafne rozpoznanie danej klasy relacji opisującej zależności, determinuje dobór odpowiedniej techniki transformacji pętli programowej i tym samym pozwala na uzyskanie znacznie większego jej stopnia równoległości w porównaniu z metodami bazującymi na rozwiązaniach przybliżonych. Rozwiązania takie, zawierają zdecydowanie większą liczbę zależności, aniżeli ich faktyczna liczba wystąpień. W celu ułatwienia procesu identyfikacji poszczególnych klas relacji zależności, przedstawiono szereg formalnych metod ich rozpoznania wykorzystujących szeroki wachlarz mechanizmów zawartych w bibliotece Omega. Na potrzeby przeprowadzonych badań zaimplementowano narzędzie, w ramach którego przeanalizowano zestawy pętli trzech popularnych benchmarków : Livermoore, NAS i UTDSP. Uzyskane wyniki pozwoliły wyciągnąć wnioski odnośnie procentowego udziału relacji zależności w zaproponowanych przez autorów klasach.
Źródło:: Pomiary Automatyka Kontrola; 2009, R. 55, nr 10, 10; 799-802
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: Implementation of Spatio-Temporal Track-Before-Detect Algorithm using GPU
Implementacja przestrzenno-czasowego algorytmu śledzenia przed detekcją z wykorzystaniem GPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/154011.pdf
Data publikacji:: 2009
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie przed detekcją
cyfrowe przetwarzanie obrazów
przetwarzanie równoległe obrazów
estimation
Track-Before-Detect
digital image processing
parallel image processing
Opis:: Track-Before-Detect (TBD) Algorithms are especially suitable for tracking low-observable targets. For low signal-to-noise ratio (SNR <1) cases tracking of such target is possible using TBD approach. Using accumulative approach and more than single measurements a noise level can be reduced in algorithm way, and gives SNR value enhancement. Due to the target's dynamic the possible motion vectors should be considered. In this article in parallel processing approach based on GPU (Graphics Processing Unit) and CUDA (a software platform for GPU programming) is discussed. GPU gives ability of using high number of stream processors and high clocking frequency for parallel algorithms. Because TBD algorithms have abilities of processing in parallel way they are well suited for GPU implementations and real-time processing. Using sparse characteristic of Markov's matrix the Spatio-Temporal TBD algorithm is considered and different implementations schemes (texture, global memory, global with shared memory) for state space access are compared and real-time processing for typical image sizes are obtained.
Algorytmy śledzenia przed detekcją (TBD - Track-Before-Detect) umożliwiają realizacje systemów estymacji parametrów kinematycznych obiektów także przy warunku SNR<1 (Signal-to-Noise Ratio), co pozwala na śledzenie obiektów, których sygnał jest poniżej wartości szumów. Wykorzystując podejście akumulacyjne oraz więcej niż jeden pomiar możliwe jest zmniejszenie poziomu szumów, a przez to zwiększenie wartości SNR. Z uwagi na dynamikę obiektu konieczne jest uwzględnienie możliwych wektorów ruchu obiektu. Wymagania te powodują, że algorytmy te mają olbrzymi koszt obliczeniowy niezależny od ilości śledzonych obiektów. W artykule zaproponowano rozwiązanie przetwarzania równoległego w czasie rzeczywistym dla obrazów, z wykorzystaniem GPU (Graphical Processing Unit) i platformy programowej CUDA. Zaletą wykorzystania GPU jest możliwość użycia bardzo dużej liczby procesorów strumieniowych, charakteryzujących się prostą budową i wysoką częstotliwością taktowania, co pozwala na efektywną czasowo realizację algorytmów przetwarzania równoległego. Ponieważ algorytmy śledzenia przed detekcją mają cechy predysponujące je do przetwarzania równoległego, więc wykorzystanie GPU jest rozwiązaniem pozwalającym na przetwarzanie w czasie rzeczywistym. W artykule rozpatrywane jest zastosowanie algorytmu rekurencyjnego: przestrzenno-czasowego śledzenia przed detekcją, ze szczególnym uwzględnieniem możliwości redukcji ilości obliczeń dla rzadkich macierzy Markowa. Porównano różne warianty implementacji dla dostępu do wielowymiarowej przestrzeni stanów, która jest przechowywana w pamięci karty graficznej. Dane wejściowe także przechowywane są w pamięci karty graficznej, a dostęp realizowany za pomocą odczytu tekstury, co pozwala na realizację także ułamkowych wektorów ruchu, dzięki wbudowanej interpolacji dwuliniowej. Przestrzeń stanów jest czterowymiarowa i dostęp do niej obciąża znacząco magistralę pamięci. Przetestowano warianty: odczytu z wykorzystaniem tekstur oraz zwykłego dostępu do pamięci, oraz zapisu bezpośredniego i z synchronizowanym buforowaniem w pamięci współdzielonej, uzyskując zbliżone wyniki czasu przetwarzania. Ponieważ w architekturze CUDA nie jest możliwy zapis do tekstury, dlatego konieczne jest dodatkowe kopiowanie wyników przestrzeni stanów do obszaru tekstury, co jednak nie powoduje znaczącego obciążenia w systemie. Wykazano, że możliwa jest realizacja systemów śledzenie przed detekcją z wykorzystaniem GPU pracującym w czasie rzeczywistym. Dla obrazów o rozmiarze 256x256 pikseli osiągnięto ponad 200 klatek na sekundę przy 13 wektorach ruchu, a dla 1024x1024 osiągnięto 15 klatek na sekundę, przy wykorzystaniu procesora G80 (GeForce 8800 GTS).
Źródło:: Pomiary Automatyka Kontrola; 2009, R. 55, nr 8, 8; 657-659
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 3.

Tytuł:: Systemy wieloprocesorowe w automatyce i pomiarach
Multiprocesor systems in automatic control and measurements
Autorzy:: Jordan, A.
Bycul, R.
Forenc, J.
Myszkowski, P.
Powiązania:: https://bibliotekanauki.pl/articles/158209.pdf
Data publikacji:: 2004
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: klaster
przetwarzanie równoległe
metoda gradientu sprzężonego
metoda spekulacyjna
cluster
parallel processing
conjugate gradient method
speculative method
Opis:: Artykuł przedstawia konstrukcję homogenicznego systemu klaster - KETIM2, oraz dwa przykłady jego wykorzystania do rozwiązywania wybranych zagadnień z teorii sterowania i przybliżonych metod elektrotechniki. Pierwszym z nich jest równoległa implementacja algorytmu gradientu sprzężonego wykorzystywanego w teorii optymalizacji i metodzie elementów skończonych. Drugi przykład dotyczy równoległej analizy stanów nieustalonych w układach opisanych nieliniowym równaniem stanu. W tym drugim przypadku analizowano dynamikę silnika asynchronicznego pierścieniowego stosując metodę spekulacyjną. Przedstawiono również perspektywy zastosowań systemów wieloprocesorowych w technice pomiarowej.
The paper presents the construction of a homogenous cluster system - KETIM2 and two examples of its application for solving selected problems of control theory and approximate methods of electrical engineering. First of them is a parallel implementation of the conjugate gradient algorithm applied in the optimization theory and in the method of finite elements. The second example concerns parallel analysis of transient states in a dynamic system described by a nonlinear state equation. In the second case dynamics of asynchronous slip-ring motor was analysed appluing a speculative method. The perspectives of applications of multiprocessor systems in measurement technique were also presented.
Źródło:: Pomiary Automatyka Kontrola; 2004, R. 50, nr 10, 10; 16-20
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 4.

Tytuł:: Efektywna implementacja algorytmu wyszukiwania wzorców genetycznych
On efficient implementation of the search algorithm for genome patterns
Autorzy:: Milik, A.
Pułka, A.
Powiązania:: https://bibliotekanauki.pl/articles/156619.pdf
Data publikacji:: 2011
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: programowanie dynamiczne
identyfikacja wzorców
rozpoznawanie wzorców
przetwarzanie równoległe
przetwarzanie potokowe
dynamic programming
computational methods
pattern identification
pattern recognition
parallel processing
pipeline processing
Opis:: W artykule zaprezentowano implementację algorytmu obliczającego stopień podobieństwa sekwencji znaków (genów) do zadanego wzorca. Algorytm wywodzi się z biologii obliczeniowej. Rozwiązania programowe wymagają znacznych zasobów sprzętowych oraz czasu. W badaniach nad algorytmem główny nacisk położono na poznanie jego własności i ich wykorzystanie przy implementacji. Pozwoliło to stworzyć bardzo oryginalna implementację zapewniającą niezwykle oszczędne gospodarowanie zasobami w układzie programowalnym jak i uzyskanie bardzo wysokich częstotliwości pracy.
The paper describes implementation of the computation algorithm in modern, complex programmable hardware devices. The presented algorithm originates from computation biology and works on very long chains of symbols which come from reference patterns of the genome. The software solutions in this field are very limited and need large time and space resources. The main research efforts were aimed at investigating the properties of the searching algorithm. Especially, the influence of the penalty values assigned to the mismatch, insertion and deletion on the algorithm was analysed. This allowed obtaining a completely new algorithm offering extremely efficient implementation and exhibiting the outstanding performance. The Virtex 5 FPGA family was considered to be a target family for the searching algorithm based on the dynamic programming idea. The obtained results are very promising and show the dominance of the dedicated platform over the general purpose PC-based systems.
Źródło:: Pomiary Automatyka Kontrola; 2011, R. 57, nr 1, 1; 15-18
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 5.

Tytuł:: Zwiększenie lokalności programów równoległych wykonywanych w systemach osadzonych
Increasing data locality of parallel programs executed in embedded systems
Autorzy:: Bielecki, W.
Kraska, K.
Powiązania:: https://bibliotekanauki.pl/articles/156188.pdf
Data publikacji:: 2008
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: lokalność danych
kompilatory
systemy osadzone
przetwarzanie równoległe
transformacje pętli programowych
data locality
compilers
embedded systems
parallel processing
loop transformations
Opis:: Zwiększenie lokalności danych w programie jest niezbędnym elementem zwiększenia wydajności części programowych systemu osadzonego, zmniejszenia zużycia energii oraz redukcji rozmiaru pamięci w układzie. Przedstawiono komplementarne wykorzystanie metody szacowania lokalności danych wobec nowej metody ekstrakcji wątków, ich aglomeracji w celu dostosowania do możliwości docelowej architektury przy zastosowaniu różnych typów podziału iteracji pętli (mapowanie czasowo-przestrzenne) i z uwzględnieniem wpływu zastosowania znanych technik poprawy lokalności danych. Wybór najlepszej kombinacji transformacji kodu pod kątem lokalności danych umożliwia zwiększenie wydajności programu względem wskazanych czynników. Zaprezentowano podejście do analizy lokalności danych dla wybranych pętli, przedstawiono i omówiono wyniki badań eksperymentalnych a także wskazano kierunki dalszych prac.
Increasing data locality in a program is a necessary factor to improve performance of software parts of embedded systems, to decrease power consumption and reduce memory on chip size. A possibility of applying a method of quantifying data locality to a novel method of extracting synchronization-free threads is introduced. It can be used to agglomerate extracted synchronization-free threads for adopting a parallel program to a target architecture of an embedded system under various loop schedule options (space-time mapping) and the influence of well known techniques to improve data locality. The choice of the best combination of loop transformation techniques regarding to data locality makes possible improving program performance. A way of an analysis of data locality is presented. Experimental results are depicted and discussed. Conclusion and future research are outlined.
Źródło:: Pomiary Automatyka Kontrola; 2008, R. 54, nr 8, 8; 464-468
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 6.

Tytuł:: Ekstrakcja równoległości w programach ANSI C dla systemów osadzonych
Extracting parallelism in ANSI C programs for embedded computer systems
Autorzy:: Bielecki, W.
Siedlecki, K.
Kraska, K.
Powiązania:: https://bibliotekanauki.pl/articles/154605.pdf
Data publikacji:: 2010
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: kompilatory
osadzone systemy komputerowe
ANSI C
przetwarzanie równoległe
transformacje pętli programowych
compilers
embedded computer systems
parallel processing
loop transformations
Opis:: W artykule zaprezentowano nowe podejście do ekstrakcji równole-głości w programach ANSI C dla architektur wieloprocesorowych polega-jące na wyznaczaniu niezależnych fragmentów obliczeń w pętlach programowych dowolnie zagnieżdżonych. Przedstawione podejście pozwala na ekstrakcję równoległości dla szerszego spektrum pętli programowych w porównaniu z transformacjami afinicznymi, uznawanymi dotychczas za najbardziej efektywne. Przedstawiono analizę zastosowania proponowanego podejścia dla wybranych źródeł języka ANSI C. Omówiono wyniki badań eksperymentalnych oraz wskazano kierunki dalszych prac.
The application of embedded computer systems extends from small consumer products to complex industrial solutions. Performance critical solutions require application of more efficient controllers using parallel architectures such as VLIW or multiprocessor (multi cores) architectures. The interest in using the parallelism in embedded systems puts up new challenges for science and engineering and requires new methods and tools. The paper presents a new approach to the extraction of parallelism in ANSI C programs for multiprocessor architectures, consisting of synchronization free threads of computations (slices). The presented approach allows the extraction of parallelism on a wider range of program loops than that extracted by the affine transformation framework identified as the most efficient. Scientific results achieved are implemented as an academic source to source parallelizing compiler. The analysis of applying the approach to selected ANSI C sources is presented. Experimental results are depicted and discussed. Conclusions and future research are discussed.
Źródło:: Pomiary Automatyka Kontrola; 2010, R. 56, nr 7, 7; 697-700
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 7.

Tytuł:: Realizacja urządzeń automatyki elektroenergetycznej na bazie układów FPGA
Realization of automatic power system devices based on FPGA chip
Autorzy:: Niklas, P.
Powiązania:: https://bibliotekanauki.pl/articles/156389.pdf
Data publikacji:: 2012
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: układ FPGA
przetwarzanie równoległe
sprzętowa realizacja
układ automatycznej synchronizacji prądnic
FPGA chip
parallel realization
hardware realization
automatic synchronizer of power units
Opis:: W artykule opisano wykorzystanie układu FPGA do realizacji układu automatycznej synchronizacji prądnic. Zastosowanie układu FPGA zapewnia w pełni sprzętową realizację procesu synchronizacji. Gwarantuje to deterministyczną i niezawodną realizację procesu synchronizacji. Układ FPGA pozwala również na równoległą realizację poszczególnych zadań procesu synchronizacji.
In the paper there is described implementation of a power object automatic synchronizer with use of the FPGA chip. The FPGA unit is a programmable chip. It is equipped with a specific set of logic elements, among which you can define the network of connections (Fig. 1). In this way, a hardware implementation of the desired functionality of the system is obtained [3]. The task of the automatic synchronizer is to connect a synchronized power object to parallel work, according to the amplitude, frequency and phase conditions. Given the very serious consequences of erroneous execution of the synchronization process [1], automatic synchronizers belong to the group of devices which puts very high demands for reliability. Application of FPGA provides fully hardware realization of the synchronization process. The advantage is high reliability, resulting from elimination of layers of software, which can be a potential source of errors. Another advantage is the true parallel realization of each task of the synchronization process. Each task is carried out in parallel by separate blocks of logic elements, as shown in Fig. 3. This solution also provides fully deterministic execution of the program code. The developed synchronizer enables full registration of parameters of the synchronization process, which is realized by application operating on a PC. Communication between the synchronization process and the application takes place via the Internet and the mechanism of direct memory access DMA. The communication diagram is shown in Fig. 5.
Źródło:: Pomiary Automatyka Kontrola; 2012, R. 58, nr 1, 1; 84-87
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 8.

Tytuł:: Optimization of Track-Before-Detect Systems with Decimation for GPGPU
Optymalizacja systemów śledzenia przed detekcją z decymacją dla GPGPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/153570.pdf
Data publikacji:: 2010
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie ruchu
równoległe przetwarzanie obrazów
GPGPU
estimation
tracking
Track-Before-Detect
Opis:: Tracking systems based on Track-Before-Detect (TBD) scheme support tracking of low-SNR objects even if object signal is hidden in a noise. In this paper proposed method [1] is tested using Spatio-Temporal TBD algorithm with an additional code profiling using Nvidia CUDA computational platform. Different implementations are possible and the best solution for downsampled approach is based on the separate, register based state-space (without Shared Memory) and texture cache for input measurements.
Algorytmy śledzenia przed detekcją umożliwiają śledzenie obiektów w warunkach niskiej wartości SNR (Signal-to-Noise Ratio) jednak są one bardzo złożone obliczeniowo. Wykorzystując GPGPU (programowalny procesor graficzny) możliwa jest implementacja czasu rzeczywistego. Dla zaproponowanego w [1] rozwiązania optymalizacji implementacji algorytmu z decymacją sygnału wyjściowego możliwe jest kilkukrotne skrócenie czasu obliczeń. W artykule przedstawiono i porównano dalsze możliwe rozwiązania optymalizacji z wykorzystaniem platformy programowej Nvidia CUDA dla rekurencyjnego algorytmu Spatio-Temporal Track-Before-Detect. Przestrzeń stanów może być decymowana w celu lepszego wykorzystania szybkiej pamięci współdzielonej dostępnej w GPGPU, podczas gdy dane wejściowe oraz wyjściowe przechowywane są w wolnej pamięci globalnej. Wykorzystując testy numeryczne z wykorzystaniem opracowanego oprogramowania do profilowania kodu źródłowego stwierdzono, że najbardziej wydajnym rozwiązaniem spośród analizowanych jest implementacja z oddzielnymi kernelami przetwarzania dla poszczególnych wektorów ruchu, wykorzystania rejestrów do przechowywania danych przestrzeni stanów w miejsce pamięci współdzielonej oraz pamięci texture cache do buforowania danych wejściowych. W przypadku niewykorzystywania metody decymacji optymalnym jest wykorzystanie oddzielnych kerneli, rejestrów dla przestrzeni stanów i bezpośredniego dostępu do pamięci globalnej dla danych wejściowych.
Źródło:: Pomiary Automatyka Kontrola; 2010, R. 56, nr 12, 12; 1523-1525
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 9.

Tytuł:: Small Targets Subpixel Position Estimation using GPU
Estymacja położenia obiektów o bardzo małych rozmiarach z rozdzielczością subpikselową z wykorzystaniem GPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/154007.pdf
Data publikacji:: 2009
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie ruchu
detekcja
równoległe przetwarzanie obrazów
estimation
motion tracking
detection
parallel image processing
Opis:: Position estimation of small targets occurs in numerous applications and for pixel-size targets subpixel resolution can be obtained using advanced image processing algorithms. Subpixel estimation using Center-of-Gravity (Center-of-Mass) give ability of position estimation with magnitude higher resolution in comparison to the conventional, maxima based search method. Application of COG algorithm [3] needs prior detection of targets using morphological filters. In this article is assumed 3x3 window and up to 2x2 pixels excitation by target. Proposed detection method and COG estimation can be processed in parallel what is important for CPU and GPU (Graphics Processing Unit) implementations due to single-pass image processing. Different implementations are compared (full processing of both algorithms; COG calculation driven by detection; full and prefilled results data storage; two implementations of divide operations in COG) for 1024x1024 input images. For GPU implementation CUDA (Compute Unified Device Architecture) is used.
Konieczność detekcji położenia obiektów o małym rozmiarze, rzędu rozmiaru piksela występuje w wielu praktycznych zastosowaniach cyfrowego przetwarzania obrazów. Dla obiektów o tych rozmiarach występują pobudzenia zwykle większej liczby pikseli, co pozwala na estymację położenia z rozdzielczością subpikselową (podpikselową). Możliwe jest wyznaczanie położenia obiektu w takim przypadku z precyzją kilka, kilkanaście razy większą niż w przypadku estymacji opartej na poszukiwaniu położenia maksymalnej wartości sygnału. W tym celu konieczne jest zastosowanie algorytmu estymacji, takiego jak algorytm środka ciężkości wyliczającego estymaty wokół maksymalnej wartości wykrytej za pomocą filtru morfologicznego. Dla obiektów o rozmiarze rzędu piksela (na przetworniku) pobudzenie dotyczy od jednego do czterech pikseli, jednak konieczne jest uwzględnienie niezbędnej separacji pomiędzy potencjalnymi sąsiednimi obiektami. Jeśli nie występuje nałożenie lub stykanie się obiektów, to za pomocą zaproponowanego detektora morfologicznego dla obrazów w odcieniach szarości możliwe jest wykrycie obiektu. Do precyzyjnego wyznaczania położenia wykorzystano zoptymalizowany algorytm środka ciężkości, w którym zmieniono sposób indeksacji wartości pikseli, tak by zmniejszyć ilość operacji arytmetycznych, zarówno mnożeń jak i dodawań. Ponieważ istotna jest efektywna obliczeniowo realizacja algorytmu porównano dwie zasadnicze implementacje w oparciu o CPU i GPU (Graphical Processing Unit). Kluczowym zagadnieniem jest minimalizacja ilości przesyłanych danych w obu implementacjach, między jednostką przetwarzającą a pamięcią przechowującą obraz wejściowy i wyniki (położenia obiektów). Rozwiązanie bazujące na zoptymalizowanym algorytmie detekcji i estymacji położenia pozwala na jednoprzebiegowe przetwarzanie obrazu, bez konieczności magazynowania wyników pośrednich w stosunkowo wolnej pamięci. Zbadano i porównano różne warianty implementacji, wykorzystujące pełne przetwarzanie wszystkich danych za pomocą obu algorytmów, warunkowe przetwarzanie algorytmu środka ciężkości sterowane detekcją, wstępne wypełnianie pamięci wyników oraz dwa warianty implementacji operacji dzielenia wymaganej przez algorytm środka ciężkości. Uzyskane wyniki pokazują, że implementacja z wykorzystaniem GPU była co najmniej o rząd wielkości szybsza w stosunku do CPU. W badaniach wykorzystano pojedynczy rdzeń CPU Q6600 oraz GPU G80 (Geforce 8800 GTS). Zaproponowane rozwiązania pozwalają na implementację w czasie rzeczywistym, gwarantując maksymalny czas przetwarzania. Dla implementacji z warunkowym przetwarzaniem i wstępnym wypełnianiem pamięci wyników uzyskano statystyczne skrócenie czasu przetwarzania. Oba rozwiązania dzielenia dla GPU były tak samo efektywne, ponieważ zasadniczym ograniczeniem systemu jest przepustowość pamięci. Dla obrazów o rozmiarze 1024x1024 pikseli uzyskano przetwarzanie z szybkością ponad 400 klatek na sekundę, a w wariantach bardziej zoptymalizowanych ponad 800 klatek na sekundę, co pozwala to na wykorzystanie GPU także do innych celów, przy systemach pracujących z mniejszą liczbą klatek na sekundę. Abstract: Position estimation of small targets occurs in numerous applications and for pixel-size targets subpixel resolution can be obtained using advanced image processing algorithms. Subpixel estimation using Center-of-Gravity (Center-of-Mass) give ability of position estimation with magnitude higher resolution in comparison to the conventional, maxima based search method. Application of COG algorithm [3] needs prior detection of targets using morphological filters. In this article is assumed 3x3 window and up to 2x2 pixels excitation by target. Proposed detection method and COG estimation can be processed in parallel what is important for CPU and GPU (Graphics Processing Unit) implementations due to single-pass image processing. Different implementations are compared (full processing of both algorithms; COG calculation driven by detection; full and prefilled results data storage; two implementations of divide operations in COG) for 1024x1024 input images. For GPU implementation
Źródło:: Pomiary Automatyka Kontrola; 2009, R. 55, nr 8, 8; 651-653
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 10.

Tytuł:: Weryfikacja reguł bezpieczeństwa wspomagana mechanizmami pamięci podręcznej w sprzętowej implementacji systemu bezpieczeństwa typu firewall
Security rules verification mechanism supported by local cache memory for the hardware Firewall security system
Autorzy:: Sułkowski, G.
Twardy, M.
Wiatr, K.
Powiązania:: https://bibliotekanauki.pl/articles/156198.pdf
Data publikacji:: 2008
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: systemy bezpieczeństwa informatycznego
układy programowalne
języki opisu sprzętu
firewall
pamięci podręczne
potokowość
przetwarzanie równoległe
information security systems
programmable logic
hardware description language
firewal
packet classification algorithms
cache memory
pipelining
parallel processing
Opis:: W niniejszym artykule autorzy dokonują przeglądu istniejących algorytmów klasyfikacji pakietów celem adaptacji najodpowiedniejszego spośród nich dla potrzeb budowanego systemu zabezpieczeń sieciowych klasy Firewall. Równocześnie prezentują koncepcje zwiększenia całkowitej wydajności proponowanego rozwiązania poprzez zastosowanie dodatkowych mechanizmów wykorzystujących m.in. pamięci podręczne, potokowość oraz zrównoleglenie przetwarzania danych.
In this paper authors present their research into the actual state of the hardware implemented packet classification algorithms for the adaptation into their implementation of the hardware Firewall security system. The paper also describes the idea of enhancing the overall processing efficiency by using additional mechanisms like local cache memory, pipelining and parallel processing.
Źródło:: Pomiary Automatyka Kontrola; 2008, R. 54, nr 8, 8; 511-513
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 11.

Tytuł:: Optimization of Track-Before-Detect Systems for GPGPU
Optymalizacja systemów śledzenia przed detekcją dla GPGPU
Autorzy:: Mazurek, P.
Powiązania:: https://bibliotekanauki.pl/articles/154551.pdf
Data publikacji:: 2010
Wydawca:: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:: estymacja
śledzenie ruchu
równoległe przetwarzanie obrazów
GPGPU
śledzenie przed detekcją
Tracking
Parallel Image Processing
estimation
parallel image processing
Track-Before-Detect
Opis:: A computation speed of Track-Before-Detect algorithm with GPGPU implementations are compared in the paper. The conventional and subpixel variants for different thread processing block sizes are compared. Decimation of the state space for reduction of the external memory accesses is assumed. The GPGPU code profiling technique by the source code synthesis is applied for finding of the best parameters and code variants for particular GPGPU.
Systemy śledzenia oparte na schemacie śledzenia przed detekcją (TBD) umożliwiają śledzenia obiektów o niskim stosunku sygnału do szumu (SRN<1), co jest ważne dla zastosowań cywilnych i wojskowych. Konwencjonalne systemy śledzenia oparte na detekcji i śledzeniu nie są odpowiednie z uwagi na dużą ilość fałszywych lub utraconych detekcji. Najważniejszą wadą algorytmów TBD jest skala obliczeń, ponieważ wszystkie hipotezy (trajektorie) powinny być testowane, nawet jeśli nie ma obiektu w zasięgu. Proponowana metoda [8] oparta o decymację daje istotną (kilka razy) redukcję czasu przetwarzania na GPGPU. Programowalne karty graficzne (GPGPU) zawierają dużą ilość jednostek przetwarzania (procesorów strumieniowych) z bardzo małą, ale szybką pamięcią współdzieloną oraz dużą, ale bardzo wolną pamięcią globalną. Proponowana metoda [8] została w artykule przetestowana z wykorzystaniem algorytmu Spatio-Temporal TBD z dodatkowym profilowaniem kodu z wykorzystaniem platformy przetwarzania Nvidia CUDA. Kompilator CUDA jest dodatkowo używany do optymalizacji czasu przetwarzania z różnymi rozmiarami bloku przetwarzania. Przestrzeń stanów jest przetwarzana wewnętrznie z wykorzystaniem pamięci współdzielonej i przechowywana w pamięci globalnej po pewnej określonej liczbie kroków czasowych. Podejście z okienkowaniem jest używane do przetwarzania wejściowych danych pomiarowych 2D przechowywanych w pamięci globalnej.
Źródło:: Pomiary Automatyka Kontrola; 2010, R. 56, nr 7, 7; 655-667
0032-4140
Pojawia się w:: Pomiary Automatyka Kontrola
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Informacja

Wyszukujesz frazę "przetwarzanie równoległe" wg kryterium: Temat

Źródło danych

Dostawca treści

Kolekcja

Rok wydania

Wydawca

Temat

Autor

Typ dokumentu

Język