Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Wielgosz, M." wg kryterium: Autor


Wyświetlanie 1-14 z 14
Tytuł:
Realizacja operacji mnożenia o skróconej szerokości w układach FPGA
FPGA implementation of reduce-width multiplier
Autorzy:
Jamro, E.
Wielgosz, M.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/154019.pdf
Data publikacji:
2009
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
układ mnożący
układy FPGA
FPGA
fixed-width multiplier
Opis:
Pełne mnożenie dwóch argumentów n-bitowych daje rezultat o szerokości 2xn-bitów. W większości przypadków stosuje się mnożenie o skróconej szerokości gdzie np. dodatkowe n najmłodszych bitów wyniku jest odrzucane. Niniejszy artykuł prezentuje nową metodę kompensacji błędu obliczeń dla mnożenia o skróconej szerokości szczególnie wydajną w przypadku użycia układów FPGA. Podstawą proponowanej architektury jest podawanie na niewykorzystywane do tej pory wejście przeniesienia wybranych bitów argumentów wejściowych układu mnożącego.
The paper presents a novel metod of the error compensation for a reduce-width multiplier implemented in FPGAs. For a standard multiplier and the bit-width equal to n for both inputs, the output width is equal to 2?n. In order to obtain a fixed-width multiplier, the n-LSBs of the output should be truncated. Lan-Da Van et. al. [1, 2] presented the error compensation method appropriate for ASIC, however, this method cannot be directly employed in FPGAs due to relatively high hardware resources and a different multiplier structure (compare Fig. 1 and Fig. 2). The main idea of the proposed error compensation method is to feed carry input directly with the selected bits of the multiplier input (see Fig. 4). The implementation results shown in Fig. 5 confirm the significant reduction of the truncation error, especially for the mean error which is close to zero. It should be noted that the error compensation circuit employs the normally unused carry-in input, therefore no additional FPGA resources are required by the proposed method.
Źródło:
Pomiary Automatyka Kontrola; 2009, R. 55, nr 8, 8; 669-671
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Akceleracja obliczeń zmiennoprzecinkowych na platformie RASC
Accelerating calculations on the RASC platform
Autorzy:
Wielgosz, M.
Jamro, E.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/154331.pdf
Data publikacji:
2009
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
akceleracja sprzętowa
komputery dużej mocy (HPC)
FPGA
obliczenia zmiennoprzecinkowe
funkcja exp()
HPRC (High Performance Reconfigurable Computing)
elementary functions
exponential function
Opis:
W artykule zostały zaprezentowane wyniki testów przeprowadzonych w celu określenia maksymalnej szybkości wykonywania operacji zmiennoprzecinkowych na platformie rekonfigurowanej RASC. Zaimplementowano różne dostępne tryby konfiguracji jednostki Host oraz RASC w celu wyłonienia najbardziej efektywnego pod względem wydajności trybu pracy jednostki obliczeniowej. Uzyskane wyniki pomiarów ujawniały, że kombinacja Direct I/O oraz DMA zapewnia najwyższą przepustowość pomiędzy węzłami Host i RASC. Niemniej jednak dla niektórych aplikacji tryb multi-buffering może okazać się bardziej odpowiedni, ze względu na możliwość jednoczesnego przesyłania danych i wykonywania operacji. Funkcja exp() w standardzie zmiennoprzecinkowym o podwójnej precyzji została wykorzystana jako przykładowa aplikacja, która pozwoliła oszacowanie możliwej do uzyskania akceleracji obliczeń na platformie RASC.
This paper presents results of the tests performed to determine high speed calculations capabilities of the SGI RASC platform. Different data transfer modes and memory management approaches were examined to choose the most effective combination of the Host and RASC memory adjustments. That work may be regarded as a case study of the contemporary FPGA -based accelerator which, however, can characterize the whole branch of the devices. The paper is strongly focused on the floating point calculations potential of the FPGA accelerator. The RASC algorithm execution procedure, from the processor perspective, is composed of several functions which reserve resources, queue commands and perform other preparation steps. It is noteworthy (Fig. 3) that the time consumed by the functions remains roughly the same, independent of the algorithm being executed. The resource reservation procedure, once conducted, allows many executions of the algorithm -that amounts to huge time savings, since the procedure takes approximately 7.5 ms, which is roughly 99 % of the overall execution time of the algorithm. Rasclib algorithm commit and rasclib algorithm wait calls are considered to be the key (Fig. 3) part of the RASC software execution routine. The first one activates the FPGA between these two commands is the transfer and algorithm execution time. All curves (Fig. 4) reflect overall processing time of the same amount of data, but differ in size of the single data chunk which varies from 1024x64 bit = 8 kB to 1048576x64 bit = 8 MB. It has been observed that for the bigger chunk much better results are achieved in terms of the effective execution time. However, above 1 MB a decrease of the effective execution time seems to indicate saturation, therefore sending data in bigger portions may not improve the performance of the system so much. The most effective execution time of single exp() function for SRAM buffering mode is 12 ns, so 9,5 ns is transport overhead due to bus delays. The theoretical calculation time of single exp() function (data transfer is not taken into account) is 2,5 ns because two exp() are implemented on the RASC and clocked at 200 Mhz. The obtained measurement results show that Direct I/O mode together with DMA transfer provides the highest data throughput between the Host and RASC slice. Nevertheless, for some application multi-buffering can appear to be more suitable in terms of concurrent data transfer capabilities and FPGA algorithm execution. As a hardware acceleration example, there is considered an exponential function which allows estimating maximum achievable data processing speed.
Źródło:
Pomiary Automatyka Kontrola; 2009, R. 55, nr 7, 7; 485-487
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Moduł obliczający funkcję eksponenty implementowanej w układach FPGA
FPGA Implementation of Exponent Function
Autorzy:
Wielgosz, M.
Jamro, E.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/155683.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
HPC
exp()
FPGA
Opis:
Niniejszy artykuł prezentuje implementację operacji obliczania eksponenty o podwójnej precyzji obliczeń w układach FPGA. Zaproponowano metodę tablicowo - aproksymacyjną, dla której wykorzystano 3 niezależne tablice 512x64-bity do obliczenia 27 najstarszych bitów mantysy oraz aproksy-macje wielomianową ex"1+x dla pozostałych bitów mantysy. Wyniki implementacji pokazują że proponowany moduł zajmuje około 7.5% układu Virtex-4 LX200.
This paper presents FPGA implementation of exponent operation in double precision format. A mixture of Look-Up Table (LUT) and approximation methods was employed. Twenty seven most significant bits of input mantissa are calculated employing 3 independent LUTs, the rest input bits are calculated by approximation: ex"1+x. Implementation results in roughly 7.5% occupation of Virtex-4 LX-200.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 7, 7; 27-29
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Implementacja w układach FPGA operacji eksponenty dla liczb w standardzie IEEE-754 o podwójnej precyzji
FPGA Implementation of Exponent Function for Double Precision IEEE-754 Standard
Autorzy:
Wielgosz, M.
Jamro, E.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/152817.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
obliczanie funkcji elementarnych
przyspieszanie obliczeń, układy programowalne
elementary functions computations
computing acceleration
programmable devices
Opis:
W artykule przedstawiono implementację operacji obliczania eksponenty o podwójnej precyzji obliczeń w układach FPGA. Zaproponowano metodę tablicowo - aproksymacyjną, dla której wykorzystano 3 niezależne tablice 512´64-bity do obliczenia 27 najstarszych bitów mantysy oraz aproksymacje wielomianową ex"1+x dla pozostałych bitów mantysy. Wyniki implementacji pokazują że proponowany moduł zajmuje około 7.5% układu Virtex-4 LX200.
This paper presents FPGA implementation of exponent operation in double precision format. A mixture of Look-Up Table (LUT) and approximation methods was employed. Twenty seven most significant bits of input mantissa are calculated employing 3 independent LUTs, the rest input bits are calculated by approximation: ex"1+x. Implementation results in roughly 7.5% occupation of Virtex-4 LX-200.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 5, 5; 126-128
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Moduł wydajnego przetwarzania sygnałów dedykowany dla systemu wbudowanego opartego na układzie FPGA
Dedicated module for digital signal processing and FPGA-based embedded system
Autorzy:
Jamro, E.
Wielgosz, M.
Cioch, W.
Bieniasz, S.
Powiązania:
https://bibliotekanauki.pl/articles/156517.pdf
Data publikacji:
2012
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
FPGA
systemy wbudowane
Procedura Liniowej Decymacji (PLD)
embedded systems
Procedure of Linear Decimation (PLD)
Opis:
W niniejszym artykule opisano dedykowany moduł akceleracji obliczeń filtracji FIR (filtrów o skończonej odpowiedzi impulsowej) o nazwie xsp_calc. Moduł ten jest kompatybilny ze środowiskiem EDK (Embedded Development Kit) firmy Xilinx oraz magistralą PLB (Processor Local Bus). Na magistrali PLB niniejszy moduł jest urządzeniem typu master, oraz może wykonywać 8 operacji MACs (dodaj i akumuluj) na takt zegara. Dodatkowo moduł ten może obliczać wartość maksymalną, minimalną, średnią oraz skuteczną sygnału.
In this paper a dedicated module compatible with PLB (Processor Local Bus) and EDK (Embeddded Development Kit) provided by Xilinx is described. This module accelerates FIR (Finite Impulse Response) operations as well as average value and RMS (Root Mean Square) calculations. This module was employed in Programmable Unit for Diagnostics (PUD) [4, 5] and for Procedure of Linear Decimation (PLD) [6, 7]. For PLD the decimation ratio depends on the rotary machinery angular speed, and thus number of FIR filter nodes changes from 20 to 2000. Consequently, no standard FIR filter architecture for FPGA can be efficiently employed. Furthermore, the dedicated module presented in Fig. 2 was designed. This module is a master on PLB bus therefore it can perform input/output data transfer independently of the processor MicroBlaze. The processor just initialize calculation process by writing proper data to the selected control registers. This module can perform up to 8 MACs (Multiply and Acumulate) operations per clock cycle, sufficiently for the presented system and comparable with the computation power of a DSP (Digital Signal Processor). The implementation results presented in Tab. 1 illustrate that the presented module requires roughly twice the resources of the MicroBlaze and can speed up FIR calculation process roughly 20 times in comparison to the MicroBlaze.
Źródło:
Pomiary Automatyka Kontrola; 2012, R. 58, nr 7, 7; 629-631
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zmodyfikowane mnożenie o stałej szerokości bitowej
Improved fixed-width multiplier
Autorzy:
Jamro, E.
Wielgosz, M.
Russek, P.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/158107.pdf
Data publikacji:
2010
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
arytmetyka komputerowa
filtry cyfrowe
układ mnożący
computer arithmetic
digital filters
multiplier
Opis:
Niniejszy artykuł prezentuje nową metodę kompensacji błędu odcięcia dla mnożenia o stałej szerokości bitowej czyli takiej, dla której szerokość bitowa argumentów wejściowych jest taka sama jak wyjścia. Niektóre poprzednie publikacje były oparte na błędnych założeniach, dlatego zadaniem tej publikacji jest wykazanie wspomnianych błędów oraz zaprezentowanie nowej architektury, dla której błąd średni dąży do zera.
Multiplication is usually implemented in hardware as a full bit-width parallel multiplier, i.e., input bit-widths add up to make up the output bit-width. Nevertheless, in most real-world cases, the input bit-width n is the same as the output bit-width. Therefore, in order to reduce a multiplier area, the n LSBs columns of the multiplier are truncated during the multiplication process (see Fig. 1). This introduces a truncation error which can be reduced by an error compensation circuit. The truncation errors presented in the previous papers, e.g. [3, 6, 7], are based on the false assumption; during truncation error calculation it is sufficient to consider only the combination of each partial input bit products aibj. instead of ever input bits ai and bj (see Fig. 2 and Tab. 1). Therefore a proper fixed-width multiplier structure should be introduced (the old one should be redesigned). This paper focuses on optimizing the mean error (ME) of the truncated multiplier. As a result, a novel Improved Variable error Compensation Truncated Multiplier (IVCTM) is proposed which in comparison to [2], reduces the number of AND gates by 1 in the error compensation circuit (see Fig. 3). For the IVCTM, a mean error is significantly lower than for previously published counterparts. The structure of the IVCTM is simplified in comparison to the previously published truncated multiplier [2], therefore it occupies less silicon area.
Źródło:
Pomiary Automatyka Kontrola; 2010, R. 56, nr 10, 10; 1133-1136
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sprzętowa implementacja funkcji orbitalnej na potrzeby obliczeń kwantowo-chemicznych
Hardware implementation of the atom orbital calculation
Autorzy:
Wielgosz, M.
Jamro, E.
Russek, P.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/154619.pdf
Data publikacji:
2010
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
akceleracja sprzętowa
komputery dużej mocy (HPC)
FPGA
obliczenia zmiennoprzecinkowe
funkcja exp()
High Performance Reconfigurable Computing
quantum chemistry
custom computing
HPC
Opis:
W niniejszym artykule przedstawione zostały wyniki implementacji modułu obliczającego wartość orbitalu atomowego w punkcie. Moduł ten stanowił cześć składową jednostki generującej wartość potencjału korelacyjno-wymiennego, wykorzystywaną w obliczeniach kwantowo-chemicznych. Prezentowana jednostka składa się z potokowych bloków zmiennoprzecinkowych. W pracy zaprezentowano również wyniki akceleracji obliczeń względem procesora ogólnego przeznaczenia Itanium2 1.6 GHz.
The paper presents FPGA acceleration and implementation results of the orbital function calculation employed in quantum-chemistry. The orbital function core is composed of the authors' customized floating-point hardware modules. These modules are scalable from single to double precision, capable of working at frequency ranging from 100 to 200 MHz. Besides hardware implementation, the design process also involved reformulation of the algorithm in order to adapt them to the platform profile. The computational procedure presented in this paper is part of the algorithm for generating exchange-correlation potential, and is also recognized as one of the most computationally intensive routines. This feature justifies the effort devoted to develop its hardware implementation. The precision of floating-point operations becomes a primary concern when dealing with low-level quantum chemistry procedures, thus the authors have taken various measures to optimize them, both in terms of resource consumption and processing speed.
Źródło:
Pomiary Automatyka Kontrola; 2010, R. 56, nr 7, 7; 705-707
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Mnożenie o stałej szerokości bitowej z zaokrąglaniem
Fixed-width multiplier with rounding
Autorzy:
Jamro, E.
Wielgosz, M.
Russek, P.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/154742.pdf
Data publikacji:
2010
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
arytmetyka cyfrowa
filtry cyfrowe
układ mnożący
digital arithmetic
digital filters
digital multiplier
Opis:
Niniejszy artykuł prezentuje mnożenie o stałej szerokości bitowej, dla którego szerokość bitowa argumentów jest taka sama jak danej wyjściowej. Najmłodsze bity wyniku są odrzucane już na etapie mnożenia, dzięki czemu układ zajmuje mniej zasobów kosztem niewielkiego błędu obliczeń, który można zmniejszyć poprzez zastosowanie dodatkowych bitów ochronnych, układu kompensacji błędu oraz operacji zaokrąglania. Niniejszy artykuł proponuje nową architekturę uwzględniające powyższe operacje.
The paper deals with fixed-width multipliers, i.e. multipliers for which inputs and output bit-width is the same. In order to reduce hardware requirements for such a multiplier, some of the multiplier logic is truncated during multiplication process (see Fig. 1). This, however, introduces a calculation error which can be reduced by both special truncation-error compensation logic (e.g. presented in Fig. 2) and by additional guard bits. As presented in Tabs. 1 and 2, for relatively small number of guard bits g, the overall error is determined by the rounding process rather than truncation. Nevertheless, as it is proved in this paper, for g>0, the error compensation logic interfere with the rounding process, e.g. offsets the Mean Error (ME). Therefore a novel multiplier denoted as Mean Error optimized Rounded Truncated Multiplier (MERTM) is presented. The MERTM, instead of rounding, includes additional AND gates in comparison to the VCTM [1]. As a result, for the MERTM, ME approaches zero.
Źródło:
Pomiary Automatyka Kontrola; 2010, R. 56, nr 7, 7; 769-771
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Optymalizacja kompresji Huffmana pod kątem podziału na bloki
Optimization of Huffman compression employing different block sizes
Autorzy:
Rybak, K.
Jamro, E.
Wielgosz, M.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/154957.pdf
Data publikacji:
2014
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
kompresja danych
kodowanie Huffmana
deflate
data compression
Huffman coding
Opis:
Prezentowane w pracy badania dotyczą bezstratnej kompresji danych opartej o metodę Huffmana i zgodnej ze standardem deflate stosowanym w plikach .zip / .gz. Zaproponowana jest optymalizacja kodera Huffmana polegająca na podziale na bloki, w których stosuje się różne książki kodowe. Wprowadzenie dodatkowego bloku z reguły poprawia stopień kompresji kosztem narzutu spowodowanego koniecznością przesłania dodatkowej książki kodowej. Dlatego w artykule zaproponowano nowy algorytm podziału na bloki.
According to deflate [2] standard (used e.g. in .zip / .gz files), an input file can be divided into different blocks, which are compressed employing different Huffman [1] codewords. Usually the smaller the block size, the better the compression ratio. Nevertheless each block requires additional header (codewords) overhead. Consequently, introduction of a new block is a compromise between pure data compression ratio and headers size. This paper introduces a novel algorithm for block Huffman compression, which compares sub-block data statistics (histograms) based on current sub-block entropy E(x) (1) and entropy-based estimated average word bitlength Emod(x) for which codewords are obtained for the previous sub-block (2). When Emod(x) - E(x) > T (T - a threshold), then a new block is inserted. Otherwise, the current sub-block is merged into the previous block. The typical header size is 50 B, therefore theoretical threshold T for different sub-block sizes S is as in (3) and is given in Tab. 2. Nevertheless, the results presented in Tab. 1 indicate that optimal T should be slightly different - smaller for small sub-block size S and larger for big S. The deflate standard was selected due to its optimal compression size to compression speed ratio [3]. This standard was selected for hardware implementation in FPGA [4, 5, 6, 7].
Źródło:
Pomiary Automatyka Kontrola; 2014, R. 60, nr 7, 7; 519-521
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Efektywna komunikacja ARM-FPGA z użyciem interfejsu SPI
Efficient ARM-FPGA data transfer employing SPI interface
Autorzy:
Jamro, E.
Wielgosz, M.
Cioch, W.
Bieniasz, S.
Powiązania:
https://bibliotekanauki.pl/articles/155109.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
systemy wbudowane
SPI
FPGA
Xilinx EDK
embedded systems
Opis:
W systemach wbudowanych użycie niezależnego procesora ARM oraz układu FPGA umożliwia uzyskanie dużo większej elastyczności projektowania oraz lepszej wydajności niż w przypadku systemów homogenicznych (opartych na tylko jednej platformie). Wadą takiego rozwiązania jest konieczność zapewnienia wydajnej, szybkiej komunikacji, która w omawianym przypadku została zrealizowana poprzez interfejs SPI. Aby uzyskać większą przepustowość danych zaprojektowano dedykowany moduł sprzętowy wewnątrz układu FPGA obsługujący interfejs SPI, pracujący jako urządzenie typu slave po stronie interfejsu SPI oraz master na magistrali PLB (Processor Local Bus).
Implementation of fast and reliable data transfer between an FPGA and a processor is a significant challenge for a designer of heterogeneous embedded systems. In the presented system two separate Printed Circuit Boards (PCB) are employed: ARM-based OMAP3530 [4] and FPGA Spartan3 [2]. SPI (Serial Peripheral Interface) [5] is used as a communication interface due to the OMAP3530 limitations in communication interface choice. For the FPGA module, Xilinx Embeded Development Kit (EDK) and soft-processor MicroBlaze are used. The EDK delivers SPI hardware module [9] compatible with the Processor Local Bus (PLB). Nevertheless, this module employs slave interface on the PLB therefore requires the soft-processor MicroBlaze interaction which limits the transfer speed. Consequently, a dedicated hardware module compatible with the PLB and EDK was designed. This module employs master interface on the PLB bus and slave interface on the SPI interface and is further denoted as the xps_spi_master. As a result, the MicroBlaze is not engaged in the data transfer and, therefore, the transfer speed is significantly larger (which resulted in significant increase in the data throughput). FPGA does ot generate any wait states and therefore the SPI transfer protocol is simplified. The SPI clock speed is 24 MHz and the measured data transfer is roughly 2 MB/s. Summing up, the designed module xps_spi_master significantly speed-ups data transfer and consumes significantly lower FPGA resources in comparison to the original EDK solution, which employs the MicroBlaze and PLB-slave-based SPI interface.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 8, 8; 874-876
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
System wbudowany oparty na procesorze ARM oraz układzie FPGA
Embedded system based on ARM processor and FPGA
Autorzy:
Wielgosz, M.
Jamro, E.
Cioch, W.
Bieniasz, S.
Powiązania:
https://bibliotekanauki.pl/articles/155111.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
FPGA
ARM
systemy wbudowane
Liniowa Decymacja
embedded systems
linear decimation
Opis:
W niniejszym artykule przedstawiono system przeznaczony do analizy i przetwarzania sygnałów wibroakustycznych oparty na procesorze z jądrem ARM oraz układzie FPGA. Jednym z kilku zaimplementowanych algorytmów w ramach prezentowanego systemu jest Procedura Liniowej Decymacij, szeroko stosowana do diagnozowania maszyn wirnikowych synchronizowanych cyklem roboczym. Szybkość wstępnego przetwarzania sygnałów przy pomocy układów FPGA jest dużo większa niż w przypadku procesorów DSP, dzięki czemu stworzony system umożliwia analizę sygnałów diagnostyczny w czasie rzeczywistym.
The paper presents an embedded system for monitoring and analysis of vibroacustic signals. The system is based on an ARM processor and FPGA, which provides both flexibility and real-time processing capabilities. The Linear Decimation Procedure was implemented as one of the vital algorithms for rotary machinery analysis along with a whole set of other calculation procedures widely employed in vibroacustic. Exp() function was used to benchmark the DEVKIT8000 and PANDA platforms against the desktop processor Core i7 3,4 GHz. The presented system is also capable of working in a real-time mode due to its high processing data rate resulting from the adopted architecture and employed high-performance components. A number of the original algorithms were implemented in the FPGA which could be used for non-stationary signals analysis. Furthermore, numerical procedures which do not fit into the FPGA due to the high resources occupation were employed on the ARM processor. It is worth mentioning that the whole system is run under the Ubuntu system which provides a huge flexibility in a number of software packets available as well as stability of the system as such. Some additional widely available environments (e.g. Octave) were installed on the platform facilitating data analysis and processing. It should be noted that the software of the system can be easily modified or replaced apart of the hardware which allows for a fast upgrade. Some other Linux or Windows distributions are also considered for installation in the future.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 8, 8; 877-879
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Implementacja w układach FPGA wybranych fragmentów metody szybkiej segmentacji obrazów
FPGA implementation of selected parts of the fast image segmentation algorithm
Autorzy:
Żurek, D.
Wielgosz, M.
Jamro, E.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/155119.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
segmentacja obrazów
wektory wspierające
FPGA
układy rekonfigurowalne
picture segmentation
supportive vectors
reconfigurable logic
Opis:
Prezentowane w pracy badania dotyczą segmentacji obrazów metodą wektorów wspierających (ang. Support Vector Machine - SVM). Metoda ta opiera się na grupie kilkunastu wektorów wspierających, które posiadają cechy wybranych obiektów w obrazie. Implementacja przedstawionej procedury klasyfikacji wektorów wspierających została wykona zarówno programowo w języku C++ na procesorze ogólnego przeznaczenia AMD AthlonII P320 Dual-Core2.10 GHz, jak i sprzętowo w języku VHDL. Moduł klasyfikacji wektorów wspierających został zaimplementowany w układzie Xilinx Spartan 6.
The paper presents preliminary implementation results of image segmentation for the SVM (Support Vector Machine) algorithm. SVM is a dedicated mathematical formula which allows extracting selective objects from an input picture and assign them to an appropriate class. Consequently, a black and white images reflecting occurrence of the desired feature are derived from an original picture fed into the classifier. This work is primarily focused on the FPGA implementation aspects of the algorithm as well as on comparison of the hardware and software performance. A human skin classifier was used as an example and implemented both in AMD AthlonII P320 Dual-Core2.10 GHz and Xilinx Spartan 6 FPGA. It is worth emphasizing that the critical hardware components were designed using HDL, whereas the less demanding standard ones such as communication interfaces, FIFO, FSMs were implemented in HLL (High Level Language). Such an approach allowed both shortening the design time and preserving high performance of the hardware classification module. This work is a part of the Synat project embracing several initiatives aiming at creation of a repository of images to which are to be assigned descriptive name according to their contents. Such a database of tagged images will significantly reduce the search time, since only picture tags will be processed instead of images, so the process will involve simple string operations rather than image recognition. The project is a huge challenge due to an immense volume of data collected over the past years denoted today as the Internet resources. Therefore, the core part of the undertaking is to design andimplement a classification system which should be both reliable and fast. In order to achieve the high performance of a search engine, the most computationally intensive operations are to be ported to hardware.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 8, 8; 871-873
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Novel architecture for floating point accumulator with cancelation error detection
Autorzy:
Jamro, E.
Dąbrowska-Boruch, A.
Russek, P.
Wielgosz, M.
Wiatr, K.
Powiązania:
https://bibliotekanauki.pl/articles/201228.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
floating point arithmetic
computing error
approximate computing
arytmetyka zmiennoprzecinkowa
błąd obliczeniowy
obliczenia przybliżone
Opis:
A floating point accumulator cannot be obtained straightforwardly due to its pipeline architecture and feedback loop. Therefore, an essential part of the proposed floating point accumulator is a critical accumulation loop which is limited to an integer adder and 16-bit shifter only. The proposed accumulator detects a catastrophic cancellation which occurs e.g. when two similar numbers are subtracted. Additionally, modules with reduced hardware resources for rough error evaluation are proposed. The proposed architecture does not comply with the IEEE-754 floating point standard but it guarantees that a correct result, with an arbitrarily defined number of significant bits, is obtained. The proposed calculation philosophy focuses on the desired result error rather than on calculation precision as such.
Źródło:
Bulletin of the Polish Academy of Sciences. Technical Sciences; 2018, 66, 5; 579-587
0239-7528
Pojawia się w:
Bulletin of the Polish Academy of Sciences. Technical Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computation acceleration on SGI RASC: FPGA based reconfigurable computing hardware
Akceleracja obliczeń na platformie SGI RASC: module obliczeń za pomocą logiki rekonfigurowalnej
Autorzy:
Jamro, E.
Janiszewski, M.
Machaczek, K.
Russek, P.
Wiatr, K.
Wielgosz, M.
Powiązania:
https://bibliotekanauki.pl/articles/305339.pdf
Data publikacji:
2008
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
sprzętowa akceleracja obliczeń
procesory dedykowane
FPGA
obliczenia wielkiej skali
SGI RASC
custom computing
single-purpose processors
high performance computing
Opis:
In this paper a novel method of computation using FPGA technology is presented. In several cases this method provides a calculations speedup with respcct to the General Purpose Processors (GPP). The main concept of this approach is based on such a design of computing hardware architecture to fit algorithm dataflow and best utilize well known computing techniques as pipelining and parallelism. Configurable hardware is used as a implementation platform for custom designed hardware. Paper will present implementation results of algorithms those are used in such areas as cryptography, data analysis and scientific computation. The other promising areas of new technology utilization will also be mentioned, bioinformatics for instance. Mentioned algorithms were designed, tested and implemented on SGI RASC platform. RASC module is a part of Cyfronet's SGI Altix 4700 SMP system. We will also present RASC modern architecture. In principle it consists of FPGA chips and very fast, 128-bit wide local memory. Design tools avaliable for designers will also be presented.
Autorzy prezentują nową metodę prowadzenia obliczeń wielkiej skali, opartą na układach FPGA. W szczególnych przypadkach jej zastosowanie prowadzi do skrócenia czasu obliczeń. Podstawą metody jest prowadzenie obliczeń za pomocą architektur obliczeniowych projektowanych dla danego algorytmu. Ponieważ architektura stworzona została specjalnie dla zadanego algorytmu, lepiej wykorzystuje możliwości równoległej i potokowej realizacji obliczeń. Jako platformę realizacji architektur dedykowanych zastosowano układy rekonfigurowalne. Artykuł prezentuje także wyniki zastosowania wspomnianej techniki w takich obszarach, jak kryptografia, analiza danych i obliczenia naukowe podwójnej precyzji. Wskazano również na inne dziedziny nauki, gdzie opisywana technika jest z powodzeniem stosowana (np.: bioinformatyka). Zrealizowane algorytmy były uruchomione i przetestowane na zainstalowanym w ACK Cyfronet AGH module SGI RASC, będącym częścią systemu SMP Al-tix 4700. Przedstawiono architekturę zastosowanego modułu RASC oraz narzędzia i metody projektowania dostępne dla programistów.
Źródło:
Computer Science; 2008, 9; 21-34
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-14 z 14

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies