Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "voice signal" wg kryterium: Temat


Wyświetlanie 1-8 z 8
Tytuł:
CNN and LSTM for the classification of parkinsons disease based on the GTCC and MFCC
Autorzy:
Boualoulou, Nouhaila
Drissi, Taoufiq Belhoussine
Nsiri, Benayad
Powiązania:
https://bibliotekanauki.pl/articles/30148250.pdf
Data publikacji:
2023
Wydawca:
Polskie Towarzystwo Promocji Wiedzy
Tematy:
Parkinson's disease
voice signal
GTCC
MFCC
DWT
EMD
CNN and LSTM
Opis:
Parkinson's disease is a recognizable clinical syndrome with a variety of causes and clinical presentations; it represents a rapidly growing neurodegenerative disorder. Since about 90 percent of Parkinson's disease sufferers have some form of early speech impairment, recent studies on tele diagnosis of Parkinson's disease have focused on the recognition of voice impairments from vowel phonations or the subjects' discourse. This paper presents a new approach for Parkinson's disease detection from speech sounds that are based on CNN and LSTM and uses two categories of characteristics. These are Mel Frequency Cepstral Coefficients (MFCC) and Gammatone Cepstral Coefficients (GTCC) obtained from noise-removed speech signals with comparative EMD-DWT and DWT-EMD analysis. The proposed model is divided into three stages. In the first step, noise is removed from the signals using the EMD-DWT and DWT-EMD methods. In the second step, the GTCC and MFCC are extracted from the enhanced audio signals. The classification process is carried out in the third step by feeding these features into the LSTM and CNN models, which are designed to define sequential information from the extracted features. The experiments are performed using PC-GITA and Sakar datasets and 10-fold cross validation method, the highest classification accuracy for the Sakar dataset reached 100% for both EMD-DWT-GTCC-CNN and DWT-EMD-GTCC-CNN, and for the PC-GITA dataset, the accuracy is reached 100% for EMD-DWT-GTCC-CNN and 96.55% for DWT-EMD-GTCC-CNN. The results of this study indicate that the characteristics of GTCC are more appropriate and accurate for the assessment of PD than MFCC.
Źródło:
Applied Computer Science; 2023, 19, 2; 1-24
1895-3735
2353-6977
Pojawia się w:
Applied Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Determination of Input Parameters of the Neural Network Model, Intended for Phoneme Recognition of a Voice Signal in the Systems of Distance Learning
Autorzy:
Akhmetov, B.
Tereykovsky, I.
Doszhanova, A.
Tereykovskaya, L.
Powiązania:
https://bibliotekanauki.pl/articles/226378.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
neural networks
phonemes
recognition of a voice signal
system of distance learning
mel-cepstral coefficients
spectral analysis
Opis:
The article is devoted to the problem of voice signals recognition means introduction in the system of distance learning. The results of the conducted research determine the prospects of neural network means of phoneme recognition. It is also shown that the main difficulties of creation of the neural network model, intended for recognition of phonemes in the system of distance learning, are connected with the uncertain duration of a phoneme-like element. Due to this reason for recognition of phonemes, it is impossible to use the most effective type of neural network model on the basis of a multilayered perceptron, at which the number of input parameters is a fixed value. To mitigate this shortcoming, the procedure, allowing to transform the non-stationary digitized voice signal to the fixed quantity of mel-cepstral coefficients, which are the basis for calculation of input parameters of the neural network model, is developed. In contrast to the known ones, the possibility of linear scaling of phoneme-like elements is available in the procedure. The number of computer experiments confirmed expediency of the fact that the use of the offered coding procedure of input parameters provides the acceptable accuracy of neural network recognition of phonemes under near-natural conditions of the distance learning system. Moreover, the prospects of further research in the field of development of neural network means of phoneme recognition of a voice signal in the system of distance learning is connected with an increase in admissible noise level. Besides, the adaptation of the offered procedure to various natural languages, as well as to other applied tasks, for instance, a problem of biometric authentication in the banking sector, is also of great interest.
Źródło:
International Journal of Electronics and Telecommunications; 2018, 64, 4; 425-432
2300-1933
Pojawia się w:
International Journal of Electronics and Telecommunications
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Diagnostic significance of phase spectrum in acoustic analysis of pathological voice
Diagnostyczne znaczenie widma fazowego w analizie akustycznej głosu patologicznego
Autorzy:
Samborska-Owczarek, A.
Powiązania:
https://bibliotekanauki.pl/articles/153586.pdf
Data publikacji:
2010
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
analiza akustyczna
sygnał mowy
przetwarzanie mowy
częstotliwość podstawowa
widmo fazowe
ekstrakcja cech
GIRBAS
acoustic analysis
voice signal
speech processing
fundamental frequency
F0
phase spectrum
features extraction
Opis:
The paper regards the possibility of using new numerical features extracted from the phase spectrum of a speech signal for voice quality estimation in acoustic analysis for medical purposes. This novel approach does not require detection or estimation of the fundamental frequency and works on all types of speech signal: euphonic, dysphonic and aphonic as well. The experiment results presented in the paper are very promising: the developed F0-independant voice features are strongly correlated with two voice quality indicators: grade of hoarseness G (r>0.8) and roughness R (r>0.75) from GIRBAS scale, and exceed the standard voice parameters: jitter and shimmer.
Artykuł dotyczy możliwości ekstrakcji cech numerycznych z widma fazowego sygnału mowy w celu wykorzystania w analizie akustycznej na potrzeby medyczne. Podejście to umożliwia uzależnienie analizy akustycznej od zawodnych metod wykrywania/wyznaczania częstotliwości podstawowej (tonu krtaniowego) i dzięki temu przeznaczone jest do badania wszystkich typów sygnału mowy (również afonicznych). Wyniki eksperymentu są bardzo obiecujące - proponowane cechy Ph1 i Ph2 są silnie skorelowane z dwoma kategoriami percepcyjnymi: stopniem chrypki (r>0.8) oraz szorstkością głosu (r>0.75) ze skali GIRBAS, wykazując silniejsze znaczenie diagnostyczne niż znane i stosowane od dawna wskaźniki jitter i shimmer. Proponowane podejście oprócz skuteczności charakteryzuje się szeregiem dodatkowych korzyści: algorytm metody z powodu niskiej złożoności jest szybki i niekosztowny, interpretacja matematyczna jest prosta i jednoznaczna oraz spójna z obserwowanym obrazem widma fazowego głosu. Ponadto uniezależnienie od detekcji częstotliwości podstawowej sprawia, że algorytm jest deterministyczny oraz efektywny dla każdego typu sygnału mowy.
Źródło:
Pomiary Automatyka Kontrola; 2010, R. 56, nr 12, 12; 1547-1550
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech Emotion Recognition Based on Voice Fundamental Frequency
Autorzy:
Dimitrova-Grekow, Teodora
Klis, Aneta
Igras-Cybulska, Magdalena
Powiązania:
https://bibliotekanauki.pl/articles/177227.pdf
Data publikacji:
2019
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
emotion recognition
speech signal analysis
voice analysis
fundamental frequency
speech corpora
Opis:
The human voice is one of the basic means of communication, thanks to which one also can easily convey the emotional state. This paper presents experiments on emotion recognition in human speech based on the fundamental frequency. AGH Emotional Speech Corpus was used. This database consists of audio samples of seven emotions acted by 12 different speakers (6 female and 6 male). We explored phrases of all the emotions – all together and in various combinations. Fast Fourier Transformation and magnitude spectrum analysis were applied to extract the fundamental tone out of the speech audio samples. After extraction of several statistical features of the fundamental frequency, we studied if they carry information on the emotional state of the speaker applying different AI methods. Analysis of the outcome data was conducted with classifiers: K-Nearest Neighbours with local induction, Random Forest, Bagging, JRip, and Random Subspace Method from algorithms collection for data mining WEKA. The results prove that the fundamental frequency is a prospective choice for further experiments.
Źródło:
Archives of Acoustics; 2019, 44, 2; 277-286
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech Segmentation Algorithm Based on an Analysis of the Normalized Power Spectral Density
Autorzy:
Pekar, D.
Tsikhanenka, S.
Powiązania:
https://bibliotekanauki.pl/articles/308533.pdf
Data publikacji:
2010
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
phoneme segmentation
power spectral density
short-term signal energy
speaker independent
voice systems
Opis:
This article demonstrates a new approach to speaker independent phoneme detection. The core of the algorithm is to measure the distance between normalized power spectral densities in adjacent, short-time segments and verify it based on velocity of changes of values of short-time signal energy analysis. The results of experiment analysis indicate that proposed algorithm allows revealing a phoneme structure of pronounced speech with high probability. The advantages of this algorithm are absence of any prior information on a signal or model of phonemes and speakers that allows the algorithm to be speaker independent and have a low computation complexity.
Źródło:
Journal of Telecommunications and Information Technology; 2010, 4; 44-49
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych
Autorzy:
Kamiński, Kamil
Dobrowolski, Andrzej P.
Majda, Ewelina
Powiązania:
https://bibliotekanauki.pl/articles/111176.pdf
Data publikacji:
2019
Wydawca:
Centrum Rzeczoznawstwa Budowlanego Sp. z o.o.
Tematy:
mowa
głos
system automatycznego rozpoznawania mowy
przetwarzanie sygnałów
speech
voice
speech recognition system
signal processing
Opis:
W referacie przedstawiono system automatycznego rozpoznawania mówcy zaimplementowany w środowisku Matlab oraz pokazano sposoby realizacji i optymalizacji poszczególnych elementów tego systemu. Główny nacisk położono na wyselekcjonowanie cech dystynktywnych głosu mówcy z wykorzystaniem algorytmu genetycznego, który pozwala na uwzględnienie synergii cech podczas selekcji. Pokazano również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa użytych do zamodelowania każdego z głosów. Ponadto, podczas tworzenia modeli głosów zastosowano model głosu uniwersalnego.
The paper presents automatic speaker recognition system, implemented in the Matlab environment, and demonstrates how to achieve and optimize various elements of the system. The main emphasis was put on features selection of speech signal using a genetic algorithm, which takes into account synergy of features. The results of the selected elements of optimizing classifier have been also shown, including the number of Gaussian distributions used to model each of the voices. In addition during creating voice models, the universal voice model have been used.
Źródło:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych; 2019, 1-2; 8-16
2450-1859
2450-8721
Pojawia się w:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Intonation accuracy and pitch stability during crescendo as the voice quality and singer’s experience indicator among choral singers
Autorzy:
Gawlik, Mateusz
Wszołek, Wiesław
Powiązania:
https://bibliotekanauki.pl/articles/128284.pdf
Data publikacji:
2019
Wydawca:
Politechnika Poznańska. Instytut Mechaniki Stosowanej
Tematy:
intonation
singing voice
pitch accuracy
jitter
signal processing
intonacja
głos śpiewaczy
dokładność tonacji
przetwarzanie sygnałów
Opis:
The ability to correctly reproduce notes by the voice is one of the essential features of the singing task and called intonation. In combination with other parameters like timbre, formants, and sound attack, it affects the reception of listening impressions. In this paper, we present results of the examination concerning the automatic evaluation of intonation among the nonsingers, untrained and trained choral singers. We performed both pitch error during vocalization and pitch stability in crescendo task analysis among studied groups. We used Zero Band Filtering method to determine fundamental frequency from the singing signal. We noticed significant differences between singers with different skills and experience, and the possibility to classify the level of advancement of the singer by using intonation characteristic.
Źródło:
Vibrations in Physical Systems; 2019, 30, 1; 1-8
0860-6897
Pojawia się w:
Vibrations in Physical Systems
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Secured wired BPL voice transmission system
Bezpieczny przewodowy system BPL do transmisji mowy
Autorzy:
Debita, Grzegorz
Falkowski-Gilski, Przemysław
Habrych, Marcin
Miedziński, Bogdan
Wandzio, Jan
Jedlikowski, Przemysław
Powiązania:
https://bibliotekanauki.pl/articles/30097982.pdf
Data publikacji:
2020
Wydawca:
Akademia Wojsk Lądowych imienia generała Tadeusza Kościuszki
Tematy:
BPL
Broadband over Power Line
security
signal processing
voice transmission
wired medium
bezpieczeństwo
przetwarzanie sygnałów
transmisja głosu
medium przewodowe
Opis:
Designing a secured voice transmission system is not a trivial task. Wired media, thanks to their reliability and resistance to mechanical damage, seem an ideal solution. The BPL (Broadband over Power Line) cable is resistant to electricity stoppage and partial damage of phase conductors, ensuring continuity of transmission in case of an emergency. It seems an appropriate tool for delivering critical data, mostly clear and understandable voice messages. This paper describes such a system that was designed and evaluated in real-time operating conditions. It involved a two-way transmission of speech samples in American English and Polish. The efficiency of the designed solution was evaluated in the subjective study on a group of 15 people.
Opracowanie bezpiecznego systemu transmisji mowy nie jest trywialnym zadaniem. Media przewodowe, z uwagi na niezawodność i odporność na uszkodzenia mechaniczne, zdają się być idealnym rozwiązaniem. Kabel BPL (Broadband over Power Line) jest odporny na przerwy w dostawie prądu i częściowe uszkodzenie przewodników fazowych, zapewniając ciągłość transmisji w przypadku awarii. Wydaje się odpowiednim narzędziem do dostarczania istotnych danych, w szczególności wyraźnych i zrozumiałych komunikatów głosowych. Artykuł ten opisuje taki system, który został opracowany oraz zbadany w rzeczywistych warunkach pracy. Obejmował on dwukierunkową transmisję próbek mowy w języku angielskim (amerykańskim) oraz polskim. Skuteczność zaprojektowanego rozwiązania została oceniona w badaniu subiektywnym na grupie 15 osób.
Źródło:
Scientific Journal of the Military University of Land Forces; 2020, 52, 4(198); 947-955
2544-7122
2545-0719
Pojawia się w:
Scientific Journal of the Military University of Land Forces
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-8 z 8

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies