Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "MFCC" wg kryterium: Temat


Tytuł:
Navigation security module with real-time voice command recognition system
Autorzy:
Yagimli, M.
Kursat-Tezer, H.
Powiązania:
https://bibliotekanauki.pl/articles/258920.pdf
Data publikacji:
2017
Wydawca:
Politechnika Gdańska. Wydział Inżynierii Mechanicznej i Okrętownictwa
Tematy:
maritime navigation
LPC
MFCC
DTW
voice command recognition
Opis:
The real-time voice command recognition system used for this study, aims to increase the situational awareness, therefore the safety of navigation, related especially to the close manoeuvres of warships, and the courses of commercial vessels in narrow waters. The developed system, the safety of navigation that has become especially important in precision manoeuvres, has become controllable with voice command recognition-based software. The system was observed to work with 90.6% accuracy using Mel Frequency Cepstral Coefficients (MFCC) and Dynamic Time Warping (DTW) parameters and with 85.5% accuracy using Linear Predictive Coding (LPC) and DTW parameters.
Źródło:
Polish Maritime Research; 2017, 2; 17-26
1233-2585
Pojawia się w:
Polish Maritime Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wykorzystanie metody niejawnych modeli Markowa w automatycznej detekcji wybranych wad wymowy
Application Hidden Markov Models to Automatic Detection of Speech Disorder
Autorzy:
Wielgat, R.
Zieliński, T.
Świętojański, P.
Żołądź, P.
Woźniak, T.
Grabias, S.
Król, D.
Powiązania:
https://bibliotekanauki.pl/articles/152366.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
współczynniki HFCC
współczynniki MFCC
niejawne modele Markowa
terapia logopedyczna
human factor cepstral coefficients
Mel-frequency cepstral coefficients
hidden markov models
logopedic therapy
Opis:
W artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wad wymowy u dzieci. Jako materiał badawczy zostały wykorzystane nagrania pochodzące od dzieci z wadami wymowy. Zadanie polegało na rozpoznaniu nieprawidłowo realizowanego fonemu w wybranych słowach testowych. Detekcja była dokonywana za pomocą metod rozpoznawania mowy, w których jako cec sygnału mowy użyto dwóch najbardziej obiecujących rodzajów cech: współczynnika MFCC praz współczynników HFCC. Jako klasyfikatora użyto metody niejawnych modeli Markowa (HMM), gdzie modelowanymi jednostkami fonetycznimi były zarówno fonemy jak i całe słowa. W badanych metodach dobrano ich parametry w celu zmaksymalizowania skuteczności rozpoznawania. W artykule zaprezentowano również analizę porównawczą wyników rozpoznawania otrzymanych z wykorzystaniem metody HMM oraz testowanej w poprzednich pracach metody nieliniowej transformacji czasowej (DTW).
The results of research on automatic detection of the pathological phoneme pronunciation are presented in the paper. Speech samples came from speech impaired children and persons who imitated pathological phoneme pronunciation. The recognition task was to find wrongly realized phoneme in the selected test utterances. At the reature extraction stage the most effective features` types have been used: standard Mel-Frequency Cepstral Coefficients (MFCC) and recently proposed Human Factor Cepstral Coefficients (HFCC). As a classificator hidden Markov models, with modeled speech unit being a phoneme as well as a whole word, have been used. The parameters of the HMMs were adjusted in order to achieve the best recognition accuracy. Comparision of the HMM and DTW methods is also presented in the paper.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 9 bis, 9 bis; 417-420
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Hierarchical Classification of Environmental Noise Sources Considering the Acoustic Signature of Vehicle Pass-Bys
Autorzy:
Valero, X.
Alias, F.
Powiązania:
https://bibliotekanauki.pl/articles/176616.pdf
Data publikacji:
2012
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
acoustic signature
environmental noise monitoring
Gaussian mixture models
hierarchical classification
mel-frequency cepstral coefficients (MFCC)
sound classification
traffic noise
vehicle pass-by
Opis:
This work is focused on the automatic recognition of environmental noise sources that affect humans’ health and quality of life, namely industrial, aircraft, railway and road traffic. However, the recognition of the latter, which have the largest influence on citizens’ daily lives, is still an open issue. Therefore, although considering all the aforementioned noise sources, this paper especially focuses on improving the recognition of road noise events by taking advantage of the perceived noise differences along the road vehicle pass-by (which may be divided into different phases: approaching, passing and receding). To that effect, a hierarchical classification scheme that considers these phases independently has been implemented. The proposed classification scheme yields an averaged classification accuracy of 92.5%, which is, in absolute terms, 3% higher than the baseline (a traditional flat classification scheme without hierarchical structure). In particular, it outperforms the baseline in the classification of light and heavy vehicles, yielding a classification accuracy 7% and 4% higher, respectively. Finally, listening tests are performed to compare the system performance with human recognition ability. The results reveal that, although an expert human listener can achieve higher recognition accuracy than the proposed system, the latter outperforms the non-trained listener in 10% in average.
Źródło:
Archives of Acoustics; 2012, 37, 4; 423-434
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Heart Rate Detection and Classification from Speech Spectral Features Using Machine Learning
Autorzy:
Usman, Mohammed
Zubair, Mohammed
Ahmad, Zeeshan
Zaidi, Monji
Ijyas, Thafasal
Parayangat, Muneer
Wajid, Mohd
Shiblee, Mohammad
Ali, Syed Jaffar
Powiązania:
https://bibliotekanauki.pl/articles/1953514.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
heart rate from speech
machine learning
MFCC
regression
classification
speech as a biomedical signal
Opis:
Measurement of vital signs of the human body such as heart rate, blood pressure, body temperature and respiratory rate is an important part of diagnosing medical conditions and these are usually measured using medical equipment. In this paper, we propose to estimate an important vital sign – heart rate from speech signals using machine learning algorithms. Existing literature, observation and experience suggest the existence of a correlation between speech characteristics and physiological, psychological as well as emotional conditions. In this work, we estimate the heart rate of individuals by applying machine learning based regression algorithms to Mel frequency cepstrum coefficients, which represent speech features in the spectral domain as well as the temporal variation of spectral features. The estimated heart rate is compared with actual measurement made using a conventional medical device at the time of recording speech. We obtain estimation accuracy close to 94% between the estimated and actual measured heart rate values. Binary classification of heart rate as ‘normal’ or ‘abnormal’ is also achieved with 100% accuracy. A comparison of machine learning algorithms in terms of heart rate estimation and classification accuracy is also presented. Heart rate measurement using speech has applications in remote monitoring of patients, professional athletes and can facilitate telemedicine.
Źródło:
Archives of Acoustics; 2021, 46, 1; 41-53
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparison of the efficiency of time and frequency domain descriptors for the classification of selected wind instruments
Porównanie skuteczności deskryptorów wdziedzinie czasu i częstotliwości do klasyfikacji wybranych instrumentów dętych
Autorzy:
Tyburek, Krzysztof
Namli, Ömer Bora
Powiązania:
https://bibliotekanauki.pl/articles/41205950.pdf
Data publikacji:
2022
Wydawca:
Uniwersytet Kazimierza Wielkiego w Bydgoszczy
Tematy:
power spectrum
MFCC
timbre
Music Instrument Identification
MPEG-7
aerophones
widmo mocy
barwa
identyfikacja instrumentów muzycznych
aerofony
Opis:
By analyzing the physical features of the time domain and the frequency domainof the audio signal, it is possible to determine its source and use appropriate algorithms to automatically classify of it. The issue of sound indexing deals with the analysis ofdifferent classes and sources -including signals from musical instruments. By calculating the values of descriptors and classifying them, we obtain information about the type of instrument and its structure -most often the material from which it was made. During the conducted research, it turned out that a different composition of the feature vector is implemented to describe brass instruments and a different one for wooden instruments. In this case, the key feature may be harmonic highs in the frequency domain. The conducted experiments concern an attempt to parameterize wind instruments (aerophones) in order to compare the classification effectiveness of time and spectral descriptors. Sounds from a tube, a flute and a soprano saxophone were used for research. The sample population for each instrument was 21.
Analizując fizyczne cechy domeny czasu i domeny częstotliwości sygnału audio można okreslić jego źródło i przy pomocy własciwych algorytmów dokonac jego automatycznej klasyfikacji. Kwestia indeksacji dźwięku dotyczy analizy różnych klas i źródeł –także sygnałów wywodzących się z instrumentów muzycznych. Obliczając wartości deskryptorów i dokonując ich klasyfikacji uzyskujemy informację o typie instrumentu oraz jego budowie -najczęściej materiału, z którego zostal wykonany. Podczas prowadzonych badań okazało się, że różna kompozycja wektora cech jest implementowana do opisu instrumentów blaszanych oraz inna dla instrumentów drewnianych. W tym przypadku cechą kluczową mogą być składowe wyże harmoniczne w postaci częstotliwościowej dźwieku. Przeprowadzone eksperymenty dotyczą próby parametryzacji instrumentów dętych (aerofonów) w celu porównania skuteczności klasyfikacyjnej deskryptorów czasowych i widmowych. Do badań przeznaczono dźwieki pochodzace z tuby, fletu oraz saksofonu sopranowego. Populacja próbek dla każdego instrumentu wynosiła 21.
Źródło:
Studia i Materiały Informatyki Stosowanej; 2022, 14, 3; 13-19
1689-6300
Pojawia się w:
Studia i Materiały Informatyki Stosowanej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Hybrid of neural networks and hidden Markov models as a modern approach to speech recognition systems
Hybryda sieci neuronowych i ukrytych modeli Markowa jako nowoczesne podejście do rozpoznawania mowy
Autorzy:
Sokólski, P.
Rutkowski, T.
Powiązania:
https://bibliotekanauki.pl/articles/276753.pdf
Data publikacji:
2013
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
sztuczne sieci neuronowe
ukryte modele Markowa
MFCC
sterowanie
artificial neural networks
hidden Markov models
speech recognition
control
Opis:
The aim of this paper is to present a hybrid algorithm that combines the advantages of artificial neural networks and hidden Markov models in speech recognition for control purposes. The scope of the paper includes review of currently used solutions, description and analysis of implementation of selected artificial neural network (NN) structures and hidden Markov models (HMM). The main part of the paper consists of a description of development and implementation of a hybrid algorithm of speech recognition using NN and HMM and presentation of verification of correctness results.
Celem artykułu jest przedstawienie algorytmów hybrydowych łączących zalety sztucznych sieci neuronowych i ukrytych modeli Markowa w zastosowaniach rozpoznawania mowy dla potrzeb sterowania. W zakres opracowania wchodzi przegląd stosowanych obecnie rozwiązań, opis i analiza implementacji wybranych struktur sieci neuronowych (NN) oraz ukrytych modeli Markowa (HMM). Główną część artykułu stanowi opis opracowywania hybrydowego algorytmu rozpoznawania mowy wykorzystującego NN i HMM oraz prezentacja wyników weryfikacji poprawności działania.
Źródło:
Pomiary Automatyka Robotyka; 2013, 17, 2; 449-455
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Visualization of stages of determining cepstral factors in speech recognition systems
Autorzy:
Proksa, R.
Powiązania:
https://bibliotekanauki.pl/articles/333103.pdf
Data publikacji:
2009
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
rozpoznawanie mowy
LPCC
MFCC
wyizolowane słowo
sygnały mowy
speech recognition
cepstral coefficients
isolated word
Opis:
The article presents two methods of determination of cepstral parameters commonly applied in digital signal processing, in particular in speech recognition systems. The solutions presented are part of a project aimed at developing applications allowing to control the Windows operating system with voice and the use of MSAA (Microsoft Active Accessibility). The analysed voice signal has been visually presented at each of the crucial stages of developing cepstral coefficients.
Źródło:
Journal of Medical Informatics & Technologies; 2009, 13; 121-128
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Porównanie wyników analizy cepstralnej z innymi parametrami oceny głosu u pacjentów z dysfoniami zawodowymi
Comparison of cepstral coefficients to other voice evaluation parameters in patients with occupational dysphonia
Autorzy:
Niebudek-Bogusz, Ewa
Strumiłło, Paweł
Wiktorowicz, Justyna
Śliwińska-Kowalska, Mariola
Powiązania:
https://bibliotekanauki.pl/articles/2166319.pdf
Data publikacji:
2014-11-05
Wydawca:
Instytut Medycyny Pracy im. prof. dra Jerzego Nofera w Łodzi
Tematy:
kompleksowa ocena głosu
współczynniki cepstralne MFCC
zawodowe zaburzenia głosu
complex voice assessment
mel-cepstral coefficients
MFCCs
occupational voice disorders
Opis:
Wprowadzenie: W ostatnim czasie wśród obiektywnych metod oceny głosu uznaniem cieszy się analiza akustyczna oparta na wyznaczaniu współczynników cepstralnych MFCC (mel-frequency cepstral coefficients). Celem badania była ocena ich zastosowania w diagnozowaniu dysfonii zawodowych w porównaniu z innymi subiektywnymi i obiektywnymi parametrami diagnostycznymi zaburzeń głosu. Materiał i metody: W badaniu wzięły udział 2 grupy kobiet: grupa badana - 55 nauczycielek (średni wiek: 45 lat) z dysfoniami o podłożu zawodowym, potwierdzonymi badaniem laryngowideostroboskopowym, oraz grupa porównawcza - 40 kobiet z głosem prawidłowym (średni wiek: 43 lata). Próbki dźwiękowe (samogłoska ‘a' oraz 4 znormalizowane fonetycznie zdania) poddano analizie MFCC. Wyniki porównano z parametrami akustycznymi (z grupy jittera, z grupy shimmera, parametrem oceny szumów NHR i współczynnikiem chrypki Yanagihary), parametrem aerodynamicznym (maksymalnym czasem fonacji) i parametrami subiektywnymi (skalą percepcyjną GRBAS i wskaźnikiem niepełnosprawności głosowej VHI). Wyniki: Analiza cepstralna wykazała znaczące różnice między grupą badaną a porównawczą, istotne dla współczynników MFCC2, MFCC3, MFCC5, MFCC6, MFCC8, MFCC10, szczególnie dla MFCC6 (p < 0,001) oraz dla MFCC8 (p < 0,009), co może sugerować ich przydatność kliniczną. Z kolei w grupie badanej MFCC4, MFCC8 i MFCC10 istotnie korelowały z większością zastosowanych parametrów obiektywnych oceny głosu. Ponadto współczynnik MFCC8, który u badanych nauczycielek korelował istotnie z wszystkimi ww. 8 parametrami obiektywnymi, wykazał też istotną zależność z cechą dystynktywną A (asthenity) subiektywnej skali GRBAS, cechującej głos słaby, zmęczony. Wnioski: Analiza cepstralna, oparta na wyznaczaniu współczynników MFCC, jest dobrze rokującym narzędziem do obiektywnej diagnostyki dysfonii zawodowych, które bardziej niż inne metody analizy akustycznej odzwierciedla cechy percepcyjne głosu. Med. Pr. 2013;64(6):805–816
Background: Special consideration has recently been given to cepstral analysis with mel-frequency cepstral coefficients (MFCCs). The aim of this study was to assess the applicability of MFCCs in acoustic analysis for diagnosing occupational dysphonia in comparison to subjective and objective parameters of voice evaluation. Materials and Methods: The study comprised 2 groups, one of 55 female teachers (mean age: 45 years) with occupational dysphonia confirmed by videostroboscopy and 40 female controls with normal voice (mean age: 43 years). The acoustic samples involving sustained vowels "a" and four standardized sentences were analyzed by computed analysis of MFCCs. The results were compared to acoustic parameters of jitter and shimmer groups, noise to harmonic ratio, Yanagihara index evaluating the grade of hoarseness, the aerodynamic parameter: maximum phonation time and also subjective parameters: GRBAS perceptual scale and Voice Handicap Index (VHI). Results: The compared results revealed differences between the study and control groups, significant for MFCC2, MFCC3, MFCC5, MFCC6, MFCC8, MFCC10, particularly for MFCC6 (p < 0.001) and MFCC8 (p < 0.009), which may suggest their clinical applicability. In the study group, MFCC4, MFCC8 and MFCC10 correlated significantly with the major objective parameters of voice assessment. Moreover, MFCC8 coefficient, which in the female teachers correlated with all eight objective parameters, also showed the significant relation with perceptual voice feature A (asthenity) of subjective scale GRBAS, characteristic of weak tired voice. Conclusions: The cepstral analysis with mel frequency cepstral coefficients is a promising tool for evaluating occupational voice disorders, capable of reflecting the perceptual voice features better than other methods of acoustic analysis. Med Pr 2013;64(6):805–816
Źródło:
Medycyna Pracy; 2013, 64, 6; 805-816
0465-5893
2353-1339
Pojawia się w:
Medycyna Pracy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Classification of Parkinson’s disease and other neurological disorders using voice features extraction and reduction techniques
Klasyfikacja choroby Parkinsona i innych zaburzeń neurologicznych z wykorzystaniem ekstrakcji cech głosowych i technik redukcji
Autorzy:
Majdoubi, Oumaima
Benba, Achraf
Hammouch, Ahmed
Powiązania:
https://bibliotekanauki.pl/articles/27315435.pdf
Data publikacji:
2023
Wydawca:
Politechnika Lubelska. Wydawnictwo Politechniki Lubelskiej
Tematy:
voice analysis
Parkinson’s disease
MFCC
PCA
naive Bayes kernel
machine learning
analiza głosu
choroba Parkinsona
naiwne jądro bayesowskie
uczenie maszynowe
Opis:
This study aimed to differentiate individuals with Parkinson's disease (PD) from those with other neurological disorders (ND) by analyzing voice samples, considering the association between voice disorders and PD. Voice samples were collected from 76 participants using different recording devices and conditions, with participants instructed to sustain the vowel /a/ comfortably. PRAAT software was employed to extract features including autocorrelation (AC), cross-correlation (CC), and Mel frequency cepstral coefficients (MFCC) from the voice samples. Principal component analysis (PCA) was utilized to reduce the dimensionality of the features. Classification Tree (CT), Logistic Regression, Naive Bayes (NB), Support Vector Machines (SVM), and Ensemble methods were employed as supervised machine learning techniques for classification. Each method provided distinct strengths and characteristics, facilitating a comprehensive evaluation of their effectiveness in distinguishing PD patients from individuals with other neurological disorders. The Naive Bayes kernel, using seven PCA-derived components, achieved the highest accuracy rate of 86.84% among the tested classification methods. It is worth noting that classifier performance may vary based on the dataset and specific characteristics of the voice samples. In conclusion, this study demonstrated the potential of voice analysis as a diagnostic tool for distinguishing PD patients from individuals with other neurological disorders. By employing a variety of voice analysis techniques and utilizing different machine learning algorithms, including Classification Tree, Logistic Regression, Naive Bayes, Support Vector Machines, and Ensemble methods, a notable accuracy rate was attained. However, further research and validation using larger datasets are required to consolidate and generalize these findings for future clinical applications.
Przedstawione badanie miało na celu różnicowanie osób z chorobą Parkinsona (PD) od osób z innymi zaburzeniami neurologicznymi poprzez analizę próbek głosowych, biorąc pod uwagę związek między zaburzeniami głosu a PD. Próbki głosowe zostały zebrane od 76 uczestników przy użyciu różnych urządzeń i warunków nagrywania, a uczestnicy byli instruowani, aby wydłużyć samogłoskę /a/ w wygodnym tempie. Oprogramowanie PRAAT zostało zastosowane do ekstrakcji cech, takich jak autokorelacja (AC), krzyżowa korelacja (CC) i współczynniki cepstralne Mel (MFCC) z próbek głosowych. Analiza składowych głównych (PCA) została wykorzystana w celu zmniejszenia wymiarowości cech. Jako techniki nadzorowanego uczenia maszynowego wykorzystano drzewa decyzyjne (CT), regresję logistyczną, naiwny klasyfikator Bayesa (NB), maszyny wektorów nośnych (SVM) oraz metody zespołowe. Każda z tych metod posiadała swoje unikalne mocne strony i charakterystyki, umożliwiając kompleksową ocenę ich skuteczności w rozróżnianiu pacjentów z PD od osób z innymi zaburzeniami neurologicznymi. Naiwny klasyfikator Bayesa, wykorzystujący siedem składowych PCA, osiągnął najwyższy wskaźnik dokładności na poziomie 86,84% wśród przetestowanych metod klasyfikacji. Należy jednak zauważyć, że wydajność klasyfikatora może się różnić w zależności od zbioru danych i konkretnych cech próbek głosowych. Podsumowując, to badanie wykazało potencjał analizy głosu jako narzędzia diagnostycznego do rozróżniania pacjentów z PD od osób z innymi zaburzeniami neurologicznymi. Poprzez zastosowanie różnych technik analizy głosu i wykorzystanie różnych algorytmów uczenia maszynowego, takich jak drzewa decyzyjne, regresja logistyczna, naiwny klasyfikator Bayesa, maszyny wektorów nośnych i metody zespołowe, osiągnięto znaczący poziom dokładności. Niemniej jednak, konieczne są dalsze badania i walidacja na większych zbiorach danych w celu skonsolidowania i uogólnienia tych wyników dla przyszłych zastosowań klinicznych.
Źródło:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska; 2023, 13, 3; 16--22
2083-0157
2391-6761
Pojawia się w:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Voice pathology assessment using x-vectors approach
Autorzy:
Kotarba, Katarzyna
Kotarba, Michał
Powiązania:
https://bibliotekanauki.pl/articles/2146638.pdf
Data publikacji:
2021
Wydawca:
Politechnika Poznańska. Instytut Mechaniki Stosowanej
Tematy:
x-vectors
speaker embeddings
voice pathology
MFCC
GFCC
x wektory
osadzenie głośnika
patologia głosu
Opis:
Voice pathology assessment using sustained vowels has proven to be effective and reliable. However, only a few studies regarding detection of pathological speech based on continuous speech are available. In this study we evaluate the usefulness of various regression models trained on continuous speech recordings from Saarbruecken Voice Database in the detection of voice pathologies. The recordings were used for extraction of speaker embeddings called x-vectors based on mel-frequency cepstral coefficients and gammatone frequency cepstral coefficients. Since the dataset used in this study is imbalanced, various over- and undersampling techniques were applied to the training set to ensure robustness of models’ decision boundaries. The models were trained on both imbalanced and resampled training sets using 5-fold cross-validation. The best results were obtained for Multi Layer Perceptron trained on GFCC-based x-vectors, achieving accuracy of 0.8184, F1-score of 0.8212, and ROC AUC score of 0.8810 for the testing set.
Źródło:
Vibrations in Physical Systems; 2021, 32, 1; art. no. 2021108
0860-6897
Pojawia się w:
Vibrations in Physical Systems
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Genetic Algorithm for Combined Speaker and Speech Recognition using Deep Neural Networks
Autorzy:
Kaur, G.
Srivastava, M.
Kumar, A.
Powiązania:
https://bibliotekanauki.pl/articles/958089.pdf
Data publikacji:
2018
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
deep neural networks
genetic algorithm
LPCC
MFCC
PLP
RASTA-PLP
speaker recognition
speech recognition
Opis:
Huge growth is observed in the speech and speaker recognition field due to many artificial intelligence algorithms being applied. Speech is used to convey messages via the language being spoken, emotions, gender and speaker identity. Many real applications in healthcare are based upon speech and speaker recognition, e.g. a voice-controlled wheelchair helps control the chair. In this paper, we use a genetic algorithm (GA) for combined speaker and speech recognition, relying on optimized Mel Frequency Cepstral Coefficient (MFCC) speech features, and classification is performed using a Deep Neural Network (DNN). In the first phase, feature extraction using MFCC is executed. Then, feature optimization is performed using GA. In the second phase training is conducted using DNN. Evaluation and validation of the proposed work model is done by setting a real environment, and efficiency is calculated on the basis of such parameters as accuracy, precision rate, recall rate, sensitivity, and specificity. Also, this paper presents an evaluation of such feature extraction methods as linear predictive coding coefficient (LPCC), perceptual linear prediction (PLP), mel frequency cepstral coefficients (MFCC) and relative spectra filtering (RASTA), with all of them used for combined speaker and speech recognition systems. A comparison of different methods based on existing techniques for both clean and noisy environments is made as well.
Źródło:
Journal of Telecommunications and Information Technology; 2018, 2; 23-31
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sterowanie głosem urządzeniami mechatronicznymi koncepcja stanowiska dydaktycznego
The voice control of mechatronic devices the concept of didactic station
Autorzy:
Idziak, P.
Kmieć, A.
Powiązania:
https://bibliotekanauki.pl/articles/377555.pdf
Data publikacji:
2017
Wydawca:
Politechnika Poznańska. Wydawnictwo Politechniki Poznańskiej
Tematy:
Raspberry Pi
algorytm MFCC
oprogramowanie Jasper
rozpoznawanie mowy
Opis:
W artykule zaprezentowano algorytmy zamiany głosu ludzkiego na postać cyfrową i na tej podstawie rozpoznawanie wydawanych komend. Przedstawiono opis algorytmu MFCC oraz jego aplikację działającą na platformie Raspberry Pi. Opisano spotykane open-source’owe programy umożliwiające rozpozanawanie mowy, działające w środowisku LINUX. Zaprezentowano koncepcję stanowiska dydaktycznego realizującego proste komendy głosowe. Przedstawiono rezultaty testów sprawdzających.
The article features basic algorithms which are responsible for converting human voice into digital form. It also describes MFCC algorithm and the steps required to put it into practice. It includes presentation of the primary open-source software programs, that allow speech recognition in Linux environment, on the platform Raspberry Pi. At the end, the article presents a concept of didactic station, performing simple voice commands using Jasper program and its possibility to use in future.
Źródło:
Poznan University of Technology Academic Journals. Electrical Engineering; 2017, 92; 375-386
1897-0737
Pojawia się w:
Poznan University of Technology Academic Journals. Electrical Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
System rozpoznawania mowy z ograniczonym słownikiem
Speech recognition system with limited dictionary
Autorzy:
Grabowski, D.
Kwiatkowska, M.
Świerczewski, Ł.
Powiązania:
https://bibliotekanauki.pl/articles/131953.pdf
Data publikacji:
2014
Wydawca:
Wrocławska Wyższa Szkoła Informatyki Stosowanej Horyzont
Tematy:
rozpoznawanie mowy
ASR
MFCC
speech recognition
Opis:
Motywacją w pisanej pracy jest omówienie i porównanie popularnych algorytmów rozpoznawania mowy na różnych systemach. Zebrane informacje są przedstawione w stosunkowo krótkiej formie, bez wnikliwej analizy dowodów matematycznych, do których przedstawienia i tak potrzebne jest odniesienie się do odrębnych specjalistycznych źródeł. Omówione zostały tutaj problemy pewne związane z ASR (ang. Automatic Speech Recognition) i perspektywy na rozwiązanie ich. Na podstawie dostępnych rozwiązań stworzony został moduł aplikacji umożliwiający porównywanie zebranych nagrań pod kątem podobieństwa sygnału mowy i przedstawienie wyników w formie tabelarycznej. Stworzona biblioteka w celach prezentacyjnych została użyta do pełnej aplikacji umożliwiającej wykonywanie rozkazów na podstawie słów wypowiadanych do mikrofonu. Wyniki posłużą nie tyle za ostateczne wnioski w tematyce rozpoznawania mowy, co za wskazówki do kolejnych analiz i badań. Mimo postępów w badaniach nad ASR, nadal nie ma algorytmów o skuteczności przekraczającej 95%. Motywacją do dalszych działań może być np. społeczne wykluczenie ludzi nie mogących posługiwać się komunikacją polegającą na wzroku.
Motivation of this thesis is discussion about popular ASR algorithms and comparision on various architectures. Collected results are presented in relatively short shape. It’s done without math argumentation because it could depend on complicated equations. Here are discussed some problems associated with ASR (Automatic Speech Recognition) and the prospects for a solution to their. On the basis of available solutions it was developed application module that allows comparison of collected recordings in respect of similarity of the speech signal and present the results in tabular form. For presentation purposes it has been created a library and it was used in complete application that allows execution of commands based on the words spoken to microphone. The results will be used not only for the final conclusions about ASR, what clues for further analysis and research. Despite the advances in research on ASR, still there are no algorithms for effectiveness in excess of 95%. The motivation for further actions may be, eg, the social exclusion of people who can not use the communication involving the eye
Źródło:
Biuletyn Naukowy Wrocławskiej Wyższej Szkoły Informatyki Stosowanej. Informatyka; 2014, 4; 44-53
2082-9892
Pojawia się w:
Biuletyn Naukowy Wrocławskiej Wyższej Szkoły Informatyki Stosowanej. Informatyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Diagnostyka silnika synchronicznego oparta na analizie sygnałów akustycznych z zastosowaniem MFCC i GSDM
Diagnostics of synchronous motor based on analysis of acoustic signals with application of MFCC and GSDM
Autorzy:
Głowacz, A.
Głowacz, W.
Głowacz, Z.
Powiązania:
https://bibliotekanauki.pl/articles/1373298.pdf
Data publikacji:
2010
Wydawca:
Sieć Badawcza Łukasiewicz - Instytut Napędów i Maszyn Elektrycznych Komel
Tematy:
maszyna elektryczna
silnik synchroniczny
diagnostyka silników elektrycznych
sygnał akustyczny
GSDM
MFCC
Opis:
The paper presents method of diagnostics of imminent failure conditions of synchronous motor. This method is based on a study of acoustic signals generated by synchronous motor. Sound recognition system is based on data processing algorithms, such as MFCC and GSDM. Software to recognize the sounds of synchronous motor was implemented. The studies were carried out for four imminent failure conditions of synchronous motor. The results confirm that the system can be useful for detecting damage and protect the motors.
Źródło:
Maszyny Elektryczne: zeszyty problemowe; 2010, 87; 185-190
0239-3646
2084-5618
Pojawia się w:
Maszyny Elektryczne: zeszyty problemowe
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rozpoznawanie wieku i płci na podstawie analizy głosu
Age and gender recognition based on analysis of voice
Autorzy:
Gabryś, J.
Gil, G.
Kiszka, P.
Powiązania:
https://bibliotekanauki.pl/articles/261820.pdf
Data publikacji:
2015
Wydawca:
Politechnika Wrocławska. Wydział Podstawowych Problemów Techniki. Katedra Inżynierii Biomedycznej
Tematy:
automatyczne rozpoznawanie mowy
wiek
płeć
współczynniki MFCC
klasyfikacja mówcy
maszyna wektorów nośnych
automatic speech recognition
age
gender
MFCC coefficients
classification of speaker
support vector machine (SVM)
Opis:
Metody automatycznego rozpoznawania wieku i płci pozwalają na rozpoznanie cech osoby mówiącej tylko na podstawie nagrania jej wypowiedzi. Mowa ludzka, poza werbalnym komunikatem, niesie ze sobą informacje dotyczące osoby mówiącej. Nagranie mowy osoby pozwala na wyodrębnienie takich informacji, jak jej płeć, wiek, a także emocje. Zaprezentowano przegląd metod rozpoznawania wieku i płci osób na podstawie ich mowy oraz wykonano implementację i przetestowano połączenie metod wyznaczania parametrów MFCC (współczynniki analizy cepstralnej w skali mel (Mel-frequency Cepstral Coefficients) i wysokości tonu głosu f0 oraz algorytmu SVM (metoda wektorów nośnych - Support Vector Machines) do klasyfikacji próbek głosowych. Testy zaimplementowanego rozwiązania pozwalają stwierdzić, że metoda jest skuteczna w większości przypadków testowych.
Methods for automatic recognition of the age and gender characteristics allow the identification of the person only on the basis of recording of this person speech. Human speech, beyond verbal communication, gives an information about the speaking person. Speech recording allows the identification personal characteristics such as gender, age, and the emotions. The paper presents an overview of methods of age and gender recognition of people based on their speech. A combination of methods for determining the parameters MFCC (Mel-frequency Cepstral Coefficients) and pitch of voice (f0) and SVM (Support Vector Machines) algorithm for the classification of voice samples is implanted and tested. It was demonstrated that the method is effective in the majority of test cases.
Źródło:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna; 2015, 21, 3; 165-169
1234-5563
Pojawia się w:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies