Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "speaker recognition" wg kryterium: Temat


Tytuł:
Development of Speaker Voice Identification Using Main Tone Boundary Statistics for Applying To Robot-Verbal Systems
Autorzy:
Amirgaliyev, Yedilkhan
Musabayev, Timur
Yedilkhan, Didar
Wojcik, Waldemar
Amirgaliyeva, Zhazira
Powiązania:
https://bibliotekanauki.pl/articles/963938.pdf
Data publikacji:
2020
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
speaker voice identification
voice interface (FXO)
human being
human-robot interaction
HRI
speech recognition
statistics of voice fundamental tone
computer-aided learning
neural network
Opis:
Hereby there is given the speaker identification basic system. There is discussed application and usage of the voice interfaces, in particular, speaker voice identification upon robot and human being communication. There is given description of the information system for speaker automatic identification according to the voice to apply to robotic-verbal systems. There is carried out review of algorithms and computer-aided learning libraries and selected the most appropriate, according to the necessary criteria, ALGLIB. There is conducted the research of identification model operation performance assessment at different set of the fundamental voice tone. As the criterion of accuracy there has been used the percentage of improperly classified cases of a speaker identification.
Źródło:
International Journal of Electronics and Telecommunications; 2020, 66, 3; 583-588
2300-1933
Pojawia się w:
International Journal of Electronics and Telecommunications
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Impact of the Passage of Time on the Correct Identification of the Speaker Using the Auditory Method
Autorzy:
Brachmanski, Stefan
Hus, Bartosz
Staroniewicz, Piotr
Powiązania:
https://bibliotekanauki.pl/articles/31339746.pdf
Data publikacji:
2024
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
speaker recognition
crime acoustics
aural identification
Opis:
Courts in Poland, as well as in most countries in the world, allow for the identification of a person on the basis of his/her voice using the so-called voice presentation method, i.e., the auditory method. This method is used in situations where there is no sound recording and the perpetrator of the criminal act was masked and the victim heard only his or her voice. However, psychologists, forensic acousticians, as well as researchers in the field of auditory perception and forensic science more broadly describe many cases in which such testimony resulted in misjudgement. This paper presents the results of an experiment designed to investigate, in a Polish language setting, the extent to which the passage of time impairs the correct identification of a person. The study showed that 31 days after the speaker’s voice was first heard, the correct identification for a female voice was 30% and for a male voice 40%.
Źródło:
Archives of Acoustics; 2024, 49, 1; 141-147
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Amplitude and Frequency Modulation in Speaker Recognition Systems
Autorzy:
Ciota, Z.
Powiązania:
https://bibliotekanauki.pl/articles/397977.pdf
Data publikacji:
2012
Wydawca:
Politechnika Łódzka. Wydział Mikroelektroniki i Informatyki
Tematy:
modulacja AM-FM
filtr Gabora
transformata Hilberta
biometryka głosu
spektrogram
przetwarzanie mowy
AM-FM modulation
Gabor filters
Hilbert transform
speaker recognition system
spectrogram analysis
speech processing
Opis:
The paper presents a review of the nowadays methods of voice vector extraction, applied in such speech processing, like person identification and emotion recognition. A special attention was held on mixed time-frequency analysis based on temporary frequency approach. The methods of calculation of time - frequency voice characterization were also described. The most important building blocks of identification and recognition of speakers have been presented. The characterization of feature vectors suitable for identification and verification in microcomputer systems was described. Components and appropriate method of speech identification based on the long-term spectra vectors were discussed.
Źródło:
International Journal of Microelectronics and Computer Science; 2012, 3, 2; 41-44
2080-8755
2353-9607
Pojawia się w:
International Journal of Microelectronics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rozpoznawanie wieku i płci na podstawie analizy głosu
Age and gender recognition based on analysis of voice
Autorzy:
Gabryś, J.
Gil, G.
Kiszka, P.
Powiązania:
https://bibliotekanauki.pl/articles/261820.pdf
Data publikacji:
2015
Wydawca:
Politechnika Wrocławska. Wydział Podstawowych Problemów Techniki. Katedra Inżynierii Biomedycznej
Tematy:
automatyczne rozpoznawanie mowy
wiek
płeć
współczynniki MFCC
klasyfikacja mówcy
maszyna wektorów nośnych
automatic speech recognition
age
gender
MFCC coefficients
classification of speaker
support vector machine (SVM)
Opis:
Metody automatycznego rozpoznawania wieku i płci pozwalają na rozpoznanie cech osoby mówiącej tylko na podstawie nagrania jej wypowiedzi. Mowa ludzka, poza werbalnym komunikatem, niesie ze sobą informacje dotyczące osoby mówiącej. Nagranie mowy osoby pozwala na wyodrębnienie takich informacji, jak jej płeć, wiek, a także emocje. Zaprezentowano przegląd metod rozpoznawania wieku i płci osób na podstawie ich mowy oraz wykonano implementację i przetestowano połączenie metod wyznaczania parametrów MFCC (współczynniki analizy cepstralnej w skali mel (Mel-frequency Cepstral Coefficients) i wysokości tonu głosu f0 oraz algorytmu SVM (metoda wektorów nośnych - Support Vector Machines) do klasyfikacji próbek głosowych. Testy zaimplementowanego rozwiązania pozwalają stwierdzić, że metoda jest skuteczna w większości przypadków testowych.
Methods for automatic recognition of the age and gender characteristics allow the identification of the person only on the basis of recording of this person speech. Human speech, beyond verbal communication, gives an information about the speaking person. Speech recording allows the identification personal characteristics such as gender, age, and the emotions. The paper presents an overview of methods of age and gender recognition of people based on their speech. A combination of methods for determining the parameters MFCC (Mel-frequency Cepstral Coefficients) and pitch of voice (f0) and SVM (Support Vector Machines) algorithm for the classification of voice samples is implanted and tested. It was demonstrated that the method is effective in the majority of test cases.
Źródło:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna; 2015, 21, 3; 165-169
1234-5563
Pojawia się w:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
SpeakerNet for Cross-lingual Text-Independent Speaker Verification
Autorzy:
Habib, Hafsa
Tauseef, Huma
Fahiem, Muhammad Abuzar
Farhan, Saima
Usman, Ghousia
Powiązania:
https://bibliotekanauki.pl/articles/1953543.pdf
Data publikacji:
2020
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
convolutional neural network
deep learning
Siamese network
speaker verification
text-independent
binary operation
Urdu speaker recognition
Opis:
Biometrics provide an alternative to passwords and pins for authentication. The emergence of machine learning algorithms provides an easy and economical solution to authentication problems. The phases of speaker verification protocol are training, enrollment of speakers and evaluation of unknown voice. In this paper, we addressed text independent speaker verification using Siamese convolutional network. Siamese networks are twin networks with shared weights. Feature space can be learnt easily by training these networks even if similar observations are placed in proximity. Extracted features from Siamese then can be classified using difference or correlation measures. We have implemented a customized scoring scheme that utilizes Siamese’ capability of applying distance measures with the convolutional learning. Experiments made on cross language audios of multi-lingual speakers confirm the capability of our architecture to handle gender, age and language independent speaker verification. Moreover, our designed Siamese network, SpeakerNet, provided better results than the existing speaker verification approaches by decreasing the equal error rate to 0.02.
Źródło:
Archives of Acoustics; 2020, 45, 4; 573-583
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An Effective Speaker Clustering Method using UBM and Ultra-Short Training Utterances
Autorzy:
Hossa, R.
Makowski, R.
Powiązania:
https://bibliotekanauki.pl/articles/176593.pdf
Data publikacji:
2016
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
automatic speech recognition
interindividual difference compensation
speaker clustering
universal background model
GMM weighting factor adaptation
Opis:
The same speech sounds (phones) produced by different speakers can sometimes exhibit significant differences. Therefore, it is essential to use algorithms compensating these differences in ASR systems. Speaker clustering is an attractive solution to the compensation problem, as it does not require long utterances or high computational effort at the recognition stage. The report proposes a clustering method based solely on adaptation of UBM model weights. This solution has turned out to be effective even when using a very short utterance. The obtained improvement of frame recognition quality measured by means of frame error rate is over 5%. It is noteworthy that this improvement concerns all vowels, even though the clustering discussed in this report was based only on the phoneme a. This indicates a strong correlation between the articulation of different vowels, which is probably related to the size of the vocal tract.
Źródło:
Archives of Acoustics; 2016, 41, 1; 107-118
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Combining Multiple Sound Sources Localization Hybrid Algorithm and Fuzzy Rule Based Classification for Real-time Speaker Tracking Application
Autorzy:
Ibala, C
Astapov, S
Bettens, F
Escobar, F
Chang, X
Valderrama, C
Riid, A
Powiązania:
https://bibliotekanauki.pl/articles/398033.pdf
Data publikacji:
2013
Wydawca:
Politechnika Łódzka. Wydział Mikroelektroniki i Informatyki
Tematy:
DSB
GCC
lokalizacja
śledzenie
MVDR
logika rozmyta
klasyfikacja
rozpoznawanie mowy
biometryka głosu
FPGA
localization
tracking
fuzzy logic
classification
speaker recognition
Opis:
This work present a novel approach to track a specific speaker among multiple using the Minimum Variance Distortionless Response (MVDR) beamforming and fuzzy logic ruled based classification for speaker recognition. The Sound sources localization is performed with an improve delay and sum beamforming (DSB) computation methodology. Our proposed hybrid algorithm computes first the Generalized Cross Correlation (GCC) to create a reduced search spectrum for the DSB algorithm. This methodology reduces by more than 70% the DSB localization computation burden. Moreover for high frequencies Sound sources beamforming, the DSB will be preferred to the MVDR for logic and power consumption reduction.
Źródło:
International Journal of Microelectronics and Computer Science; 2013, 4, 1; 12-25
2080-8755
2353-9607
Pojawia się w:
International Journal of Microelectronics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych
Selection of individual features of a speech signal using genetic algorithms
Autorzy:
Kamiński, K.
Dobrowolski, A. P.
Majda-Zdancewicz, E.
Powiązania:
https://bibliotekanauki.pl/articles/949807.pdf
Data publikacji:
2016
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
biometria
automatyczne rozpoznawanie mówcy
algorytmy genetyczne
selekcja cech
biometrics
automatic speaker recognition
genetic algorithms
feature selection
Opis:
W artykule przedstawiono system automatycznego rozpoznawania mówcy zaimplementowany w środowisku Matlab oraz pokazano sposoby realizacji i optymalizacji poszczególnych elementów tego systemu. Główny nacisk położono na wyselekcjonowanie cech dystynktywnych głosu mówcy z wykorzystaniem algorytmu genetycznego, który pozwala na uwzględnienie synergii cech podczas selekcji. Pokazano również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa użytych do zamodelowania każdego z głosów. Ponadto, podczas tworzenia modeli poszczególnych głosów zastosowano uniwersalny model głosów.
The paper presents an automatic speaker’s recognition system, implemented in the Matlab environment, and demonstrates how to achieve and optimize various elements of the system. The main emphasis was put on features selection of a speech signal using a genetic algorithm which takes into account synergy of features. The results of optimization of selected elements of a classifier have been also shown, including the number of Gaussian distributions used to model each of the voices. In addition, for creating voice models, a universal voice model has been used.
Źródło:
Biuletyn Wojskowej Akademii Technicznej; 2016, 65, 1; 147-158
1234-5865
Pojawia się w:
Biuletyn Wojskowej Akademii Technicznej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Agentowa struktura wielomodalnego interfejsu do Narodowej Platformy Cyberbezpieczeństwa, część 1
Agent Structure of Multimodal User Interface to the National Cybersecurity Platform – Part 1
Autorzy:
Kasprzak, Włodzimierz
Szynkiewicz, Wojciech
Stefańczyk, Maciej
Dudek, Wojciech
Figat, Maksym
Węgierek, Maciej
Seredyński, Dawid
Zieliński, Cezary
Powiązania:
https://bibliotekanauki.pl/articles/275795.pdf
Data publikacji:
2019
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
Narodowa Platforma Cyberbezpieczeństwa
rozpoznawanie obrazu
rozpoznawanie gestów
rozpoznawanie mowy
rozpoznawanie mówcy
National Cybersecurity Platform
image recognition
gesture recognition
speech recognition
speaker recognition
Opis:
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
Źródło:
Pomiary Automatyka Robotyka; 2019, 23, 3; 41-54
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Agentowa struktura wielomodalnego interfejsu do Narodowej Platformy Cyberbezpieczeństwa, część 2
Agent Structure of Multimodal User Interface to the National Cybersecurity Platform – Part 2
Autorzy:
Kasprzak, Włodzimierz
Szynkiewicz, Wojciech
Stefańczyk, Maciej
Dudek, Wojciech
Figat, Maksym
Węgierek, Maciej
Seredyński, Dawid
Zieliński, Cezary
Powiązania:
https://bibliotekanauki.pl/articles/275677.pdf
Data publikacji:
2019
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
Narodowa Platforma Cyberbezpieczeństwa
rozpoznawanie obrazu
rozpoznawanie gestów
rozpoznawanie mowy
rozpoznawanie mówcy
National Cybersecurity Platform
image recognition
gesture recognition
speech recognition
speaker recognition
Opis:
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
Źródło:
Pomiary Automatyka Robotyka; 2019, 23, 4; 5-18
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Genetic Algorithm for Combined Speaker and Speech Recognition using Deep Neural Networks
Autorzy:
Kaur, G.
Srivastava, M.
Kumar, A.
Powiązania:
https://bibliotekanauki.pl/articles/958089.pdf
Data publikacji:
2018
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
deep neural networks
genetic algorithm
LPCC
MFCC
PLP
RASTA-PLP
speaker recognition
speech recognition
Opis:
Huge growth is observed in the speech and speaker recognition field due to many artificial intelligence algorithms being applied. Speech is used to convey messages via the language being spoken, emotions, gender and speaker identity. Many real applications in healthcare are based upon speech and speaker recognition, e.g. a voice-controlled wheelchair helps control the chair. In this paper, we use a genetic algorithm (GA) for combined speaker and speech recognition, relying on optimized Mel Frequency Cepstral Coefficient (MFCC) speech features, and classification is performed using a Deep Neural Network (DNN). In the first phase, feature extraction using MFCC is executed. Then, feature optimization is performed using GA. In the second phase training is conducted using DNN. Evaluation and validation of the proposed work model is done by setting a real environment, and efficiency is calculated on the basis of such parameters as accuracy, precision rate, recall rate, sensitivity, and specificity. Also, this paper presents an evaluation of such feature extraction methods as linear predictive coding coefficient (LPCC), perceptual linear prediction (PLP), mel frequency cepstral coefficients (MFCC) and relative spectra filtering (RASTA), with all of them used for combined speaker and speech recognition systems. A comparison of different methods based on existing techniques for both clean and noisy environments is made as well.
Źródło:
Journal of Telecommunications and Information Technology; 2018, 2; 23-31
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Kryminalistyczna identyfikacja mówcy maskującego głos
Forensic identification of speaker with disguised voice
Autorzy:
Krzosek-Piwowarczyk, Izabela
Komosa, Olga
Maciejko, Waldemar
Powiązania:
https://bibliotekanauki.pl/articles/499820.pdf
Data publikacji:
2013
Wydawca:
Centralne Laboratorium Kryminalistyczne Policji
Tematy:
maskowanie
metoda językowa
automatyczne rozpoznawanie mówców
iloraz wiarygodności
rzetelność LR
PSOLA
wokoder fazowy
voice disguise
language method
automatic speaker recognition
likelihood ratio
LR reliability
phase vocoder
Opis:
Identyfikacja kryminalistyczna mówcy wymaga ekstrakcji cech osobniczych przenoszonych wraz z sygnałem mowy. Sprawcy przeróżnych przestępstw podejmują próby ukrycia tych cech. Jedna z najpopularniejszych technik maskowania polega na wykorzystaniu urządzenia modyfikującego częstotliwość tonu krtaniowego i jest oparta na metodach PSOLA lub PV. Metody te w trakcie resyntezy sygnału generują zniekształcenia, które muszą wpływać na obserwowane cechy. W ramach pracy zbadano wpływ zniekształceń wprowadzanych przez algorytmy modyfikacji tonu krtaniowego na językowe cechy osobnicze oraz skuteczność automatycznego systemu kryminalistycznej identyfikacji mówców wyrażoną za pomocą charakterystyk Tippetta.
Forensic speaker recognition is based on individual features which are conveyed with speech signal. Various crime offenders undertake attempts to disguise their individual features. One of the most common voice disguise method involves pitch shifting with PSOLA or PV methods. These methods distort speech signal during signal re-synthesis which has the influence on individual features. In hereby study, the Authors examined the effect of using pitch shifting algorithms on language individual features and effectiveness of forensic automatic speaker recognition which is assessed through Tippett plots.
Źródło:
Problemy Kryminalistyki; 2013, 280; 39-52
0552-2153
Pojawia się w:
Problemy Kryminalistyki
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wpływ transmisji głosu z wykorzystaniem telefonii internetowej VoIP na skuteczność automatycznego systemu kryminalistycznej identyfikacji mówców opartego na metodzie EM-UBM-MAP
The impact of voice transmission using VoIP Internet Telephony on the efficiency of forensic of an automatic speaker recognition system based on EM-UBM-MAP*
Autorzy:
Maciejko, Waldemar
Powiązania:
https://bibliotekanauki.pl/articles/499794.pdf
Data publikacji:
2014
Wydawca:
Centralne Laboratorium Kryminalistyczne Policji
Tematy:
Voice over Internet Protocol
kryminalistyczna identyfikacja mówców
model Gilberta
utrata pakietów
kompresja dźwięku
standard H.323
the forensic speaker recognition Gilbert model, packet loss
audio compression
the H.323 standard
Opis:
W niniejszej pracy zbadano wpływ transmisji pakietowej na skuteczność systemu automatycznej identyfikacji mówców pracującego w oparciu o bayesowski klasyfikator LR. Modelowanie statystyczne w systemie prowadzone jest z wykorzystaniem algorytmów EM-GMM oraz MAP. W badaniach założono, że z transmisją pakietową wiążą się dwa zjawiska: utrata pakietów oraz kodowanie sygnału. W badaniach wykorzystano niektóre kodeki audio standardu H.323 ITU-T. Zjawisko utraty pakietów przybliżono za pomocą dwustanowego modelu Gilberta. Wyniki badań przedstawiono w postaci charakterystyk Tippetta.
In this study, the effect of packet transmission on the effectiveness of the automatic speaker recognition system was examined, working on the basis Bayesian classifier LR. Statistical modelling of the system is carried out using algorithms EM-GMM and MAP. The study assumed that the packet transmission is associated with the occurrence of loss and encoding of the signal. In the research, some codecs of the audio standard H.323 ITU-T were used. The occurrence of the packet loss was described by means of a Gilbert digital model. Test results of performed tests are presented in Tippett plots.
Źródło:
Problemy Kryminalistyki; 2014, 283
0552-2153
Pojawia się w:
Problemy Kryminalistyki
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy
Modeling and optimization of features generator for speaker recognition systems
Autorzy:
Majda, E.
Dobrowolski, A. P.
Smólski, B. L.
Powiązania:
https://bibliotekanauki.pl/articles/209417.pdf
Data publikacji:
2012
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
automatyczne rozpoznawanie mówcy
analiza cepstralna
ekstrakcja cech
selekcja cech
analiza składników głównych
automatic speaker recognition
cepstral analysis
features extraction
features selection
principal component analysis
Opis:
W pracy przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition - ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzględniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis - PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.
The paper presents issues related to modeling and optimization of the features generator for the speaker recognition system (ASR - Automatic Speakers Recognition). Parameterization's stage of the speech signal (features generation) is fundamental in this type of systems, due to the fact that the unique vector of features is crucial in the process of recognition. The task is to describe the speech signal using descriptors as little as possible, without loss of relevant information to the speaker recognition. In addition, parametrization should have robust to acoustic and technical registration conditions and the recorded linguistic material. The research presented in this paper is focused primarily on the multicriteria optimization of selected parameters of the features generator based on cepstral analysis, additionally allowing features selection. Finally, evaluation of the results was based on the analysis of main components, a set of descriptors for the samples voice acquired from 24 speakers.
Źródło:
Biuletyn Wojskowej Akademii Technicznej; 2012, 61, 4; 153-168
1234-5865
Pojawia się w:
Biuletyn Wojskowej Akademii Technicznej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system
Autorzy:
Mały, Dominik
Dobrowolski, Andrzej
Powiązania:
https://bibliotekanauki.pl/articles/27323689.pdf
Data publikacji:
2023
Wydawca:
Centrum Rzeczoznawstwa Budowlanego Sp. z o.o.
Tematy:
automatic speaker recognition
automatic speaker recognition systems
physical features
behavioral features
speech signal
automatyczne rozpoznawanie mówiącego
sygnał mowy
system automatycznego rozpoznawania mówiącego
cecha behawioralna
cecha fizyczna
Opis:
The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.
Źródło:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych; 2023, 4; 26--34
2450-1859
2450-8721
Pojawia się w:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies