Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Automatic Speech Recognition" wg kryterium: Temat


Tytuł:
Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system
Autorzy:
Mały, Dominik
Dobrowolski, Andrzej
Powiązania:
https://bibliotekanauki.pl/articles/27323689.pdf
Data publikacji:
2023
Wydawca:
Centrum Rzeczoznawstwa Budowlanego Sp. z o.o.
Tematy:
automatic speaker recognition
automatic speaker recognition systems
physical features
behavioral features
speech signal
automatyczne rozpoznawanie mówiącego
sygnał mowy
system automatycznego rozpoznawania mówiącego
cecha behawioralna
cecha fizyczna
Opis:
The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.
Źródło:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych; 2023, 4; 26--34
2450-1859
2450-8721
Pojawia się w:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Preliminary Evaluation of Convolutional Neural Network Acoustic Model for Iban Language Using NVIDIA NeMo
Autorzy:
Michael, Steve Olsen
Juan, Sarah Samson
Mit, Edwin
Powiązania:
https://bibliotekanauki.pl/articles/2058507.pdf
Data publikacji:
2022
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
acoustic modeling
automatic speech recognition
convolutional neural network
CNN
under-resourced language
NVIDIA NeMo
Opis:
For the past few years, artificial neural networks (ANNs) have been one of the most common solutions relied upon while developing automated speech recognition (ASR) acoustic models. There are several variants of ANNs, such as deep neural networks (DNNs), recurrent neural networks (RNNs), and convolutional neural networks (CNNs). A CNN model is widely used as a method for improving image processing performance. In recent years, CNNs have also been utilized in ASR techniques, and this paper investigates the preliminary result of an end-to-end CNN-based ASR using NVIDIA NeMo on the Iban corpus, an under-resourced language. Studies have shown that CNNs have also managed to produce excellent word error (WER) rates for the acoustic model on ASR for speech data. Conversely, results and studies concerned with under-resourced languages remain unsatisfactory. Hence, by using NVIDIA NeMo, a new ASR engine developed by NVIDIA, the viability and the potential of this alternative approach are evaluated in this paper. Two experiments were conducted: the number of resources used in the works of our ASR’s training was manipulated, as was the internal parameter of the engine used, namely the epochs. The results of those experiments are then analyzed and compared with the results shown in existing papers.
Źródło:
Journal of Telecommunications and Information Technology; 2022, 1; 43--53
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Recognition of speaker’s age group and gender for a large database of telephone-recorded voices
Autorzy:
Staroniewicz, Piotr
Powiązania:
https://bibliotekanauki.pl/articles/2202432.pdf
Data publikacji:
2022
Wydawca:
Politechnika Poznańska. Instytut Mechaniki Stosowanej
Tematy:
speech processing
automatic age recognition
przetwarzanie mowy
automatyczne rozpoznawanie wieku
Opis:
The paper presents the results of the automatic recognition of age group and gender of speakers performed for the large SpeechDAT(E) acoustic database for the Polish language, containing recordings of 1000 speakers (486 males/514 females) aged 12 to 73, recorded in telephone conditions. Three age groups were recognised for each gender. Mel Frequency Cepstral Coefficients (MFCC) were used to describe the recognized signals parametrically. Among the classification methods tested in this study, the best results were obtained for the SVM (Support Vector Machines) method.
Źródło:
Vibrations in Physical Systems; 2022, 33, 2; art. no. 2022203
0860-6897
Pojawia się w:
Vibrations in Physical Systems
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
CAI – Narzędzia informatyczne wspierające tłumaczy konsekutywnych. Stan badań oraz perspektywy rozwoju
CAI Tools for Consecutive Interpreters. Present Solutions and Development Perspectives
Autorzy:
Sitkowski, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/1193010.pdf
Data publikacji:
2020
Wydawca:
Krakowskie Towarzystwo TERTIUM
Tematy:
Narzędzie CAI
oprogramowanie do rozpoznawania mowy (ASR)
tłumaczenie konsekutywne
kompresja tłumaczeniowa
narzędzie kompresujące
CAI tools
automatic speech recognition (ASR)
consecutive interpreting
compression
compression tools
Opis:
Celem artykułu jest przedstawienie CAI, czyli narzędzi informatycznych wspierających tłumacza w trakcie wykonywania tłumaczeń konsekutywnych. W pierwszej części przedstawiona jest definicja CAI oraz opis i przykłady pierwszej, drugiej i trzeciej generacji tego narzędzia. Na podstawie analizy przedmiotu stwierdzono, że istniejące rozwiązania, w postaci komercyjnej lub testowej, ograniczają swoje działanie głównie do zarządzania terminologią. Następnie autor odnosi się do możliwości wykorzystania pamięci tłumaczeniowych w tłumaczeniu konsekutywnym. Kolejna część opisuje dwa najważniejsze komponenty CAI, czyli oprogramowanie do rozpoznawania mowy (ASR) oraz narzędzie kompresujące. W dalszej części przedstawiono możliwe problemy rozwojowe narzędzia oraz opisano kompresję w tłumaczeniu konsekutywnym. W ostatniej części artykułu autor opisuje kompleksowe narzędzie CAI, jego komponenty, a taże scenariusz zastosowania w trakcie tłumaczenia konsekutywnego.
The aim of the article is to present CAI tools, i.e. Computer-Assisted Interpreting tools supporting the interpreter during consecutive interpreting. The first part presents the definition of CAI, a description and examples of the first, second and third generation of this tool. Based on the analysis of the subject, it was found that the existing solutions, either in commercial or test form, are limited to terminology management. Then the author refers to the possibility of using translation memories in consecutive interpreting. The following part describes the twomost important components of CAI, namely speech recognition software (ASR) and a compression tool. In the next part, possible development issues are presented.
Źródło:
Półrocznik Językoznawczy Tertium; 2020, 5, 2; 166-182
2543-7844
Pojawia się w:
Półrocznik Językoznawczy Tertium
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Hybrid CNN-Ligru acoustic modeling using sincnet raw waveform for hindi ASR
Autorzy:
Kumar, Ankit
Aggarwal, Rajesh Kumar
Powiązania:
https://bibliotekanauki.pl/articles/1839250.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
automatic speech recognition
CNN
CNN-LiGRU
DNN
Opis:
Deep neural networks (DNN) currently play a most vital role in automatic speech recognition (ASR). The convolution neural network (CNN) and recurrent neural network (RNN) are advanced versions of DNN. They are right to deal with the spatial and temporal properties of a speech signal, and both properties have a higher impact on accuracy. With its raw speech signal, CNN shows its superiority over precomputed acoustic features. Recently, a novel first convolution layer named SincNet was proposed to increase interpretability and system performance. In this work, we propose to combine SincNet-CNN with a light-gated recurrent unit (LiGRU) to help reduce the computational load and increase interpretability with a high accuracy. Different configurations of the hybrid model are extensively examined to achieve this goal. All of the experiments were conducted using the Kaldi and Pytorch-Kaldi toolkit with the Hindi speech dataset. The proposed model reports an 8.0% word error rate (WER).
Źródło:
Computer Science; 2020, 21 (4); 397-417
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An Effective Speaker Clustering Method using UBM and Ultra-Short Training Utterances
Autorzy:
Hossa, R.
Makowski, R.
Powiązania:
https://bibliotekanauki.pl/articles/176593.pdf
Data publikacji:
2016
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
automatic speech recognition
interindividual difference compensation
speaker clustering
universal background model
GMM weighting factor adaptation
Opis:
The same speech sounds (phones) produced by different speakers can sometimes exhibit significant differences. Therefore, it is essential to use algorithms compensating these differences in ASR systems. Speaker clustering is an attractive solution to the compensation problem, as it does not require long utterances or high computational effort at the recognition stage. The report proposes a clustering method based solely on adaptation of UBM model weights. This solution has turned out to be effective even when using a very short utterance. The obtained improvement of frame recognition quality measured by means of frame error rate is over 5%. It is noteworthy that this improvement concerns all vowels, even though the clustering discussed in this report was based only on the phoneme a. This indicates a strong correlation between the articulation of different vowels, which is probably related to the size of the vocal tract.
Źródło:
Archives of Acoustics; 2016, 41, 1; 107-118
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
System rozpoznawania mowy polskiej dla robota społecznego
Automatic Speech Recognition System for Polish Dedicated for a Social Robot
Autorzy:
Zygadło, A.
Janicki, A.
Dąbek, P.
Powiązania:
https://bibliotekanauki.pl/articles/277843.pdf
Data publikacji:
2016
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
automatyczne rozpoznawanie mowy
command and control
robot społeczny
automatic speech recognition
social robot
Opis:
W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy – głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zdań (SER) na poziomie 9%. Przeprowadzono też badania systemu w warunkach rzeczywistych na grupie testowej złożonej z 2 kobiet i 3 mężczyzn, uzyskując wstępne wyniki rozpoznawania na poziomie 10% (SER) z bliskiej odległości oraz 60% (SER) z odległości 3 m. Określono kierunki dalszych prac.
Automatic Speech Recognition system for Polish and dedicated for social robotics applications is presented. The system is based on free and open software library pocketsphinx (CMU Sphinx). Training and test databases were prepared with transcriptions; the training database comprised voices of 10 women and 10 men, and it was prepared based on audiobooks, whereas the test database comprised voices of 3 women and 3 men recorded in laboratory conditions as a part of the present work. A phoneme set for Polish consisting of 39 phonemes based on two popular sets from other researchers was prepared. The phonetic dictionary was obtained using graphemeto-phoneme conversion from the eSpeak tool for speech synthesis. The language statistic model for the reference text including 76 commands was generated using cmuclmtk tool (CMU Sphinx). Training of the acoustic model and test of quality of speech recognition was conducted using the sphinxtrain tool (CMU Sphinx). The following error rates were obtained for laboratory conditions: 4% (WER) and 9% (SER). Next, investigations of the system in relevant real environment were conducted. The initial, tentative results are about 10% (SER) for the close distance of a speaker to a microphone, and about 60% (SER) for 3 m speaker-microphone distance. Directions of future works are formulated.
Źródło:
Pomiary Automatyka Robotyka; 2016, 20, 4; 27-36
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Percepcja audytywna, właściwości akustyczne oraz cechy dystrybucyjne sylab w języku polskim
Auditive perception, acoustic and distributional properties of syllables in Polish
Autorzy:
Śledziński, Daniel
Powiązania:
https://bibliotekanauki.pl/articles/916843.pdf
Data publikacji:
2015-12-31
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
syllable
speech perception
artificial neural networks
automatic speech recognition
sylaba
percepcja mowy
sztuczne sieci neuronowe
automatyczne rozpoznawanie mowy
Opis:
This paper presents experiments concerning properties of selected CV syllables. Acoustic speech signal related to particular syllables was analyzed using artificial neural networks. The goal of the analyses was to investigate whether realizations of particular syllables retain acoustic features distinctive of these syllables. Aditionally, a perception test aiming at identification of the same syllable set was carried out. In the test we analyzed to which degree it is possible to identify syllables isolated from the linguistic context. The paper discusses also results on distributional properties of syllables which indicate that such properties may play a significant role in speech perception.Percepcja audytywna, właściwości akustyczne oraz cechy dystrybucyjne sylab w języku polskim
Źródło:
Investigationes Linguisticae; 2015, 32; 106-123
1426-188X
1733-1757
Pojawia się w:
Investigationes Linguisticae
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rozpoznawanie wieku i płci na podstawie analizy głosu
Age and gender recognition based on analysis of voice
Autorzy:
Gabryś, J.
Gil, G.
Kiszka, P.
Powiązania:
https://bibliotekanauki.pl/articles/261820.pdf
Data publikacji:
2015
Wydawca:
Politechnika Wrocławska. Wydział Podstawowych Problemów Techniki. Katedra Inżynierii Biomedycznej
Tematy:
automatyczne rozpoznawanie mowy
wiek
płeć
współczynniki MFCC
klasyfikacja mówcy
maszyna wektorów nośnych
automatic speech recognition
age
gender
MFCC coefficients
classification of speaker
support vector machine (SVM)
Opis:
Metody automatycznego rozpoznawania wieku i płci pozwalają na rozpoznanie cech osoby mówiącej tylko na podstawie nagrania jej wypowiedzi. Mowa ludzka, poza werbalnym komunikatem, niesie ze sobą informacje dotyczące osoby mówiącej. Nagranie mowy osoby pozwala na wyodrębnienie takich informacji, jak jej płeć, wiek, a także emocje. Zaprezentowano przegląd metod rozpoznawania wieku i płci osób na podstawie ich mowy oraz wykonano implementację i przetestowano połączenie metod wyznaczania parametrów MFCC (współczynniki analizy cepstralnej w skali mel (Mel-frequency Cepstral Coefficients) i wysokości tonu głosu f0 oraz algorytmu SVM (metoda wektorów nośnych - Support Vector Machines) do klasyfikacji próbek głosowych. Testy zaimplementowanego rozwiązania pozwalają stwierdzić, że metoda jest skuteczna w większości przypadków testowych.
Methods for automatic recognition of the age and gender characteristics allow the identification of the person only on the basis of recording of this person speech. Human speech, beyond verbal communication, gives an information about the speaking person. Speech recording allows the identification personal characteristics such as gender, age, and the emotions. The paper presents an overview of methods of age and gender recognition of people based on their speech. A combination of methods for determining the parameters MFCC (Mel-frequency Cepstral Coefficients) and pitch of voice (f0) and SVM (Support Vector Machines) algorithm for the classification of voice samples is implanted and tested. It was demonstrated that the method is effective in the majority of test cases.
Źródło:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna; 2015, 21, 3; 165-169
1234-5563
Pojawia się w:
Acta Bio-Optica et Informatica Medica. Inżynieria Biomedyczna
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Two-Microphone Dereverberation for Automatic Speech Recognition of Polish
Autorzy:
Kundegorski, M.
Jackson, P. J. B.
Ziółko, B.
Powiązania:
https://bibliotekanauki.pl/articles/176431.pdf
Data publikacji:
2014
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
speech enhancement
reverberation
automatic speech recognition
ASR
Polish
Opis:
Reverberation is a common problem for many speech technologies, such as automatic speech recogni- tion (ASR) systems. This paper investigates the novel combination of precedence, binaural and statistical independence cues for enhancing reverberant speech, prior to ASR, under these adverse acoustical con- ditions when two microphone signals are available. Results of the enhancement are evaluated in terms of relevant signal measures and accuracy for both English and Polish ASR tasks. These show inconsistencies between the signal and recognition measures, although in recognition the proposed method consistently outperforms all other combinations and the spectral-subtraction baseline.
Źródło:
Archives of Acoustics; 2014, 39, 3; 411-420
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Pipelined language model construction for Polish speech recognition
Autorzy:
Sas, J.
Żołnierek, A.
Powiązania:
https://bibliotekanauki.pl/articles/329841.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
automatic speech recognition
hidden Markov model
adaptive language model
automatyczne rozpoznawanie mowy
model Markova ukryty
model językowy adaptacyjny
Opis:
The aim of works described in this article is to elaborate and experimentally evaluate a consistent method of Language Model (LM) construction for the sake of Polish speech recognition. In the proposed method we tried to take into account the features and specific problems experienced in practical applications of speech recognition in the Polish language, reach inflection, a loose word order and the tendency for short word deletion. The LM is created in five stages. Each successive stage takes the model prepared at the previous stage and modifies or extends it so as to improve its properties. At the first stage, typical methods of LM smoothing are used to create the initial model. Four most frequently used methods of LM construction are here. At the second stage the model is extended in order to take into account words indirectly co-occurring in the corpus. At the next stage, LM modifications are aimed at reduction of short word deletion errors, which occur frequently in Polish speech recognition. The fourth stage extends the model by insertion of words that were not observed in the corpus. Finally the model is modified so as to assure highly accurate recognition of very important utterances. The performance of the methods applied is tested in four language domains.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2013, 23, 3; 649-668
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Recognition of the numbers in the Polish language
Autorzy:
Plichta, A.
Gąciarz, T.
Krzywdziński, T.
Powiązania:
https://bibliotekanauki.pl/articles/308844.pdf
Data publikacji:
2013
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
Automatic Speech Recognition
compressed sensing
Sparse Classification
Opis:
Automatic Speech Recognition is one of the hottest research and application problems in today’s ICT technologies. Huge progress in the development of the intelligent mobile systems needs an implementation of the new services, where users can communicate with devices by sending audio commands. Those systems must be additionally integrated with the highly distributed infrastructures such as computational and mobile clouds, Wireless Sensor Networks (WSNs), and many others. This paper presents the recent research results for the recognition of the separate words and words in short contexts (limited to the numbers) articulated in the Polish language. Compressed Sensing Theory (CST) is applied for the first time as a methodology of speech recognition. The effectiveness of the proposed methodology is justified in numerical tests for both separate words and short sentences.
Źródło:
Journal of Telecommunications and Information Technology; 2013, 4; 70-78
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowania systemów rozpoznawania mowy do sterowania i komunikacji głosowej z urządzeniami mechatronicznymi
Applications of speech recognition systems to control and voice communication with mechatronic devices
Autorzy:
Regulski, R.
Nowak, A.
Powiązania:
https://bibliotekanauki.pl/articles/276751.pdf
Data publikacji:
2013
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
automatyczne rozpoznawanie mowy
sterowanie głosowe
interfejs człowiek-maszyna
sterownik pralki
automatic speech recognition
voice control
human machine interface
washing machine controller
Opis:
Artykuł przedstawia przykłady wykorzystania systemów automatycznego rozpoznawania mowy do budowy głosowych interfejsów typu człowiek-maszyna. W artykule opisano sposób działania takich aplikacji pod kątem sterowania i komunikacji głosowej. W następnej części przedstawiono koncepcję i budowę systemu rozpoznawania mowy do komunikacji z 32-bitowym modułowym sterownikiem pralki.
This paper presents examples of the use of automatic speech recognition systems to build human-machine voice interfaces. Also this paper briefly describes how these applications can work. The rest of the article shows the concept of usage speech recognition system based on own driver which cooperate with washing machine controller.
Źródło:
Pomiary Automatyka Robotyka; 2013, 17, 2; 467-474
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatic prolongation recognition in disordered speech using CWT and Kohonen network
Autorzy:
Codello, I.
Kuniszyk-Jóźkowiak, W.
Smołka, E.
Kobus, A.
Powiązania:
https://bibliotekanauki.pl/articles/332965.pdf
Data publikacji:
2012
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
sieć Kohonena
zaburzenia automatycznego rozpoznawania mowy
ciągła transformata falkowa
skala Barka
wydłużenie mowy
Kohonen network
automatic disorders speech recognition
waveblaster
CWT
continuous wavelet transform (CWT)
Bark scale
speech prolongations
Opis:
Automatic disorder recognition in speech can be very helpful for the therapist while monitoring therapy progress of the patients with disordered speech. In this article we focus on prolongations. We analyze the signal using Continuous Wavelet Transform with 18 bark scales, we divide the result into vectors (using windowing) and then we pass such vectors into Kohonen network. Quite large search analysis was performed (5 variables were checked) during which, recognition above 90% was achieved. All the analysis was performed and the results were obtained using the authors' program - "WaveBlaster". It is very important that the recognition ratio above 90% was obtained by a fully automatic algorithm (without a teacher) from the continuous speech. The presented problem is part of our research aimed at creating an automatic prolongation recognition system.
Źródło:
Journal of Medical Informatics & Technologies; 2012, 20; 137-144
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Building compact language models for medical speech recognition in mobile devices with limited amount of memory
Autorzy:
Sas, J.
Powiązania:
https://bibliotekanauki.pl/articles/332971.pdf
Data publikacji:
2012
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
automatyczne rozpoznawanie mowy
medyczne systemy informacyjne
modelowanie języka
automatic speech recognition
medical information systems
language modeling
Opis:
The article presents the method of building compact language model for speech recognition in devices with limited amount of memory. Most popularly used bigram word-based language models allow for highly accurate speech recognition but need large amount of memory to store, mainly due to the big number of word bigrams. The method proposed here ranks bigrams according to their importance in speech recognition and replaces explicit estimation of less important bigrams probabilities by probabilities derived from the class-based model. The class-based model is created by assigning words appearing in the corpus to classes corresponding to syntactic properties of words. The classes represent various combinations of part of speech inflectional features like number, case, tense, person etc. In order to maximally reduce the amount of memory necessary to store class-based model, a method that reduces the number of part-of-speech classes has been applied, that merges the classes appearing in stochastically similar contexts in the corpus. The experiments carried out with selected domains of medical speech show that the method allows for 75% reduction of model size without significant loss of speech recognition accuracy.
Źródło:
Journal of Medical Informatics & Technologies; 2012, 20; 111-119
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies