Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "mowy" wg kryterium: Wszystkie pola


Tytuł:
Evaluation of speech corpora for speech and speaker recognition systems
Wykorzystanie baz mowy do testowania systemów rozpoznawania mowy oraz mówcy
Autorzy:
Ślimok, J.
Kotas, J.
Powiązania:
https://bibliotekanauki.pl/articles/155955.pdf
Data publikacji:
2014
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
speech recognition
speech processing
speech corpora
rozpoznawanie mowy
przetwarzanie mowy
bazy mowy
Opis:
Creating advanced speech processing and speech recognition techniques involves the need of working with real voice samples. Access to various speech corpora is extremely helpful in such a situation. Having this type of resources available during the development process, it is possible to detect errors quicker, as well as estimate algorithm parameters better. Selecting a proper voice sample set is a key element in the development of a speech processing application. Each speech corpus has been adapted to support different aspects of speech processing. The goal of this paper is to present available speech corpora. Each of them is shown in the form of a table. The tables contain the description of features helpful in choosing a suitable set of voice samples.
Tworzenie zaawansowanych technik przetwarzania oraz rozpoznawania mowy wiąże się z koniecznością pracy z rzeczywistymi próbkami głosu. Dostęp do różnorodnych zbiorów sygnałów mowy jest w tej sytuacji niezwykle pomocny. Posiadając tego typu zasoby, możliwe jest szybsze wykrywanie błędów, jak również lepsze oszacowanie parametrów algorytmów. Celem niniejszego artukułu jest zaprezentowanie dostępnych zbiorów próbek głosu. Dostępne bazy mowy różnią się między sobą między innym jakością, warunkami nagrywania oraz możliwymi zastosowaniami. Część baz zawiera rejestrowane rozmowy telefoniczne, z kolei inne zawierają wypowiedzi zarejestrowane przy użyciu wielu mikrofonów wysokiej jakości. Wykorzystywanie publicznych baz danych ma jeszcze jedną ważną zaletę - umożliwia porównywanie algorytmów stworzonych przez różne ośrodki badawcze, wykorzystujące tę samą metodologię. Uzyskiwane wyniki są prezentowane w postaci benchmarków, co umożliwia szybkie porównywanie opracowanych rozwiązań. Z tego powodu, wybór odpowiedniej bazy mowy jest kluczowy z punktu widzenia skuteczności działania systemu. Każdy ze zbiorów został przedstawiony w formie tabeli. Tabele zawierają opis cech pomocnych podczas wyboru odpowiedniego zbioru próbek głosu.
Źródło:
Pomiary Automatyka Kontrola; 2014, R. 60, nr 6, 6; 373-375
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech signal processing and analysis tool
Narzędzie do przetwarzania i analizy sygnału mowy
Autorzy:
Mięsikowska, M.
Powiązania:
https://bibliotekanauki.pl/articles/158001.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
przetwarzanie sygnału mowy
współczynniki cepstralne
speech signal processing
cepstral coefficients
Opis:
The project's objective is to create a tool intended for processing, analysis, and parameterizing human speech signal. The main aim is to obtain a speech signal image with some selected parameterization methods. The methods include use of 2D parameterization grid [1, 2] as well as cepstral coefficients CC [3]. Obtaining signal image as well as its further analysis without signal preprocessing is extremely difficult and the process doesn't guarantee desirable results. For this reason the tool is based on two main modules. The first one is intended for signal preprocessing, preparing it for further analysis. The other one provides signal parameterization methods. The tool was implemented in Java language.
W pracy podjęto próbę stworzenia narzędzia umożliwiającego przetwarzanie, analizę i parametryzację sygnału mowy. Głównym celem jest pozyskanie obrazu sygnału mowy za pomocą wybranych metod parametryzacji. Wybrane metody parametryzacji sygnału mowy to parametryzacja za pomocą siatki dwuwymiarowej [1, 2] oraz współczynniki cepstralne [3]. Zobrazowanie sygnału oraz jego dalsza analiza bez operacji wstępnego przetworzenia sygnału jest procesem trudnym i nie zawsze przynosi pożądane rezultaty. Wobec tego narzędzie wyposażono w dwa zasadnicze moduły. Pierwszy moduł odpowiedzialny jest za wstępne przetworzenie sygnału, przygotowujące sygnał do dalszej analizy. Drugi moduł dostarcza metod parametryzacji sygnału mowy. Narzędzie zaimplementowano w języku Java.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 12, 12; 43-45
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech command based application enabling Internet navigation
Aplikacja umożliwiająca nawigację w Internecie za pomocą poleceń mowy
Autorzy:
Mięsikowska, M.
Powiązania:
https://bibliotekanauki.pl/articles/152861.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
rozpoznawanie mowy
klasyfikacja tekstu
przeglądanie informacji
speech recognition
text classification
information retrieval
Opis:
The paper presents an attempt to create an application enabling the user to surf much easier the resources of the Internet with the help of voice commands, as well as to classify and arrange the browsed information. The application has two basic modules which enable browsing the information on the Internet. The first navigation module processes websites, isolates navigation elements , such as links to other websites, from them and gives an identification name to the elements, which enables the user to pronounce voice commands. The website is presented to the user in a practically original form. The second module also processes websites, isolating navigation elements from them. The only difference in operation of the both modules is the mode of processing the website and its final presentation. The second module isolates from the elements vocabulary, which makes it possible to classify the information included in the website, this way acquiring and displaying, an ordered set of navigation elements. The application was implemented in Java language with the use of Oracle software. For the system of recognition and understanding of speech the Sphinx 4 tool was used.
W tej pracy przedstawiono próbę stworzenia aplikacji umożliwiającej swobodniejszą nawigację użytkownika wśród zasobów Internetu za pomocą poleceń mowy, klasyfikację oraz uporządkowanie przeglądanej informacji. Aplikacja posiada dwa zasadnicze moduły, przy pomocy których możliwe jest przeglądanie informacji w Internecie. Pierwszy moduł nawigacji, przetwarza strony internetowe, wyodrębnia z nich elementy nawigacyjne takie jak odnośniki do innych stron, oraz nadaje elementom identyfikacyjną nazwę, dzięki której użytkownik może wydawać słowne polecenia. Strona internetowa wyświetlona zostaje użytkownikowi w niemalże oryginalnej postaci. Drugi moduł również przetwarza strony internetowe, wyodrębniając z nich elementy nawigacyjne. Jedyną różnicą w działaniu obu modułów jest sposób przetwarzania strony i ostatecznej jej reprezentacji. Drugi moduł wyodrębnia z elementów słownictwo, dzięki któremu możemy sklasyfikować informację znajdującą się na stronie, uzyskując i wyświetlając w ten sposób uporządkowany zbiór elementów nawigacyjnych. Aplikacja zaimplementowana została w języku Java z wykorzystaniem oprogramowania Oracle. W przypadku systemu rozpoznawania mowy zastosowano narzędzie Sphinx-4.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 5, 5; 87-89
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Networks on Chip paradigm for iLBC Speech Decoder
Wykorzystanie paradygmatu sieci wewnątrzukładowych do dekodera mowy iLBC
Autorzy:
Dziurzański, P.
Mąka, T.
Powiązania:
https://bibliotekanauki.pl/articles/155650.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
sieci wewnątrzukładowe
dekodowanie mowy
iLBC
transfery wewnątrzukładowe
Network on Chip (NoC)
Speech decoding
in-chip transfers
Opis:
In modern hardware multimedia solutions, such as set-top boxes, there exists a trend of implementing numerous codecs in a single device. In this paper, we describe our attitude to mapping a set of decoder stages to a regular mesh structure, which consists of two techniques for decreasing number of cores and assigning IP blocks to NoC nodes.
We współczesnych rozwiązaniach sprzętowych, takich jak STB (ang. set-top box), można zauważyć trend implementowania wielu kodeków w pojedynczym urządzeniu. W niniejszym artykule zostało opisane podejście odwzorowania zbioru funkcjonalnie niezależnych etapów dekodera iLBC do regularnej struktury sprzętowej, na które składają się dwa algorytmy pozwalające zmniejszyć liczbę bloków i przypisać te bloki do węzłów sieci wewnątrzukładowej.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 7, 7; 104-105
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
NoC-based Realization of Multi-core Speech Encoders
Wielordzeniowa realizacja koderów mowy wykorzystująca sieć NoC
Autorzy:
Zbylut, J.
Mąka, T.
Dziurzański, P.
Powiązania:
https://bibliotekanauki.pl/articles/154050.pdf
Data publikacji:
2009
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
sieci wewnątrzukładowe
odwzorowanie rdzeni
koder mowy
Network on Chip (NoC)
core mapping
speech encoder
Opis:
In this paper, we demonstrate a technique for mapping a multimedia streaming application into a mesh NoC using an example of speech encoder named SPEEX. To decrease the size of the target mesh, we use an algorithm for merging functional blocks using various metrics, such as core code size or execution time. We propose and test three algorithms for core mapping. According to the presented experimental results, the process of assigning the functional block into the NoC mesh is strongly influenced by the selected strategy.
W artykule zaprezentowano technikę odwzorowywania bloków realizujących algorytmy strumieniowe na strukturę mesh sieci NoC z wykorzystaniem przykładu - kodera mowy SPEEX. Aby zmniejszyć rozmiar docelowej sieci NoC, wykorzystano algorytm łączenie funkcjonalnych bloków wykorzystujących wybrane miary, takie jak rozmiar kodu lub czas wykonania. Dla optymalizacji sieci pod względem obciążeń czasowych oraz liczby instrukcji zawartych w poszczególnych blokach IP rozpatrywana jest sieci NoC o rozmiarach 6x6. Rozmiar omawianej struktury wynika z zestawienia kodera Speex o 4 różnych przepływnościach. Zaproponowano i przetestowano trzy algorytmy odwzorowujące rdzenie. Zaprezentowane algorytmy generują lokalnie najlepsze rozwiązania, dzięki wprowadzeniu funkcji heurystyki. Z punktu widzenia czasu realizacji zadań przez niezależne rdzenie, najmniejszy całkowity transfer uzyskano przy użyciu algorytmu drugiego. Z wykorzystaniem dodatkowego algorytmu balansującego uzyskano zmniejszenie standardowego odchylenia transferów na poziomie 20%. Otrzymane podczas badań wyniki dowodzą, że proces ustalenia odwzorowania bloków IP podczas projektowania sieci NoC jest niezwykle istotny. Efektywność i wydajność otrzymanego układu SoC może w dużej mierze zależeć od obranej strategii przydziału elementów funkcyjnych algorytmu DSP.
Źródło:
Pomiary Automatyka Kontrola; 2009, R. 55, nr 8, 8; 687-689
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cepstral analysis of vowels of esophageal speakers
Analiza cepstralna samogłosek mówców mowy przełykowej
Autorzy:
Mięsikowska, M.
Radziszewski, L.
Powiązania:
https://bibliotekanauki.pl/articles/152112.pdf
Data publikacji:
2012
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
sygnał mowy normalnej i przełykowej
współczynniki cepstralne
analiza dyskryminacyjna
rozpoznawanie samogłosek
normal speech
esophageal speech
cepstral features
discriminant analysis
vowels recognition
Opis:
The aim of this study was to compare normal (NL) and esophageal (ES) speech signals in scope of vowels in order to show differences between signals. A discriminant analysis based on cepstral features extracted from vowels of NL and ES speech was performed. The comparison was made on the basis of the classification function coefficients and the results of the classification for each speech. Vowels recordings were acquired from 10 NL speakers and 10 ES speakers. The discriminant analysis was based on cepstral features extracted from vowel recordings, and was performed separately for NL speech and ES speech. Then a comparison between coefficients of classification functions of NL and ES vowels using the Euclidean distance was made. Based on the resulting classification matrix of NL and ES speech, the results of classification were compared. The discriminant analysis based on cepstral features showed 76% of the mean classification score for ES speech and 90% for NL speech. The Euclidean distance showed low differences between the vowel /a/ of NL speech and the vowel /a/ of ES speech and between the vowel /e/ of NL speech and the vowel /e/ of ES speech.
Celem pracy było porównanie sygnału mowy normalnej (NL) i przełykowej (ES) w zakresie samogłosek w celu wykazania różnic pomiędzy sygnałami. Przeprowadzono analizę dyskryminacyjną współczynników cepstralnych uzyskanych z samogłosek mowy NL i ES. Porównania dokonano na podstawie uzyskanych współczynników funkcji klasyfikacyjnych oraz otrzymanych wyników klasyfikacji dla każdej mowy. Sygnał mowy każdej samogłoski pozyskany został od 10 mówców mowy NL i 10 mówców mowy ES. Analizę dyskryminacyjną przeprowadzono w oparciu o współczynniki cepstralne oddzielnie dla mowy NL i mowy ES. Następnie dokonano porównania uzyskanych współczynników funkcji klasyfikacyjnych samogłosek mowy NL i mowy ES, wykorzystując do tego celu odległość Euklidesa. Na podstawie macierzy klasyfikacji otrzymanej dla mowy NL i ES porównano rezultaty klasyfikacji. Analiza dyskryminacyjna w oparciu o współczynniki cepstralne wykazała 76% jako średni wynik klasyfikacji dla mowy ES, natomiast 90% dla mowy NL. Odległość Euklidesa wskazuje na najmniejsze różnice w zakresie samogłoski /a/ i /e/ mowy NL i ES.
Źródło:
Pomiary Automatyka Kontrola; 2012, R. 58, nr 11, 11; 968-971
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Discriminant analysis of vowels of tracheoesophageal speakers
Analiza dyskryminacyjna samogłosek mówców mowy przetokowej
Autorzy:
Mięsikowska, M.
Radziszewski, L.
Powiązania:
https://bibliotekanauki.pl/articles/155972.pdf
Data publikacji:
2013
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
normal speech
tracheoesophageal speech
cepstral features
discriminant analysis
vowels recognition
sygnał mowy normalnej i przetokowej
współczynniki cepstralne
analiza dyskryminacyjna
rozpoznawanie samogłosek
Opis:
The aim of this study was to compare normal (NL) and tracheoesophageal (TE) vowel speech signals in order to show differences between them. Cepstral features extracted from vowels of NL and TE speech were analyzed using discriminant analysis. The comparison was made on the basis of the classification function coefficients and the results of the classification for each speech. Vowels recordings were acquired from 10 NL speakers and 12 TE speakers. Discriminant analysis was based on cepstral features extracted from vowel recordings, and was performed separately for NL speech and TE speech. Then a comparison between the coefficients of classification functions of NL and TE vowels using the Euclidean distance was made. Based on the resulting classification matrix of NL and TE speech, the results of classification were compared. The discriminant analysis based on cepstral features showed 79% of the mean classification score for TE speech. The Euclidean distance showed low differences between vowel /a/ of NL speech and vowel /a/ of TE speech and between vowel /o/ of NL speech and vowel /o/ of TE speech.
Celem pracy było porównanie sygnału mowy przetokowej (TE) do mowy normalnej (NL) w zakresie samogłosek, aby wykazać różnice pomiędzy sygnałami. Współczynniki cepstralne uzyskane z samogłosek mowy NL i TE poddano analizie dyskryminacyjnej. Na podstawie uzyskanych współczynników funkcji klasyfikacyjnych oraz otrzymanych wyników klasyfikacji dokonano porównania sygnałów mowy NL i TE. Nagrania samogłosek pozyskane zostały od 10 mówców mowy NL i 12 mówców mowy TE. Analizę dyskryminacyjną przeprowadzono w oparciu o współczynniki cepstralne oddzielnie dla mowy NL i mowy TE. Następnie dokonano porównania uzyskanych współczynników funkcji klasyfikacyjnych samogłosek mowy NL i mowy TE, wykorzystując do tego celu odległość Euklidesa. Na podstawie macierzy klasyfikacji otrzymanej dla mowy NL i TE porównano rezultaty klasyfikacji. Analiza dyskryminacyjna w oparciu o współczynniki cepstralne wykazała 79% jako średni wynik klasyfikacji dla mowy TE. Odległość Euklidesa wskazuje na najmniejsze różnice w zakresie samogłoski /a/ i /o/ mowy NL i TE.
Źródło:
Pomiary Automatyka Kontrola; 2013, R. 59, nr 6, 6; 523-525
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Acoustical analysis of Polish vowels of esophageal speakers
Analiza akustyczna samogłosek Polskiej mowy przełykowej
Autorzy:
Mięsikowska, M.
Radziszewski, L.
Powiązania:
https://bibliotekanauki.pl/articles/156074.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
sygnał mowy normalnej i przełykowej
częstotliwości formantowe
analiza dyskryminacyjna
rozpoznawanie samogłosek
normal speech
esophageal speech
formant frequencies
discriminant analysis
vowels recognition
Opis:
The present study determines acoustical differences between esophageal and normal speakers of Polish in the production of Polish vowels. Formant frequencies, first (F1) and second (F2), were extracted from six Polish vowels produced by 10 esophageal and 10 normal speakers. Spectral analysis revealed that F1 and F2 values of Polish vowels produced by the esophageal speakers were significantly higher than those produced by normal speakers, with the exception of F2 of /i/ and /y/ produced by esophageal speakers. Discriminant analysis of formant frequency values showed 60% of mean classification score for esophageal speakers and 91% for normal speakers. The lowest classification score was obtained by esophageal speakers for the vowel /u/ (7%). The acoustic findings suggest a general shortening of the effective vocal tract length for resonance in esophageal speakers. Higher tendency to classify /y/ as /i/ than /i/ as /y/ in esophageal speech was observed. The lower classification scores of back vowels obtained by esophageal speakers may suggest that esophageal speakers articulate vowels with fronted tongue positions relative to the tongue position in normal speakers.
Celem pracy była analiza akustyczna Polskich samogłosek mowy przełykowej w porównaniu do mowy normalnej. Częstotliwości formantowe, F1 i F2, zostały wyznaczone z zarejestrowanych nagrań Polskich samogłosek 10 mówców mowy przełykowej i 10 mówców mowy normalnej. Analiza częstotliwości formantowych wykazała wyższe wartości częstotliwości formantowych mówców mowy przełykowej niż mówców mowy normalnej, z wyjątkiem wartości F2 samogłosek /i/ oraz /y/ mówców mowy przełykowej. W przeprowadzonym procesie klasyfikacji w oparciu o analizę dyskryminacyjną i częstotliwości formantów uzyskano wynik średniej klasyfikacji równej 60% dla mówców mowy przełykowej oraz 91% dla mówców mowy normalnej. Najniższy wynik klasyfikacji został uzyskany przez mówców mowy przełykowej dla samogłoski /u/(7%). Uzyskane wyniki analizy akustycznej sugerują krótszy efektywny trakt głosowy u mówców mowy przełykowej. W wyniku przeprowadzonego procesu klasyfikacji zaobserwowano wyższą tendencję do klasyfikacji samogłoski /y/ na samogłoskę /i/ niż /i/ na /y/ w przypadku mowy przełykowej. Niższe wyniki klasyfikacji uzyskane dla samogłosek tylnich mowy przełykowej mogą sugerować, że mówcy mowy przełykowej artykułują podobnie do mówców mowy normalnej samogłoski wymagające pozycji przedniej języka.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 12, 12; 1504-1507
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatic recognition of voice commands in a car cabin
Automatyczne rozpoznawanie komend głosowych w kabinie pojazdu
Autorzy:
Mięsikowska, M.
Ruiter de, E.
Powiązania:
https://bibliotekanauki.pl/articles/156597.pdf
Data publikacji:
2014
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
car cabin
in-car speech recognition
acoustics
speech intelligibility
kabina pojazdu
automatyczne rozpoznawanie mowy
warunki akustyczne
zrozumiałość mowy
Opis:
Automatic speech recognition systems are applied in vehicles. It is possible to control a navigation system, an air conditioning system, a media player, and make phone calls using voice commands. The effectiveness of speech recognition systems depends largely on the acoustic conditions in the cabin of a vehicle. In contrast, the recognition accuracy, determines the ability to extend the functionality of the application of speech recognition systems, not only to the basic functions listed above, but also to control the systems that affect the movement of the vehicle. The work shows the preliminary results of research on speech recognition and evaluation of speech intelligibility in the cabin of the vehicle in the presence of noise barriers. These results may be helpful in assessing the speech intelligibility and the results of automatic speech recognition systems in the cabin of the vehicle.
Systemy automatycznego rozpoznawania mowy są aplikowane w pojazdach. Za pomocą komend głosowych możemy sterować nawigacją, systemem klimatyzacji, odtwarzaczem multimediów, oraz wykonywać połączenia telefoniczne. Skuteczność systemów rozpoznawania mowy zależna jest w dużej mierze od warunków akustycznych panujących w kabinie pojazdu. Natomiast dokładność rozpoznawania, warunkuje możliwość rozszerzenia funkcjonalności stosowania systemów rozpoznawania mowy nie tylko do podstawowych funkcji wymienionych wyżej, ale także do sterowania układami mającymi wpływ na poruszanie się pojazdu. Praca pokazuje wstępne wyniki badań w zakresie rozpoznawania mowy oraz oceny zrozumiałości mowy w kabinie pojazdu w obecności ekranów akustycznych. Wyniki badań mogą okazać się pomocne w ocenie zrozumiałości mowy i rezultatów automatycznego rozpoznawania mowy w kabinie pojazdu.
Źródło:
Pomiary Automatyka Kontrola; 2014, R. 60, nr 8, 8; 652-654
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Pomiary parametrów akustycznych mowy emocjonalnej - krok ku modelowaniu wokalnej ekspresji emocji
Measurements of emotional speech acoustic parameters - a step towards vocal emotion expression modelling
Autorzy:
Igras, M.
Wszołek, W.
Powiązania:
https://bibliotekanauki.pl/articles/154905.pdf
Data publikacji:
2012
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
rozpoznawanie emocji
wokalne korelaty emocji
przetwarzanie sygnału mowy
emotion recognition
vocal correlates of emotions
Opis:
Niniejsza praca podejmuje próbę pomiaru cech sygnału mowy skorelownych z jego zawartością emocjonalną (na przykładzie emocji podstawowych). Zaprezentowano korpus mowy zaprojektowany tak, by umożliwić różnicową analizę niezależną od mówcy i treści oraz przeprowadzono testy mające na celu ocenę jego przydatności do automatyzacji wykrywania emocji w mowie. Zaproponowano robocze profile wokalne emocji. Artykuł prezentuje również propozycje aplikacji medycznych opartych na pomiarach emocji w głosie.
The paper presents an approach to creating new measures of emotional content of speech signals. The results of this project constitute the basis or further research in this field. For analysis of differences of the basic emotional states independently of a speaker and semantic content, a corpus of acted emotional speech was designed and recorded. The alternative methods for emotional speech signal acquisition are presented and discussed (Section 2). Preliminary tests were performed to evaluate the corpus applicability to automatic emotion recognition. On the stage of recording labeling, human perceptual tests were applied (using recordings with and without semantic content). The results are presented in the form of the confusion table (Tabs. 1 and 2). The further signal processing: parametrisation and feature extraction techniques (Section 3) allowed extracting a set of features characteristic for each emotion, and led to developing preliminary vocal emotion profiles (sets of acoustic features characteristic for each of basic emotions) - an example is presented in Tab. 3. Using selected feature vectors, the methods for automatic classification (k nearest neighbours and self organizing neural network) were tested. Section 4 contains the conclusions: analysis of variables associated with vocal expression of emotions and challenges in further development. The paper also discusses use of the results of this kind of research for medical applications (Section 5).
Źródło:
Pomiary Automatyka Kontrola; 2012, R. 58, nr 4, 4; 335-338
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Diagnostic significance of phase spectrum in acoustic analysis of pathological voice
Diagnostyczne znaczenie widma fazowego w analizie akustycznej głosu patologicznego
Autorzy:
Samborska-Owczarek, A.
Powiązania:
https://bibliotekanauki.pl/articles/153586.pdf
Data publikacji:
2010
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
analiza akustyczna
sygnał mowy
przetwarzanie mowy
częstotliwość podstawowa
widmo fazowe
ekstrakcja cech
GIRBAS
acoustic analysis
voice signal
speech processing
fundamental frequency
F0
phase spectrum
features extraction
Opis:
The paper regards the possibility of using new numerical features extracted from the phase spectrum of a speech signal for voice quality estimation in acoustic analysis for medical purposes. This novel approach does not require detection or estimation of the fundamental frequency and works on all types of speech signal: euphonic, dysphonic and aphonic as well. The experiment results presented in the paper are very promising: the developed F0-independant voice features are strongly correlated with two voice quality indicators: grade of hoarseness G (r>0.8) and roughness R (r>0.75) from GIRBAS scale, and exceed the standard voice parameters: jitter and shimmer.
Artykuł dotyczy możliwości ekstrakcji cech numerycznych z widma fazowego sygnału mowy w celu wykorzystania w analizie akustycznej na potrzeby medyczne. Podejście to umożliwia uzależnienie analizy akustycznej od zawodnych metod wykrywania/wyznaczania częstotliwości podstawowej (tonu krtaniowego) i dzięki temu przeznaczone jest do badania wszystkich typów sygnału mowy (również afonicznych). Wyniki eksperymentu są bardzo obiecujące - proponowane cechy Ph1 i Ph2 są silnie skorelowane z dwoma kategoriami percepcyjnymi: stopniem chrypki (r>0.8) oraz szorstkością głosu (r>0.75) ze skali GIRBAS, wykazując silniejsze znaczenie diagnostyczne niż znane i stosowane od dawna wskaźniki jitter i shimmer. Proponowane podejście oprócz skuteczności charakteryzuje się szeregiem dodatkowych korzyści: algorytm metody z powodu niskiej złożoności jest szybki i niekosztowny, interpretacja matematyczna jest prosta i jednoznaczna oraz spójna z obserwowanym obrazem widma fazowego głosu. Ponadto uniezależnienie od detekcji częstotliwości podstawowej sprawia, że algorytm jest deterministyczny oraz efektywny dla każdego typu sygnału mowy.
Źródło:
Pomiary Automatyka Kontrola; 2010, R. 56, nr 12, 12; 1547-1550
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie sieci Kohonena do rozpoznawania mowy patologicznej
The usage of the Kohonen neural networks for the pathological speech recognition
Autorzy:
Kapusta, M.
Gajer, M.
Shomali, A.
Powiązania:
https://bibliotekanauki.pl/articles/157633.pdf
Data publikacji:
2000
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Opis:
Sygnał mowy posiada bardzo skomplikowana naturę, która sprawia że jago zobrazowanie oraz dalsza analiza bez operacji wstępnego przetworzenia sygnałów są trudne i nie zawsze przynoszą pożądane efekty. W wielu pracach sygnał mowy przedstawiony jest w postaci wideogramów, będących wykresami czsowo-częstotliwościowymi, jednakże analiza tych obrazów nie jest łatwa ze względu na ich trudną interpretację. W pracy niniejszej zaproponowano wykorzystanie sieci neuronowej Kohonena do generacji obrazów sygnałów mowy patologicznej, występujacej u dzieci z rozszczepem podniebienia. Opisano sposób przekształcenia sygnału mowy do postaci macierzy widm chwilowych, stanowiącej zbiór danych wejściowych dla układu sieci neuronowej Kohonena. Nastepnie omówiono metodę generacji obrazu przez sieć neuronową oraz zaproponowano przykladowy obraz pozyskanych sygnałów mowy. Ponadto zaproponowano metodę identyfikacji mowy patologicznej na podstawie otrzymanych obrazów, opierającą się na pomiarze długości linii.
The nature of speech signal is very complicated, that causes its visualisation and further analysis, without some initial pre-processing, is very complicated and doesnát always bring the desired effects. Speech signal in most cases is represented by videograms. The analysis of these forms of signal visualisation is not easy because of difficulties is their interpretation. In this article the usage of Kohonen neural network for visualising speech signals uttered by children with a cleft palate, was proposed. Speech signal is converted to its spectrum matrices representation, which in tern constitutes the input for Kohonen neural network. Further a method for generating a simplified form of speech signal (a poly-line figure) based on the networkás output, was discused. In addition , a method for pathological speech signal recognition was proposed. Tests results based on utterances obtained form children with a cleft palate were also presented.
Źródło:
Pomiary Automatyka Kontrola; 2000, R. 46, nr 7, 7; 10-15
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wykorzystanie techniki obliczeń neuronowych do przetwarzania i rozpoznawania sygnałów mowy
Applying the neural network technique to transforming and recognition of speech signals
Autorzy:
Kapusta, M.
Gajer, M.
Shomali, A.
Powiązania:
https://bibliotekanauki.pl/articles/158528.pdf
Data publikacji:
2000
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Opis:
Sygnał mowy posiada bardzo skomplikowaną naturę, która sprawia że jego zobrazowanie oraz dalsza analiza bez operacji wstępnego przetworzenia sygnałów są trudne i nie zawsze przynoszą pożądane efekty. Wcześniej sygnał mowy przedstawiany był w postaci wideogramów, będących wykresami czasowo-częstotliwościowymi, jednakże analiza tych obrazów nie była łatwa ze względu na ich trudną interpretację. W pracy niniejszej zaproponowano wykorzystanie sieci neuronowej Kohonena do generacji obrazów sygnałów mowy patologicznej, wystepującej u dzieci z rozszczepem podniebienia. Opisano sposób przekształcenia sygnału mowy do postaci macierzy widm chwilowych, stanowiącej zbiór danych wejściowych dla układu sieci neuronowej Kohonena. Następnie omówiono metodę generacji obrazu przez sieć neuronową oraz zaprezentowano przykladowe obrazy pozyskanych sygnałów mowy.
The nature of speech signal is very complicated, that causes that its visualisation and further analysis, without some in intial pre-processing, is very complicated and doesnát always bring the desired effects. Speech signal in most cases in represented by videograms. The analysis of these forms of signal visualisation is not easy because of difficulties in their interpretation. In this article the usage of Kohonen neural network for visualising speech signals uttered by children with a cleft palate was proposed. Speech signal is converted to its spectrum matrices representation, which constitues the input for Kohonen neural network. Further a method for generating a simplified form of speech signal (a poly-line figure) based on the networkásoutput was presented. In addition a method for pathological speech signal recognition was presented. The results based on utterances obtained from children with a cleft palate were presented.
Źródło:
Pomiary Automatyka Kontrola; 2000, R. 46, nr 7, 7; 16-18
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Parametry identyfikacyjne umożliwiające automatyczne rozpoznawanie cyfr wypowiadanych w języku polskim
Identification parameters enabling automatic recognition of digits spoken in Polish
Autorzy:
Dulas, J.
Powiązania:
https://bibliotekanauki.pl/articles/157420.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
automatyczne rozpoznawanie sygnału mowy
fonemy
automatic speech recognition
phonemes
Opis:
Artykuł przedstawia najnowsze wyniki prac autora w dziedzinie automatycznego rozpoznawania sygnałów mowy. Wyniki badań prowadzonych na zbiorze 500 nagrań cyfr wypowiadanych w języku polskim przez 50 mówców różnej płci i w różnym wieku pozwalają na zaproponowanie zestawu parametrów niezbędnych do przeprowadzenia procesu ich identyfikacji. Jak pokazano w artykule zestaw kilku podstawowych cech identyfikujących jest wystarczający aby taki proces przeprowadzić. Zaproponowany zestaw parametrów jest łatwy do uzyskania przy niewielkiej mocy obliczeniowej.
The paper describes a new author's method for automatic recognition of digits spoken in Polish. In this new approach there are no frequency analyses as used to be made in such systems but the image recognition of the time characteristic is applied. Investigations performed on 500 records of people of different sex and age showed that there was possibility of constructing an automatic recognition system based on a few parameters. The first is the number of voiced phonemes included in a recognized word (Tab. 1). In this group there are all wavelets and some consonants. They include basic periods inside their time characteristics. This parameter is obtained using the grid method designed by the author (Fig. 3). The second one is the number and position of noisy phonemes. To this group there belong phonemes without basic periods but with big signal variety. This parameter is calculated using the number of local extrema, the signal amplitude level and checking if there are no basic periods. The third parameter is the shape of a signal envelope (Tab. 2). As investigations showed, it is possible to find the envelope pattern for each Polish digit common for all tested speakers. It was proved that these parameters are sufficient for automatic speech recognition of digits spoken in Polish. This new method can also be applied to other systems with small number of recognized words. It is fast and lack of frequency analyses causes that it has low hardware demands.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 3, 3; 308-311
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza obwiedni jako parametr wspomagający automatyczną identyfikację wyrażeń
The envelope analysis as a useful parameter in automatic phrase identification
Autorzy:
Dulas, J.
Powiązania:
https://bibliotekanauki.pl/articles/156853.pdf
Data publikacji:
2009
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
automatyczne rozpoznawanie sygnałów mowy
analiza obwiedni
automatic speech recognition
envelope analysis
Opis:
W badaniach nad automatycznym rozpoznawaniem sygnałów mowy notuje się stały postęp, choć różnorodność języków utrudnia wprowadzenie jednakowych rozwiązań. Przykładem rozwoju i upowszechnienia metod identyfikacji mowy może być system operacyjny Windows XP, w którym zamieszczono narzędzia do sterowania aplikacjami za pomocą sygnałów głosowych. Brak jednak nadal rozwiązań dla języka polskiego, co sprawia że potrzebne są badania zmierzające do opracowania niezawodnych algorytmów identyfikujących i sterujących. W artykule przedstawiono wyniki badań obwiedni sygnałów mowy, będących cyframi z zakresu 0-9, uzyskanych dla grupy 50-ciu osób różnych płci i w różnym wieku. Celem przeprowadzonych badań było uzyskanie odpowiedzi na pytanie, czy analiza obwiedni może stanowić parametr w procesie automatycznego rozpoznawania sygnałów mowy i czy jest możliwe stworzenie modeli obwiedni dla każdej z cyfr, które byłyby wspólne dla wszystkich (50) mówców.
In scientific research on the speech signal recognition there can be noted great development, although differences between languages make it difficult to work out the same algorithms for all of them. A good example of the big progress in this field can be Windows XP, an operating system which enables controlling some applications by voice (but not in Polish). There is still lack of good working programs controlled by Polish. In this paper the results of investigations on the voice signal envelope are described. There were tested digital recordings, from the range 0 - 9, obtained for 50 persons of different age and sex . The main goal was to find out if the envelope analysis could be helpful in automatic speech recognition. During the investigations basing on the analysis of the digit time characteristic, each digit was divided into parts (from 2 to 5) having the similar envelope. Also the minimum duration and the amplitude range were found for each part. The results are given in Table 1. Table 2 contains the results of fitting the envelope to each digit. It is shown that the envelope patterns are common for all the speakers and digits. Although the envelope analysis is not sufficient alone for automatic speech recognition (some digit patterns fit to the others), it can be used as one of the parameters employed for this purpose.
Źródło:
Pomiary Automatyka Kontrola; 2009, R. 55, nr 5, 5; 308-309
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies