Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Rejestracja, parametryzacja i klasyfikacja alofonów z wykorzystaniem bimodalności

Tytuł:
Rejestracja, parametryzacja i klasyfikacja alofonów z wykorzystaniem bimodalności
Regcording, parameterization and classification of allophones employing bimodal approach
Autorzy:
Zaporowski, S.
Cygert, S.
Szwoch, G.
Korvel, G.
Czyżewski, A.
Powiązania:
https://bibliotekanauki.pl/articles/269055.pdf
Data publikacji:
2018
Wydawca:
Politechnika Gdańska. Wydział Elektrotechniki i Automatyki
Tematy:
sieci neuronowe
klasyfikacja
facial motion capture
neural networks
classification process
Źródło:
Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej; 2018, 60; 135-138
1425-5766
2353-1290
Język:
polski
Prawa:
CC BY-NC-ND: Creative Commons Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych 3.0 PL
Dostawca treści:
Biblioteka Nauki
Artykuł
  Przejdź do źródła  Link otwiera się w nowym oknie
Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji, osobne dla każdej modalności. Do parametryzacji sygnału fonicznego użyto typowych deskryptorów stosowanych w obszarze rozpoznawania mowy i muzyki. W nagraniach z systemu przechwytywania ruchu zaproponowano własne rozwiązania. Do klasyfikacji alofonów wykorzystano sieci neuronowe oraz maszynę wektorów nośnych w podejściu jednoi dwumodalnym. Stwierdzono, że skuteczność rozpoznawania wzrasta wraz z wykorzystaniem więcej niż jednej modalności.

The paper concerns the recording and parameterization of allophones in English using two modalities. In the research, the English speakers' statements were recorded. Those speakers’s language proficiency corresponds to the level of the native speaker. In the next stage, allophones from audio recordings and corresponding visual signals were isolated. In the process of creating feature vectors, separate parameterization systems were used for each modality. For the audio signal parameterization, typical descriptors used in the area of speech and music recognition were chosen. In the case of the motion capture system own solutions were proposed. For the purpose of allophones classification, neural networks and the suport vector machine were used in both approaches. It has been found that the recognition efficiency increases with the use of more than one modality.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies