Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "speech signal" wg kryterium: Temat


Tytuł:
Sieci Bayesa w rozpoznawaniu mowy
Bayes networks used in application to speech signal recognition
Autorzy:
Mermon, A.
Powiązania:
https://bibliotekanauki.pl/articles/274624.pdf
Data publikacji:
2011
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
sieci Bayesa
sygnał mowy
cyfrowe przetwarzanie sygnałów
rozpoznawanie sygnału mowy
DBN
Bayes networks
speech signal
digital signal processing
speech signal recognition
Opis:
Problematyka rozpoznawania mowy nie doczekała się, jak dotąd, kompleksowego rozwiązania. Współczesne efektywne systemy rozpoznawania mowy korzystają najczęściej z metod stochastycznych opartych na ukrytych modelach Markowa. Alternatywą dla nich mogą być sieci Bayesa, będące odpowiednią strukturą do formułowania modeli probabilistycznych, które cechują się jednocześnie precyzją oraz zwartością. Sieci Bayesa mogą reprezentować rozkład prawdopodobieństwa dowolnego zbioru zmiennych losowych. Mnogość dostępnych obecnie algorytmów i narzędzi obliczeniowych sprawia, że testowanie i wdrażanie nowych rozwiązań staje się mniej pracochłonne. Zalety te determinują duże możliwości wykorzystania sieci Bayesa do rozwiązywania praktycznych problemów również w zakresie rozpoznawania mowy.
Speech recognition problem hasn't been fully-scaled solved till nowadays. Contemporary effective speech recognition systems mostly use stochastic methods based on Hidden Markov Models. Bayes networks can be alternative to them. BN are appropriate structures to formulate probabilistic models, which are simultaneously precise and compact. They can represent a probability distribution of arbitrary set of random variables. Variety of algorithms and computational tools which are available to use makes testing and implementing new solutions less demanding. Those advantages determine that Bayes networks have potential to be used in solving practical problems also in the area of speech recognition.
Źródło:
Pomiary Automatyka Robotyka; 2011, 15, 12; 109-111
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Silent Calls – Causes and Measurements
Autorzy:
Baran, K.
Cegłowski, P.
Kula, S.
Powiązania:
https://bibliotekanauki.pl/articles/308612.pdf
Data publikacji:
2015
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
key performance indicators
silent calls
speech signal analysis
Opis:
The quality of telephone services is very important from either operator or subscriber point of view. One of the negative phenomenon which affects quality of telephone services is lack of speech signal during a call. This situation occurs relatively frequently in mobile telephony, and is called silent call (SC). Lack of speech signal can occur only once or many times during the call, and degrade connection quality. In this paper, an analysis of this phenomenon is presented. The research base are the results of measurements mobile network one of operators in Trójmiasto a large urban area consisting of three cities: Gdańsk, Gdynia, and Sopot. To estimate impact of silent calls on speech quality, mean opinion score index was calculated using POLQA algorithm.
Źródło:
Journal of Telecommunications and Information Technology; 2015, 1; 20-22
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Recognition of Human Emotion from a Speech Signal Based on Plutchiks Model
Autorzy:
Kamińska, D.
Pelikant, A.
Powiązania:
https://bibliotekanauki.pl/articles/227272.pdf
Data publikacji:
2012
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
emotion detection
Plutchik's wheel of emotion
speech signal
Opis:
Machine recognition of human emotional states is an essential part in improving man-machine interaction. During expressive speech the voice conveys semantic message as well as the information about emotional state of the speaker. The pitch contour is one of the most significant properties of speech, which is affected by the emotional state. Therefore pitch features have been commonly used in systems for automatic emotion detection. In this work different intensities of emotions and their influence on pitch features have been studied. This understanding is important to develop such a system. Intensities of emotions are presented on Plutchik's cone-shaped 3D model. The k Nearest Neighbor algorithm has been used for classification. The classification has been divided into two parts. First, the primary emotion has been detected, then its intensity has been specified. The results show that the recognition accuracy of the system is over 50% for primary emotions, and over 70% for its intensities.
Źródło:
International Journal of Electronics and Telecommunications; 2012, 58, 2; 165-170
2300-1933
Pojawia się w:
International Journal of Electronics and Telecommunications
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech Emotion Recognition Based on Voice Fundamental Frequency
Autorzy:
Dimitrova-Grekow, Teodora
Klis, Aneta
Igras-Cybulska, Magdalena
Powiązania:
https://bibliotekanauki.pl/articles/177227.pdf
Data publikacji:
2019
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
emotion recognition
speech signal analysis
voice analysis
fundamental frequency
speech corpora
Opis:
The human voice is one of the basic means of communication, thanks to which one also can easily convey the emotional state. This paper presents experiments on emotion recognition in human speech based on the fundamental frequency. AGH Emotional Speech Corpus was used. This database consists of audio samples of seven emotions acted by 12 different speakers (6 female and 6 male). We explored phrases of all the emotions – all together and in various combinations. Fast Fourier Transformation and magnitude spectrum analysis were applied to extract the fundamental tone out of the speech audio samples. After extraction of several statistical features of the fundamental frequency, we studied if they carry information on the emotional state of the speaker applying different AI methods. Analysis of the outcome data was conducted with classifiers: K-Nearest Neighbours with local induction, Random Forest, Bagging, JRip, and Random Subspace Method from algorithms collection for data mining WEKA. The results prove that the fundamental frequency is a prospective choice for further experiments.
Źródło:
Archives of Acoustics; 2019, 44, 2; 277-286
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech and Music – Nonlinear Acoustical Decoding in Neurocognitive Scenario
Autorzy:
Bhaduri, S.
Ghosh, D.
Powiązania:
https://bibliotekanauki.pl/articles/177385.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
speech signal
multifractality
Visibility Graph
Fractal Darwinism
neurocognitive disorders
Opis:
Speech and music signals are multifractal phenomena. The time displacement profile of speech and music signal show strikingly different scaling behaviour. However, a full complexity analysis of their frequency and amplitude has not been made so far. We propose a novel complex network based approach (Visibility Graph) to study the scaling behaviour of frequency wise amplitude variation of speech and music signals over time and then extract their PSVG (Power of Scale freeness of Visibility Graph). From this analysis it emerges that the scaling behaviour of amplitude-profile of music varies a lot from frequency to frequency whereas it’s almost consistent for the speech signal. Our left auditory cortical areas are proposed to be neurocognitively specialised in speech perception and right ones in music. Hence we can conclude that human brain might have adapted to the distinctly different scaling behaviour of speech and music signals and developed different decoding mechanisms, as if following the so called Fractal Darwinism. Using this method, we can capture all non-stationary aspects of the acoustic properties of the source signal to the deepest level, which has huge neurocognitive significance. Further, we propose a novel non-invasive application to detect neurological illness (here autism spectrum disorder, ASD), using the quantitative parameters deduced from the variation of scaling behaviour for speech and music.
Źródło:
Archives of Acoustics; 2018, 43, 4; 593-602
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Development of the Polish Speech Test Signal and its Comparison with the International Speech Test Signal
Autorzy:
Habasińska, D.
Skrodzka, E.
Bogusz-Witczak, E.
Powiązania:
https://bibliotekanauki.pl/articles/177838.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
Polish Speech Test Signal
PSTS
International Speech Test Signal
ISTS
hearing aids fitting
language
Opis:
The aim of this study was to create a single-language counterpart of the International Speech Test Signal (ISTS) and to compare both with respect to their acoustical characteristics. The development procedure of the Polish Speech Test Signal (PSTS) was analogous to the one of ISTS. The main difference was that instead of multi-lingual recordings, speech recordings of five Polish speakers were used. The recordings were cut into 100-600 ms long segments and composed into one-minute long signal, obeying a set of composition rules, imposed mainly to preserve a natural, speech-like features of the signal. Analyses revealed some differences between ISTS and PSTS. The latter has about twice as high volume of voiceless fragments of speech. PSTS’s sound pressure levels in 1/3-octave bands resemble the shape of the Polish long-term average female speech spectrum, having distinctive maxima at 3-4 and 8-10 kHz which ISTS lacks. As PSTS is representative of Polish language and contains inputs from multiple speakers, it can potentially find an application as a standardized signal used during the procedure of fitting hearing aids for patients that use Polish as their main language.
Źródło:
Archives of Acoustics; 2018, 43, 2; 253-262
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Acoustic Methods in Identifying Symptoms of Emotional States
Autorzy:
Piątek, Zuzanna
Kłaczyński, Maciej
Powiązania:
https://bibliotekanauki.pl/articles/1953482.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
emotion recognition
speech signal processing
clustering analysis
Sammon mapping
Opis:
The study investigates the use of speech signal to recognise speakers’ emotional states. The introduction includes the definition and categorization of emotions, including facial expressions, speech and physiological signals. For the purpose of this work, a proprietary resource of emotionally-marked speech recordings was created. The collected recordings come from the media, including live journalistic broadcasts, which show spontaneous emotional reactions to real-time stimuli. For the purpose of signal speech analysis, a specific script was written in Python. Its algorithm includes the parameterization of speech recordings and determination of features correlated with emotional content in speech. After the parametrization process, data clustering was performed to allows for the grouping of feature vectors for speakers into greater collections which imitate specific emotional states. Using the t-Student test for dependent samples, some descriptors were distinguished, which identified significant differences in the values of features between emotional states. Some potential applications for this research were proposed, as well as other development directions for future studies of the topic.
Źródło:
Archives of Acoustics; 2021, 46, 2; 259-269
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech signal processing and analysis tool
Narzędzie do przetwarzania i analizy sygnału mowy
Autorzy:
Mięsikowska, M.
Powiązania:
https://bibliotekanauki.pl/articles/158001.pdf
Data publikacji:
2007
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
przetwarzanie sygnału mowy
współczynniki cepstralne
speech signal processing
cepstral coefficients
Opis:
The project's objective is to create a tool intended for processing, analysis, and parameterizing human speech signal. The main aim is to obtain a speech signal image with some selected parameterization methods. The methods include use of 2D parameterization grid [1, 2] as well as cepstral coefficients CC [3]. Obtaining signal image as well as its further analysis without signal preprocessing is extremely difficult and the process doesn't guarantee desirable results. For this reason the tool is based on two main modules. The first one is intended for signal preprocessing, preparing it for further analysis. The other one provides signal parameterization methods. The tool was implemented in Java language.
W pracy podjęto próbę stworzenia narzędzia umożliwiającego przetwarzanie, analizę i parametryzację sygnału mowy. Głównym celem jest pozyskanie obrazu sygnału mowy za pomocą wybranych metod parametryzacji. Wybrane metody parametryzacji sygnału mowy to parametryzacja za pomocą siatki dwuwymiarowej [1, 2] oraz współczynniki cepstralne [3]. Zobrazowanie sygnału oraz jego dalsza analiza bez operacji wstępnego przetworzenia sygnału jest procesem trudnym i nie zawsze przynosi pożądane rezultaty. Wobec tego narzędzie wyposażono w dwa zasadnicze moduły. Pierwszy moduł odpowiedzialny jest za wstępne przetworzenie sygnału, przygotowujące sygnał do dalszej analizy. Drugi moduł dostarcza metod parametryzacji sygnału mowy. Narzędzie zaimplementowano w języku Java.
Źródło:
Pomiary Automatyka Kontrola; 2007, R. 53, nr 12, 12; 43-45
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Estimation of possibilities connected with usage of electroglotography method in speech signal analysis
Autorzy:
Zielińska, J.
Powiązania:
https://bibliotekanauki.pl/articles/333383.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
wizualizacja komputerowa sygnału mowy
laryngograf
computer visualization of speech signal
electroglotography
laryngograph
Opis:
The research presented in this paper deals with the speech signal with use of elecroglotography method analysis issue. This is an instrumental analysis, so the device called Laryngograph is presented, as a practical application. In this paper capabilities of this device are estimated. The very interesting fact is that the visualization of the speech signal obtained using Laryngograph allows to detect its acoustically and phonetically most important features, and presenting them in a graphical form. The analysis process performed using a computer and the specified computer attachment is easier, faster and ensures higher quality than other methods. Computer voice recording enables not only visualization but also objective assessment and its repetitiveness. In the context of presented questions, practical capabilities of integrated system for speech examination - Speech Studio are discussed.
Źródło:
Journal of Medical Informatics & Technologies; 2008, 12; 217-222
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie multimodalnej klasyfikacji w rozpoznawaniu stanów emocjonalnych na podstawie mowy spontanicznej
Spontaneus emotion redognition from speech signal using multimodal classification
Autorzy:
Kamińska, D.
Pelikant, A.
Powiązania:
https://bibliotekanauki.pl/articles/408014.pdf
Data publikacji:
2012
Wydawca:
Politechnika Lubelska. Wydawnictwo Politechniki Lubelskiej
Tematy:
rozpoznawanie emocji
sygnał mowy
algorytm kNN
emotion recognition
speech signal
k-NN algorithm
Opis:
Artykuł prezentuje zagadnienie związane z rozpoznawaniem stanów emocjonalnych na podstawie analizy sygnału mowy. Na potrzeby badań stworzona została polska baza mowy spontanicznej, zawierająca wypowiedzi kilkudziesięciu osób, w różnym wieku i różnej płci. Na podstawie analizy sygnału mowy stworzono przestrzeń cech. Klasyfikację stanowi multimodalny mechanizm rozpoznawania, oparty na algorytmie kNN. Średnia poprawność: rozpoznawania wynosi 83%.
The article presents the issue of emotion recognition from a speech signal. For this study, a Polish spontaneous database, containing speech from people of different age and gender, was created. Features were determined from the speech signal. The process of recognition was based on multimodal classification, related to kNN algorithm. The average of accuracy performance was up to 83%.
Źródło:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska; 2012, 3; 36-39
2083-0157
2391-6761
Pojawia się w:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Parametric analysis of pilot voice signals in Parkinson’s disease diagnostics
Analiza parametryczna pilotażowych sygnałów głosu w diagnostyce choroby Parkinsona
Autorzy:
Majda-Zdancewicz, Ewelina
Potulska-Chromik, Anna
Nojszewska, Monika
Kostera-Pruszczyk, Anna
Powiązania:
https://bibliotekanauki.pl/articles/2176245.pdf
Data publikacji:
2022
Wydawca:
Uniwersytet Technologiczno-Humanistyczny im. Kazimierza Pułaskiego w Radomiu
Tematy:
features extraction
speech signal analysis
Parkinson's disease
analiza sygnału mowy
choroba Parkinsona
ekstrakcja cech
Opis:
Parkinson's disease (PD) is a neurodegenerative disease of the central nervous system (CNS) characterized by the progressive loss of dopaminergic neurons in the substantia nigra. The article describes an analysis of pilot voice signal analysis in Parkinson's disease diagnostics. Frequency domain signal analysis was mainly used to assess the state of a patient's voice apparatus in order to support PD diagnostics. The recordings covered uttering the “a” sound at least twice with extended phonation. The research utilized real recordings acquired in the Department of Neurology at the Medical University of Warsaw, Poland. Spectral speech signal coefficients may be determined based on different defined frequency scales. The authors used four frequency scales: linear, Mel, Bark and ERB . Spectral descriptors have been defined for each scales which are widely used in machine and deep learning applications, and perceptual analysis. The usefulness of extracted features was assessed taking into account various methods. The discriminatory ability of individual coefficients was evaluated using the Fisher coefficient and LDA technique.. The results of numerical experiments have shown different efficiencies of the proposed descriptors using different frequencies scales.
Choroba Parkinsona (PD) jest neurodegeneracyjną chorobą ośrodkowego układu nerwowego charakteryzującą się postępującą utratą neuronów dopaminergicznych w istocie czarnej. W artykule opisano analizę rejestracji pilotażowych sygnałów głosu w diagnostyce choroby Parkinsona. Rejestracji podlegało co najmniej dwukrotnie wypowiadanie głoski „a” o przedłużonej fonacji. Do badań wykorzystano nagrania zarejestrowane w Katedrze i Klinice Neurologii Warszawskiego Uniwersytetu Medycznego w Warszawie. Do oceny stanu aparatu głosu pacjenta celem wsparcia diagnostyki choroby Parkinsona wykorzystano w głównej mierze analizę sygnału w dziedzinie częstotliwości. Autorzy zastosowali cztery skale częstości: liniową, skalę typu Mel, skalę typu Bark oraz skalę typu ERB. Dla każdej z tych skali zdefiniowali deskryptory spektralne szeroko stosowane w aplikacjach uczenia maszynowego i głębokiego uczenia się oraz w analizie percepcyjnej. Ocena przydatności wyekstrahowanych cech została zrealizowana z uwzględnieniem różnych metod. Wykorzystano metodą oceny jakości cech przy użyciu współczynnika istotności Fischera oraz analizę LDA. Wyniki eksperymentów numerycznych wykazały różne wydajności proponowanych deskryptorów przy użyciu różnych skal częstości.
Źródło:
Journal of Automation, Electronics and Electrical Engineering; 2022, 4, 1; 21--28
2658-2058
2719-2954
Pojawia się w:
Journal of Automation, Electronics and Electrical Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Speech Signal Measurement with 2D Microphone Array for Audio Visual Robot Control
Pomiar sygnału głosowego za pomocą matrycy mikrofonowej dwuwymiarowej przeznaczonej do audio-wizyjnego sterowania robota
Autorzy:
Bekiarski, A.
Pleshkova-Bekiarska, S. G.
Powiązania:
https://bibliotekanauki.pl/articles/153173.pdf
Data publikacji:
2008
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
pomiar sygnału głosowego
sterowanie audio-wizyjne robota mobilnego
matryca mikrofonowa
przetwarzanie sygnału mowy
sensory robota
speech signal measurement
audiovisual robot control
audio visual robot sensors
microphone arrays
speech processing
Opis:
Speech signals are one of the essential sources of information in the field of modern intelligent robots, equipped with a microphone array as audio sensors. Applications of microphone arrays are well known. They are used to collect and measure the audio information in audio processing system of a robot. The audio information can be of different nature: music, speech, noise etc. The paper refers only to speech signals, which are used for robot control. There are many structures of the microphone arrays: linear, planar, circular etc., which can be used for collecting and measuring the speech signals with the audio system of an audio visual robot. Most often linear microphone arrays are used mainly because of theirs simplicity. They are also used for robot orientation and movement control in simple room situation, by means of the direction detection of speech arrival. The goal of this paper is presentation of the use 2D microphone array for speech signal measurement, and applying space-time filtering optimized to find speech direction of arrival (DOA). The discovered and calculated speech signal direction of arrival can be combined with the video sensor co-ordinate information to effectively control the mobile robot movements in specified direction.
Sygnał mowy jest jednym z głównych źródeł informacji dla współczesnych robotów inteligentnych, wyposażonych w matryce mikrofonowe pracujące jako sensory sygnału audio. Zastosowania takich matryc są dobrze znane. Służą one do zbierania i pomiaru informacji zawartej w sygnałach audio. Informacje audio mogą mieć różną naturę: może to być muzyka, mowa, szum itp. Artykuł dotyczy jedynie sygnałów głosowych, które są używane do sterowania robota. Istnieje wiele struktur matryc mikrofonowych, np. liniowe, planarne, kołowe itd., które mogą być używane do zbierania i pomiarów parametrów sygnału mowy przez system audio robota. Najczęściej z powodu ich prostoty są stosowane matryce liniowe. Wykorzystuje się je również do orientowania robota i sterowania jego ruchem w prostej sytuacji, gdy robot pracuje w pokoju, za pomocą wykrywania kierunku z którego przychodzi sygnał głosowy. Celem artykułu jest przedstawienie zastosowania dwuwymiarowej matrycy mikrofonowej do pomiaru sygnału głosowego oraz zastosowania filtracji czasowo-przestrzennej zoptymalizowanej do znajdowania kierunku z jakiego przychodzi sygnał głosowy (DOA). Wykryty i obliczony kierunek nadchodzenia sygnału głosowego może być połączony z informacjami o współrzędnych z sensora video w celu efektywnego sterowania ruchów robota mobilnego w określonym kierunku.
Źródło:
Pomiary Automatyka Kontrola; 2008, R. 54, nr 10, 10; 741-743
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Heart Rate Detection and Classification from Speech Spectral Features Using Machine Learning
Autorzy:
Usman, Mohammed
Zubair, Mohammed
Ahmad, Zeeshan
Zaidi, Monji
Ijyas, Thafasal
Parayangat, Muneer
Wajid, Mohd
Shiblee, Mohammad
Ali, Syed Jaffar
Powiązania:
https://bibliotekanauki.pl/articles/1953514.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
heart rate from speech
machine learning
MFCC
regression
classification
speech as a biomedical signal
Opis:
Measurement of vital signs of the human body such as heart rate, blood pressure, body temperature and respiratory rate is an important part of diagnosing medical conditions and these are usually measured using medical equipment. In this paper, we propose to estimate an important vital sign – heart rate from speech signals using machine learning algorithms. Existing literature, observation and experience suggest the existence of a correlation between speech characteristics and physiological, psychological as well as emotional conditions. In this work, we estimate the heart rate of individuals by applying machine learning based regression algorithms to Mel frequency cepstrum coefficients, which represent speech features in the spectral domain as well as the temporal variation of spectral features. The estimated heart rate is compared with actual measurement made using a conventional medical device at the time of recording speech. We obtain estimation accuracy close to 94% between the estimated and actual measured heart rate values. Binary classification of heart rate as ‘normal’ or ‘abnormal’ is also achieved with 100% accuracy. A comparison of machine learning algorithms in terms of heart rate estimation and classification accuracy is also presented. Heart rate measurement using speech has applications in remote monitoring of patients, professional athletes and can facilitate telemedicine.
Źródło:
Archives of Acoustics; 2021, 46, 1; 41-53
0137-5075
Pojawia się w:
Archives of Acoustics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system
Autorzy:
Mały, Dominik
Dobrowolski, Andrzej
Powiązania:
https://bibliotekanauki.pl/articles/27323689.pdf
Data publikacji:
2023
Wydawca:
Centrum Rzeczoznawstwa Budowlanego Sp. z o.o.
Tematy:
automatic speaker recognition
automatic speaker recognition systems
physical features
behavioral features
speech signal
automatyczne rozpoznawanie mówiącego
sygnał mowy
system automatycznego rozpoznawania mówiącego
cecha behawioralna
cecha fizyczna
Opis:
The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.
Źródło:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych; 2023, 4; 26--34
2450-1859
2450-8721
Pojawia się w:
Inżynieria Bezpieczeństwa Obiektów Antropogenicznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Warunki akustyczne w pomieszczeniach biurowych open space – zastosowanie środków technicznych w typowym pomieszczeniu
Acoustic conditions in open plan office – Application of technical measures in a typical room
Autorzy:
Mikulski, Witold
Powiązania:
https://bibliotekanauki.pl/articles/2162648.pdf
Data publikacji:
2018-03-09
Wydawca:
Instytut Medycyny Pracy im. prof. dra Jerzego Nofera w Łodzi
Tematy:
akustyka pomieszczeń biurowych open space
dźwiękochłonne sufity podwieszane
chłonność akustyczna pomieszczenia
adaptacja akustyczna
czas pogłosu
maskowanie sygnału mowy
acoustic of open plan office
sound absorbing suspended ceiling
sound absorption of room
acoustic treatment
reverberation time
masking the speech signal
Opis:
Wstęp Hałas w pomieszczeniach biurowych open space nie przekracza poziomów dopuszczalnych ze względu na ochronę słuchu. Podstawowy jego negatywny wpływ na pracowników to utrudnienie w wykonywaniu pracy i uciążliwość. Aby zapewnić odpowiednie akustyczne warunki pracy w takich pomieszczeniach, należy stosować specjalne rozwiązania techniczne. Materiał i metody W artykule opublikowanym w numerze 5. „Medycyny Pracy” 2016 oceniono pod względem warunków akustycznych typowe pomieszczenia biurowe open space. Żadne z tam rozpatrywanych pomieszczeń nie spełniało wszystkich kryteriów, dlatego w niniejszym artykule wybrano jedno pomieszczenie, a następnie zaproponowano różne rodzaje rozwiązań technicznych, których celem było sprawdzenie, czy uzyskanie odpowiednich akustycznych warunków pracy w pomieszczeniach open space jest możliwe. Akustyczną efektywność tych rozwiązań weryfikowano za pomocą symulacji cyfrowej programem ODEON. Przed zastosowaniem symulacji model sprawdzono metodą porównania wyników pomiarów i obliczeń. Wyniki Uzyskanie odpowiednich wartości wszystkich ocenianych parametrów, przy wprowadzeniu sygnałów maskujących sygnał mowy, pozwala spełnić wszystkie przyjęte kryteria. Stosunkowo najłatwiej uzyskać odpowiedni czas pogłosu, tj. chłonność akustyczną. Dużo trudniejsze jest uzyskanie odpowiednich wartości parametrów oceny wyznaczanych z poziomu dźwięku A mowy. Największą trudnością jest zapewnienie odpowiednich wartości parametrów oceny wyznaczanych ze wskaźnika transmisji mowy (speech transmission index – STI). W ostatnim przypadku jest konieczne (poza adaptacją akustyczną) zastosowanie urządzeń maskujących sygnał mowy. Przeprowadzone badania wykazały techniczną możliwość uzyskania odpowiednich warunków akustycznych w pomieszczeniach open space. Wnioski Jedną z głównych przyczyn skarg pracowników biurowych w pomieszczeniach open space są nieodpowiednie akustyczne warunki pracy. Dlatego należy stosować w tych pomieszczeniach specjalne rozwiązania techniczne – nie tylko dźwiękochłonne sufity podwieszane i wysokie ekrany akustyczne, ale również urządzenia maskujące mowę. Med. Pr. 2018;69(2):153–165
Background Noise in open plan offices should not exceed acceptable levels for the hearing protection. Its major negative effects on employees are nuisance and impediment in execution of work. Specific technical solutions should be introduced to provide proper acoustic conditions for work performance. Material and Methods Acoustic evaluation of a typical open plan office was presented in the article published in “Medycyna Pracy” 5/2016. None of the rooms meets all the criteria, therefore, in this article one of the rooms was chosen to apply different technical solutions to check the possibility of reaching proper acoustic conditions. Acoustic effectiveness of those solutions was verified by means of digital simulation. The model was checked by comparing the results of measurements and calculations before using simulation. Results The analyzis revealed that open plan offices supplemented with signals for masking speech signals can meet all the required criteria. It is relatively easy to reach proper reverberation time (i.e., sound absorption). It is more difficult to reach proper values of evaluation parameters determined from A-weighted sound pressure level (SPLA) of speech. The most difficult is to provide proper values of evaluation parameters determined from speech transmission index (STI). Finally, it is necessary (besides acoustic treatment) to use devices for speech masking. The study proved that it is technically possible to reach proper acoustic condition. Conclusions Main causes of employees complaints in open plan office are inadequate acoustic work conditions. Therefore, it is necessary to apply specific technical solutions – not only sound absorbing suspended ceiling and high acoustic barriers, but also devices for speech masking. Med Pr 2018;69(2):153–165
Źródło:
Medycyna Pracy; 2018, 69, 2; 153-165
0465-5893
2353-1339
Pojawia się w:
Medycyna Pracy
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies