Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "naive Bayes" wg kryterium: Temat


Tytuł:
A comparative study on performance of basic and ensemble classifiers with various datasets
Autorzy:
Gunakala, Archana
Shahid, Afzal Hussain
Powiązania:
https://bibliotekanauki.pl/articles/30148255.pdf
Data publikacji:
2023
Wydawca:
Polskie Towarzystwo Promocji Wiedzy
Tematy:
classification
Naïve Bayes
neural network
Support Vector Machine
Decision Tree
ensemble learning
Random Forest
Opis:
Classification plays a critical role in machine learning (ML) systems for processing images, text and high -dimensional data. Predicting class labels from training data is the primary goal of classification. An optimal model for a particular classification problem is chosen based on the model's performance and execution time. This paper compares and analyzes the performance of basic as well as ensemble classifiers utilizing 10-fold cross validation and also discusses their essential concepts, advantages, and disadvantages. In this study five basic classifiers namely Naïve Bayes (NB), Multi-layer Perceptron (MLP), Support Vector Machine (SVM), Decision Tree (DT), and Random Forest (RF) and the ensemble of all the five classifiers along with few more combinations are compared with five University of California Irvine (UCI) ML Repository datasets and a Diabetes Health Indicators dataset from Kaggle repository. To analyze and compare the performance of classifiers, evaluation metrics like Accuracy, Recall, Precision, Area Under Curve (AUC) and F-Score are used. Experimental results showed that SVM performs best on two out of the six datasets (Diabetes Health Indicators and waveform), RF performs best for Arrhythmia, Sonar, Tic-tac-toe datasets, and the best ensemble combination is found to be DT+SVM+RF on Ionosphere dataset having respective accuracies 72.58%, 90.38%, 81.63%, 73.59%, 94.78% and 94.01%. The proposed ensemble combinations outperformed the conven¬tional models for few datasets.
Źródło:
Applied Computer Science; 2023, 19, 1; 107-132
1895-3735
2353-6977
Pojawia się w:
Applied Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych
Sentiment analysis. An example of application and evaluation of RID dictionary and Bayesian classification methods in qualitative data analysis approach
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/622902.pdf
Data publikacji:
2014
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza danych jakościowych
analiza sentymentu
analiza treści
text mining
kodowanie tekstów
przetwarzanie języka naturalnego słownik RID
naiwny klasyfikator Bayesa
CAQDAS
qualitative data analysis
sentiment analysis
content analysis
coding techniques
natural language processing
RID dictionary
naive Bayes
Opis:
Celem artykułu jest prezentacja podstawowych metod klasyfikacji jakościowych danych tekstowych. Metody te korzystają z osiągnięć wypracowanych w takich obszarach, jak przetwarzanie języka naturalnego i analiza danych nieustrukturalizowanych. Przedstawiam i porównuję dwie techniki analityczne stosowane wobec danych tekstowych. Pierwsza to analiza z zastosowaniem słownika tematycznego. Druga technika oparta jest na idei klasyfikacji Bayesa i opiera się na rozwiązaniu zwanym naiwnym klasyfikatorem Bayesa. Porównuję efektywność dwóch wspomnianych technik analitycznych w ramach analizy sentymentu. Akcentuję rozwiązania mające na celu zbudowanie trafnego, w kontekście klasyfikacji tekstów, słownika. Porównuję skuteczność tak zwanych analiz nadzorowanych do skuteczności analiz zautomatyzowanych. Wyniki, które prezentuję, wzmacniają wniosek, którego treść brzmi: słownik, który w przeszłości uzyskał dobrą ocenę jako narzędzie klasyfikacyjne, gdy stosowany jest wobec nowego materiału empirycznego, powinien przejść fazę ewaluacji. Jest to, w proponowanym przeze mnie podejściu, podstawowy proces adaptacji słownika analitycznego, traktowanego jako narzędzie klasyfikacji tekstów.
The purpose of this article is to present the basic methods for classifying text data. These methods make use of achievements earned in areas such as: natural language processing, the analysis of unstructured data. I introduce and compare two analytical techniques applied to text data. The first analysis makes use of thematic vocabulary tool (sentiment analysis). The second technique uses the idea of Bayesian classification and applies, so-called, naive Bayes algorithm. My comparison goes towards grading the efficiency of use of these two analytical techniques. I emphasize solutions that are to be used to build dictionary accurate for the task of text classification. Then, I compare supervised classification to automated unsupervised analysis’ effectiveness. These results reinforce the conclusion that a dictionary which has received good evaluation as a tool for classification should be subjected to review and modification procedures if is to be applied to new empirical material. Adaptation procedures used for analytical dictionary become, in my proposed approach, the basic step in the methodology of textual data analysis.
Źródło:
Przegląd Socjologii Jakościowej; 2014, 10, 2; 118-136
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Applying Machine Learning to Software Fault Prediction
Autorzy:
Wójcicki, B.
Dabrowski, R.
Powiązania:
https://bibliotekanauki.pl/articles/384105.pdf
Data publikacji:
2018
Wydawca:
Politechnika Wrocławska. Oficyna Wydawnicza Politechniki Wrocławskiej
Tematy:
classifier
fault prediction
machine learning
metric
Naïve Bayes
Python
quality
software intelligence
Opis:
Introduction: Software engineering continuously suffers from inadequate software testing. The automated prediction of possibly faulty fragments of source code allows developers to focus development efforts on fault-prone fragments first. Fault prediction has been a topic of many studies concentrating on C/C++ and Java programs, with little focus on such programming languages as Python. Objectives: In this study the authors want to verify whether the type of approach used in former fault prediction studies can be applied to Python. More precisely, the primary objective is conducting preliminary research using simple methods that would support (or contradict) the expectation that predicting faults in Python programs is also feasible. The secondary objective is establishing grounds for more thorough future research and publications, provided promising results are obtained during the preliminary research. Methods: It has been demonstrated that using machine learning techniques, it is possible to predict faults for C/C++ and Java projects with recall 0.71 and false positive rate 0.25. A similar approach was applied in order to find out if promising results can be obtained for Python projects. The working hypothesis is that choosing Python as a programming language does not significantly alter those results. A preliminary study is conducted and a basic machine learning technique is applied to a few sample Python projects. If these efforts succeed, it will indicate that the selected approach is worth pursuing as it is possible to obtain for Python results similar to the ones obtained for C/C++ and Java. However, if these efforts fail, it will indicate that the selected approach was not appropriate for the selected group of Python projects. Results: The research demonstrates experimental evidence that fault-prediction methods similar to those developed for C/C++ and Java programs can be successfully applied to Python programs, achieving recall up to 0.64 with false positive rate 0.23 (mean recall 0.53 with false positive rate 0.24). This indicates that more thorough research in this area is worth conducting. Conclusion: Having obtained promising results using this simple approach, the authors conclude that the research on predicting faults in Python programs using machine learning techniques is worth conducting, natural ways to enhance the future research being: using more sophisticated machine learning techniques, using additional Python-specific features and extended data sets.
Źródło:
e-Informatica Software Engineering Journal; 2018, 12, 1; 199-216
1897-7979
Pojawia się w:
e-Informatica Software Engineering Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Attribute selection for stroke prediction
Autorzy:
Zdrodowska, Małgorzata
Powiązania:
https://bibliotekanauki.pl/articles/386466.pdf
Data publikacji:
2019
Wydawca:
Politechnika Białostocka. Oficyna Wydawnicza Politechniki Białostockiej
Tematy:
data mining
classifier
J48 (C4.5)
CART
PART
naive Bayes classifier
random forest
support vector machine
multilayer perceptron
haemorrhagic stroke
ischemic stroke
Opis:
Stroke is the third most common cause of death and the most common cause of long-term disability among adults around theworld. Therefore, stroke prediction and diagnosis is a very important issue. Data mining techniques come in handy to help determine the correlations between individual patient characterisation data, that is, extract from the medical information system the knowledge necessary to predict and treat various diseases. The study analysed the data of patients with stroke using eight known classification algorithms (J48 (C4.5), CART, PART, naive Bayes classifier, Random Forest, Supporting Vector Machine and neural networks Multilayer Perceptron), which allowed to build an exploration model given with an accuracy of over 88%. The potential features of patients, which may be factors that increase the risk of stroke, were also indicated.
Źródło:
Acta Mechanica et Automatica; 2019, 13, 3; 200-204
1898-4088
2300-5319
Pojawia się w:
Acta Mechanica et Automatica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Classification of Parkinson’s disease and other neurological disorders using voice features extraction and reduction techniques
Klasyfikacja choroby Parkinsona i innych zaburzeń neurologicznych z wykorzystaniem ekstrakcji cech głosowych i technik redukcji
Autorzy:
Majdoubi, Oumaima
Benba, Achraf
Hammouch, Ahmed
Powiązania:
https://bibliotekanauki.pl/articles/27315435.pdf
Data publikacji:
2023
Wydawca:
Politechnika Lubelska. Wydawnictwo Politechniki Lubelskiej
Tematy:
voice analysis
Parkinson’s disease
MFCC
PCA
naive Bayes kernel
machine learning
analiza głosu
choroba Parkinsona
naiwne jądro bayesowskie
uczenie maszynowe
Opis:
This study aimed to differentiate individuals with Parkinson's disease (PD) from those with other neurological disorders (ND) by analyzing voice samples, considering the association between voice disorders and PD. Voice samples were collected from 76 participants using different recording devices and conditions, with participants instructed to sustain the vowel /a/ comfortably. PRAAT software was employed to extract features including autocorrelation (AC), cross-correlation (CC), and Mel frequency cepstral coefficients (MFCC) from the voice samples. Principal component analysis (PCA) was utilized to reduce the dimensionality of the features. Classification Tree (CT), Logistic Regression, Naive Bayes (NB), Support Vector Machines (SVM), and Ensemble methods were employed as supervised machine learning techniques for classification. Each method provided distinct strengths and characteristics, facilitating a comprehensive evaluation of their effectiveness in distinguishing PD patients from individuals with other neurological disorders. The Naive Bayes kernel, using seven PCA-derived components, achieved the highest accuracy rate of 86.84% among the tested classification methods. It is worth noting that classifier performance may vary based on the dataset and specific characteristics of the voice samples. In conclusion, this study demonstrated the potential of voice analysis as a diagnostic tool for distinguishing PD patients from individuals with other neurological disorders. By employing a variety of voice analysis techniques and utilizing different machine learning algorithms, including Classification Tree, Logistic Regression, Naive Bayes, Support Vector Machines, and Ensemble methods, a notable accuracy rate was attained. However, further research and validation using larger datasets are required to consolidate and generalize these findings for future clinical applications.
Przedstawione badanie miało na celu różnicowanie osób z chorobą Parkinsona (PD) od osób z innymi zaburzeniami neurologicznymi poprzez analizę próbek głosowych, biorąc pod uwagę związek między zaburzeniami głosu a PD. Próbki głosowe zostały zebrane od 76 uczestników przy użyciu różnych urządzeń i warunków nagrywania, a uczestnicy byli instruowani, aby wydłużyć samogłoskę /a/ w wygodnym tempie. Oprogramowanie PRAAT zostało zastosowane do ekstrakcji cech, takich jak autokorelacja (AC), krzyżowa korelacja (CC) i współczynniki cepstralne Mel (MFCC) z próbek głosowych. Analiza składowych głównych (PCA) została wykorzystana w celu zmniejszenia wymiarowości cech. Jako techniki nadzorowanego uczenia maszynowego wykorzystano drzewa decyzyjne (CT), regresję logistyczną, naiwny klasyfikator Bayesa (NB), maszyny wektorów nośnych (SVM) oraz metody zespołowe. Każda z tych metod posiadała swoje unikalne mocne strony i charakterystyki, umożliwiając kompleksową ocenę ich skuteczności w rozróżnianiu pacjentów z PD od osób z innymi zaburzeniami neurologicznymi. Naiwny klasyfikator Bayesa, wykorzystujący siedem składowych PCA, osiągnął najwyższy wskaźnik dokładności na poziomie 86,84% wśród przetestowanych metod klasyfikacji. Należy jednak zauważyć, że wydajność klasyfikatora może się różnić w zależności od zbioru danych i konkretnych cech próbek głosowych. Podsumowując, to badanie wykazało potencjał analizy głosu jako narzędzia diagnostycznego do rozróżniania pacjentów z PD od osób z innymi zaburzeniami neurologicznymi. Poprzez zastosowanie różnych technik analizy głosu i wykorzystanie różnych algorytmów uczenia maszynowego, takich jak drzewa decyzyjne, regresja logistyczna, naiwny klasyfikator Bayesa, maszyny wektorów nośnych i metody zespołowe, osiągnięto znaczący poziom dokładności. Niemniej jednak, konieczne są dalsze badania i walidacja na większych zbiorach danych w celu skonsolidowania i uogólnienia tych wyników dla przyszłych zastosowań klinicznych.
Źródło:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska; 2023, 13, 3; 16--22
2083-0157
2391-6761
Pojawia się w:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cloud-based sentiment analysis for measuring customer satisfaction in the Moroccan banking sector using Naïve Bayes and Stanford NLP
Autorzy:
Riadsolh, Anouar
Lasri, Imane
ElBelkacemi, Mourad
Powiązania:
https://bibliotekanauki.pl/articles/2141901.pdf
Data publikacji:
2020
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
Big Data processing
Apache Spark
Apache Kafka
real-time text processing
sentiment analysis
Stanford core NLP
Naïve Bayes classifier
Opis:
In a world where every day we produce 2.5 quintillion bytes of data, sentiment analysis has been a key for making sense of that data. However, to process huge text data in real-time requires building a data processing pipeline in order to minimize the latency to process data streams. In this paper, we explain and evaluate our proposed real-time customer’ sentiment analysis pipeline on the Moroccan banking sector through data from the web and social network using open-source big data tools such as data ingestion using Apache Kafka, In-memory data processing using Apache Spark, Apache HBase for storing tweets and the satisfaction indicator, and ElasticSearch and Kibana for visualization then NodeJS for building a web application. The performance evaluation of Naïve Bayesian model show that for French Tweets the accuracy has reached 76.19% while for English Tweets the result was unsatisfactory and the resulting accuracy is 56%. To remedy this problem, we used the Stanford core NLP which, for English Tweets, reaches a precision of 80.7%.
Źródło:
Journal of Automation Mobile Robotics and Intelligent Systems; 2020, 14, 4; 64-71
1897-8649
2080-2145
Pojawia się w:
Journal of Automation Mobile Robotics and Intelligent Systems
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparative Study of Supervised Learning Methods for Malware Analysis
Autorzy:
Kruczkowski, M.
Niewiadomska-Szynkiewicz, E.
Powiązania:
https://bibliotekanauki.pl/articles/309481.pdf
Data publikacji:
2014
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
data classification
k-Nearest Neighbors
malware analysis
Naive Bayes
support vector machine (SVM)
Opis:
Malware is a software designed to disrupt or even damage computer system or do other unwanted actions. Nowadays, malware is a common threat of the World Wide Web. Anti-malware protection and intrusion detection can be significantly supported by a comprehensive and extensive analysis of data on the Web. The aim of such analysis is a classification of the collected data into two sets, i.e., normal and malicious data. In this paper the authors investigate the use of three supervised learning methods for data mining to support the malware detection. The results of applications of Support Vector Machine, Naive Bayes and k-Nearest Neighbors techniques to classification of the data taken from devices located in many units, organizations and monitoring systems serviced by CERT Poland are described. The performance of all methods is compared and discussed. The results of performed experiments show that the supervised learning algorithms method can be successfully used to computer data analysis, and can support computer emergency response teams in threats detection.
Źródło:
Journal of Telecommunications and Information Technology; 2014, 4; 24-33
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computerised Recommendations On E-Transaction Finalisation By Means Of Machine Learning
Autorzy:
Budnikas, Germanas
Powiązania:
https://bibliotekanauki.pl/articles/466046.pdf
Data publikacji:
2015
Wydawca:
Główny Urząd Statystyczny
Tematy:
online behaviour
Google Analytics
Naïve Bayes classifier
artificial neural network
Opis:
Nowadays a vast majority of businesses are supported or executed online. Website-to-user interaction is extremely important and user browsing activity on a website is becoming important to analyse. This paper is devoted to the research on user online behaviour and making computerised advices. Several problems and their solutions are discussed: to know user behaviour online pattern with respect to business objectives and estimate a possible highest impact on user online activity. The approach suggested in the paper uses the following techniques: Business Process Modelling for formalisation of user online activity; Google Analytics tracking code function for gathering statistical data about user online activities; Naïve Bayes classifier and a feedforward neural network for a classification of online patterns of user behaviour as well as for an estimation of a website component that has the highest impact on a fulfilment of business objective by a user and which will be advised to be looked at. The technique is illustrated by an example.
Źródło:
Statistics in Transition new series; 2015, 16, 2; 309-322
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Fast bearing fault diagnosis of rolling element using Lévy Moth-Flame optimization algorithm and Naive Bayes
Autorzy:
Sun, Shuang
Przystupa, Krzysztof
Wei, Ming
Yu, Han
Ye, Zhiwei
Kochan, Orest
Powiązania:
https://bibliotekanauki.pl/articles/1841936.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Polskie Naukowo-Techniczne Towarzystwo Eksploatacyjne PAN
Tematy:
malfunction diagnostics
naive Bayes
moth-flame optimization algorithm
ensemble empirical mode decomposition
Opis:
Fault diagnosis is part of the maintenance system, which can reduce maintenance costs, increase productivity, and ensure the reliability of the machine system. In the fault diagnosis system, the analysis and extraction of fault signal characteristics are very important, which directly affects the accuracy of fault diagnosis. In the paper, a fast bearing fault diagnosis method based on the ensemble empirical mode decomposition (EEMD), the moth-flame optimization algorithm based on Lévy flight (LMFO) and the naive Bayes (NB) is proposed, which combines traditional pattern recognition methods meta-heuristic search can overcome the difficulty of selecting classifier parameters while solving small sample classification under reasonable time cost. The article uses a typical rolling bearing system to test the actual performance of the method. Meanwhile, in comparison with the known algorithms and methods was also displayed in detail. The results manifest the efficiency and accuracy of signal sparse representation and fault type classification has been enhanced.
Źródło:
Eksploatacja i Niezawodność; 2020, 22, 4; 730-740
1507-2711
Pojawia się w:
Eksploatacja i Niezawodność
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Impact of the COVID-19 pandemic on the expression of emotions in social media
Autorzy:
Ghosh, Debabrata
Powiązania:
https://bibliotekanauki.pl/articles/2027766.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Classification
COVID-19
Emotion
Emotion analysis
Naïve Bayes
Pandemic
Random Forest
Support Vector Machine
Opis:
In the age of social media, every second thousands of messages are exchanged. Analyzing those unstructured data to find out specific emotions is a challenging task. Analysis of emotions involves evaluation and classification of text into emotion classes such as Happy, Sad, Anger, Disgust, Fear, Surprise, as defined by emotion dimensional models which are described in the theory of psychology (www 1; Russell, 2005). The main goal of this paper is to cover the COVID-19 pandemic situation in India and its impact on human emotions. As people very often express their state of the mind through social media, analyzing and tracking their emotions can be very effective for government and local authorities to take required measures. We have analyzed different machine learning classification models, such as Naïve Bayes, Support Vector Machine, Random Forest Classifier, Decision Tree and Logistic Regression with 10-fold cross validation to find out top ML models for emotion classification. After tuning the Hyperparameter, we got Logistic regression as the best suited model with accuracy 77% with the given datasets. We worked on algorithm based supervised ML technique to get the expected result. Although multiple studies were conducted earlier along the same lines, none of them performed comparative study among different ML techniques or hyperparameter tuning to optimize the results. Besides, this study has been done on the dataset of the most recent COVID-19 pandemic situation, which is itself unique. We captured Twitter data for a duration of 45 days with hashtag #COVID19India OR #COVID19 and analyzed the data using Logistic Regression to find out how the emotion changed over time based on certain social factors
Źródło:
Multiple Criteria Decision Making; 2020, 15; 23-35
2084-1531
Pojawia się w:
Multiple Criteria Decision Making
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Learning the naive Bayes classifier with optimization models
Autorzy:
Taheri, S.
Mammadov, M.
Powiązania:
https://bibliotekanauki.pl/articles/908351.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
Bayesian networks
naive Bayes classifier
optimization
discretization
sieci bayesowskie
naiwny klasyfikator Bayesa
optymalizacja
dyskretyzacja
Opis:
Naive Bayes is among the simplest probabilistic classifiers. It often performs surprisingly well in many real world applications, despite the strong assumption that all features are conditionally independent given the class. In the learning process of this classifier with the known structure, class probabilities and conditional probabilities are calculated using training data, and then values of these probabilities are used to classify new observations. In this paper, we introduce three novel optimization models for the naive Bayes classifier where both class probabilities and conditional probabilities are considered as variables. The values of these variables are found by solving the corresponding optimization problems. Numerical experiments are conducted on several real world binary classification data sets, where continuous features are discretized by applying three different methods. The performances of these models are compared with the naive Bayes classifier, tree augmented naive Bayes, the SVM, C4.5 and the nearest neighbor classifier. The obtained results demonstrate that the proposed models can significantly improve the performance of the naive Bayes classifier, yet at the same time maintain its simple structure.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2013, 23, 4; 787-795
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
New algorithm for determining the number of features for the effective sentiment-classification of text documents
Nowy algorytm ustalania liczby zmiennych potrzebnych do klasyfikacji dokumentów tekstowych ze względu na ich wydźwięk emocjonalny
Autorzy:
Idczak, Adam
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/18105028.pdf
Data publikacji:
2023-05-31
Wydawca:
Główny Urząd Statystyczny
Tematy:
sentiment analysis
document sentiment classification
text mining
logistic regression
naive Bayes classifier
feature selection
correlation
analiza sentymentu
klasyfikacja dokumentów ze względu na wydźwięk emocjonalny
eksploracja tekstu
regresja logistyczna
naiwny klasyfikator Bayesa
dobór cech
korelacja
Opis:
Sentiment analysis of text documents is a very important part of contemporary text mining. The purpose of this article is to present a new technique of text sentiment analysis which can be used with any type of a document-sentiment-classification method. The proposed technique involves feature selection independently of a classifier, which reduces the size of the feature space. Its advantages include intuitiveness and computational noncomplexity. The most important element of the proposed technique is a novel algorithm for the determination of the number of features to be selected sufficient for the effective classification. The algorithm is based on the analysis of the correlation between single features and document labels. A statistical approach, featuring a naive Bayes classifier and logistic regression, was employed to verify the usefulness of the proposed technique. They were applied to three document sets composed of 1,169 opinions of bank clients, obtained in 2020 from a Poland-based bank. The documents were written in Polish. The research demonstrated that reducing the number of terms over 10-fold by means of the proposed algorithm in most cases improves the effectiveness of classification.
Analiza sentymentu, czyli wydźwięku emocjonalnego, dokumentów tekstowych stanowi bardzo ważną część współczesnej eksploracji tekstu (ang. text mining). Celem artykułu jest przedstawienie nowej techniki analizy sentymentu tekstu, która może znaleźć zastosowanie w dowolnej metodzie klasyfikacji dokumentów ze względu na ich wydźwięk emocjonalny. Proponowana technika polega na niezależnym od klasyfikatora doborze cech, co skutkuje zmniejszeniem rozmiaru ich przestrzeni. Zaletami tej propozycji są intuicyjność i prostota obliczeniowa. Zasadniczym elementem omawianej techniki jest nowatorski algorytm ustalania liczby terminów wystarczających do efektywnej klasyfikacji, który opiera się na analizie korelacji pomiędzy pojedynczymi cechami dokumentów a ich wydźwiękiem. W celu weryfikacji przydatności proponowanej techniki zastosowano podejście statystyczne. Wykorzystano dwie metody: naiwny klasyfikator Bayesa i regresję logistyczną. Za ich pomocą zbadano trzy zbiory dokumentów składające się z 1169 opinii klientów jednego z banków działających na terenie Polski uzyskanych w 2020 r. Dokumenty zostały napisane w języku polskim. Badanie pokazało, że kilkunastokrotne zmniejszenie liczby terminów przy zastosowaniu proponowanej techniki na ogół poprawia jakość klasyfikacji.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 5; 40-57
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
On Naive Bayes in Speech Recognition
Autorzy:
Toth, L.
Kocsor, A.
Csirik, J.
Powiązania:
https://bibliotekanauki.pl/articles/908542.pdf
Data publikacji:
2005
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
naiwny klasyfikator Bayesa
rozpoznawanie mowy
ukryty model Markowa
naive Bayes
segment-based speech recognition
hidden Markov model
Opis:
The currently dominant speech recognition technology, hidden Markov modeling, has long been criticized for its simplistic assumptions about speech, and especially for the naive Bayes combination rule inherent in it. Many sophisticated alternative models have been suggested over the last decade. These, however, have demonstrated only modest improvements and brought no paradigm shift in technology. The goal of this paper is to examine why HMM performs so well in spite of its incorrect bias due to the naive Bayes assumption. To do this we create an algorithmic framework that allows us to experiment with alternative combination schemes and helps us understand the factors that influence recognition performance. From the findings we argue that the bias peculiar to the naive Bayes rule is not really detrimental to phoneme classification performance. Furthermore, it ensures consistent behavior in outlier modeling, allowing efficient management of insertion and deletion errors.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2005, 15, 2; 287-294
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Predicting word order universals
Autorzy:
Merlo, P.
Powiązania:
https://bibliotekanauki.pl/articles/103843.pdf
Data publikacji:
2015
Wydawca:
Polska Akademia Nauk. Instytut Podstaw Informatyki PAN
Tematy:
frequency
word order universals
Greenberg’s Universal 20
computational modelling
probabilistic models
Naive Bayes
Opis:
This paper shows a computational learning paradigm to compare and test theories about language universals. Its main contribution lies in the illustration of the encoding and comparison of theories about typological universals to measure the generalisation ability of these theories. In so doing, this method uncovers hidden dependencies between theoretical dimensions and primitives that were considered independent and independently motivated.
Źródło:
Journal of Language Modelling; 2015, 3, 2; 317-344
2299-856X
2299-8470
Pojawia się w:
Journal of Language Modelling
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Propozycja mieszanego przetwarzania półstrukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP3
Proposition of hybrid process model semi structured description of event from fire services rescues operation
Autorzy:
Mirończuk, M.
Maciak, T.
Powiązania:
https://bibliotekanauki.pl/articles/373949.pdf
Data publikacji:
2013
Wydawca:
Centrum Naukowo-Badawcze Ochrony Przeciwpożarowej im. Józefa Tuliszkowskiego
Tematy:
eksploracja tekstu
klasyfikator Bayesa
naiwny klasyfikator Bayesa
ontologia służb ratowniczych
reprezentacja meldunków
reprezentacja przypadków zdarzeń
reprezentacja tekstu
wnioskowanie na podstawie przypadków
Bayes classifier
casebased reasoning
naive Bayes classifier
ontology for rescue service
representation of reports
text mining
text representation
Opis:
W opracowaniu przedstawiono aktualnie rozwijane reprezentacje wiedzy i sposoby opisów zdarzeń, dla systemu wnioskowania na podstawie przypadków zdarzeń służb ratowniczych Państwowej Straży Pożarnej PSP. W artykule zaproponowano sposób ich przetwarzania. Przedstawiony sposób bazuje na klasyfikacji i wyszukiwaniu opisów zdarzeń.
This paper describes a review of actual developed knowledge representation and case representation for fire services cases based reasoning system. The article also describes a method of processing the cases of events. This processing method based on classification and information retrieval.
Źródło:
Bezpieczeństwo i Technika Pożarnicza; 2013, 1; 95-106
1895-8443
Pojawia się w:
Bezpieczeństwo i Technika Pożarnicza
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies