Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "REGRESSION ANALYSIS" wg kryterium: Temat


Wyświetlanie 1-13 z 13
Tytuł:
The impact of the number of visits and the level of satisfaction on the intention to recommend a tourist destination. The example of Gdańsk
Autorzy:
Wiskulski, Tomasz
Powiązania:
https://bibliotekanauki.pl/articles/1199473.pdf
Data publikacji:
2021-03-31
Wydawca:
Uniwersytet Gdański. Instytut Geografii
Tematy:
Gdańsk
satisfaction
tourism
cluster analysis
logistic regression
Opis:
The article focuses on examining the intention to recommend Gdańsk as a tourist destination to family and friends. The study was based on the results of a survey (Bęben et al., 2018) conducted among 2,508 respondents visiting Gdańsk in 2017. The method of cluster analysis was applied, thanks to which it was possible to divide the respondents into three clusters. Then, logistic regression was used to analyze the variables influencing the intention to recommend a destination. The study shows that for the entire sample the level of satisfaction from a visit to Gdańsk remains the factor supporting the decision to recommend a destination. Importantly, the total number of visits to Gdańsk is negatively correlated with the intention to recommend the destination, which proves only partial loyalty.
Źródło:
Journal of Geography, Politics and Society; 2021, 11, 1; 37-43
2084-0497
2451-2249
Pojawia się w:
Journal of Geography, Politics and Society
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Regresja logistyczna dla danych symbolicznych interwałowych
Logistic regression for interval-valued symbolic data
Autorzy:
Pełka, Marcin
Powiązania:
https://bibliotekanauki.pl/articles/424986.pdf
Data publikacji:
2015
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
logistic regression
interval-valued symbolic variables
symbolic data analysis
Opis:
When dealing with real data situation we often have a binary (biomial, dichoto-mous) dependent variable. As the linear probability model is not such a good solution in such a situation there is a need to use nonlinear models. A quite good solution for such a sit-uation is the logistic regression model. The paper presents an adaptation of linear regression model when dealing with symbolic interval-valued variables. Four approaches poposed by de Souza et. al [2011] how to apply such variables are presented. In the empirical part re-sults obtained with the application of artificial and real data sets are shown. The best results are obtained for midpoint and bounds (joint estimation) methods.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2015, 2 (48); 44-52
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Prediction of changes in the tax burden of land plots with the use of multivariate statistical analysis methods
Autorzy:
Dmytrów, Krzysztof
Gnat, Sebastian
Powiązania:
https://bibliotekanauki.pl/articles/424949.pdf
Data publikacji:
2019
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
logistic regression
classification
multivariate statistical analysis
real estate mass appraisal
Opis:
It is believed that the ad valorem tax will increase fiscal burdens. In order to verify this statement, with the use of the Szczecin Algorithm of Real Estates Mass Appraisal, the land plots were appraised and the ad valorem tax was calculated. Next, a training set was sampled, for which the composite variable was calculated by means of three approaches: the TOPSIS method, the Generalised Distance Measure as the composite measure of development (GDM2), and the quasi-TOPSIS. They were the explanatory variables in the logistic regression model. Next, for the test set, changes of tax burden were forecasted. The aim of the research was to check the effectiveness of the presented approach for the estimation of the consequences of introducing the ad valorem tax. The results showed that all three approaches yielded similar results, but GDM2 was the best one. The main finding is that these approaches can be used in the prediction of changes in the tax burden of land plots.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2019, 23, 2; 33-48
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
On the quick estimation of probability of recovery from COVID-19 during first wave of epidemic in India: a logistic regression approach
Autorzy:
Joshi, Hemlata
Azarudheen, S.
Nagaraja, M. S.
Chandraketu, Singh
Powiązania:
https://bibliotekanauki.pl/articles/2107896.pdf
Data publikacji:
2022-06-14
Wydawca:
Główny Urząd Statystyczny
Tematy:
COVID-19
epidemic
coronavirus disease
recovery estimation
logistic regression
logit analysis
Opis:
The COVID-19 pandemic has recently become a threat all across the globe with the rising cases every day and many countries experiencing its outbreak. According to the WHO, the virus is capable of spreading at an exponential rate across countries, and India is now one of the worst-affected country in the world. Researchers all around the world are racing to come up with a cure or treatment for COVID-19, and this is creating extreme pressure on the policy makers and epidemiologists. However, in India the recovery rate has been far better than in other countries, and is steadily improving. Still in such a difficult situation with no effective medicine, it is essential to know if a patient with the COVID-19 is going to recover or die. To meet this end, a model has been developed in this article to estimate the probability of a recovery of a patient based on the demographic characteristics. The study used data published by the Ministry of Health and Family Welfare of India for the empirical analysis.
Źródło:
Statistics in Transition new series; 2022, 23, 2; 197-208
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Multivariate model for the assessment of risk of fetal loss in goat herds
Autorzy:
Czopowicz, M.
Kaba, J.
Szalus-Jordanow, O.
Nowicki, M.
Witkowski, L.
Frymus, T.
Powiązania:
https://bibliotekanauki.pl/articles/30195.pdf
Data publikacji:
2012
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
multivariate analysis
risk assessment
risk
fetal loss
goat
herd
abortion
logistic regression
Opis:
The observational study was carried out in a population of Polish breeding goats in 2007 to determine the prevalence of fetal loss and identify risk factors contributing to its occurrence. The multivariate model allowing to predict the risk of the occurrence of fetal loss in a herd in a study population was developed. Data on the occurrence of fetal loss, as well as of 28 hypothesized risk factors were collected from goat owners using standardized questionnaire during face-to-face reviews on farms. Moreover, data on the herd-level seroprevalence of four abortifacient infections – Chlamydophila abortus, Leptospira spp., BVDV-1 and Neospora caninum – were included in the final analysis. Fetal loss was reported as occurring often in 12 of 49 goat herds (24.5%). The relationship between the hypothesized risk factors and the occurrence of fetal loss was verified in the multivariate logistic regression (α=0.05). Final analysis yielded four risk factors: regular veterinary supervision at least twice a year (OR 0.188; CI 95% 0.054 – 0.656), frequent occurrence of injuries and fractures (OR 3.172; CI 95% 1.081 – 9.310), frequent occurrence of respiratory signs in adult goats (OR 4.848; CI 95% 1.353 – 17.377) and presence of antibodies to C. abortus in a herd (OR 58.116; CI 95% 1.369 – 2466.438). The accuracy of the multivariate model was analyzed using receiver operating characteristic (ROC) curve technique. Area under the curve was 0.895 (CI 95% 0.801-0.981). For optimal cut-off value of 0.20-0.35 the multivariate model had sensitivity of 75.00% and specificity of 89.19% in predicting fetal loss in a herd.
Źródło:
Polish Journal of Veterinary Sciences; 2012, 15, 1
1505-1773
Pojawia się w:
Polish Journal of Veterinary Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Identification of Reasons of the Outflow from Unemployment at the Local Labour Market
Identyfikacja przyczyn wyrejestrowań z bezrobocia na lokalnym rynku pracy
Autorzy:
Malarska, Anna
Powiązania:
https://bibliotekanauki.pl/articles/905085.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
local labour market
unemployment
stream analysis
logistic regression
multifactoral variance analysis
lokalny rynek pracy
bezrobocie
analiza strumieniowa
regresja logistyczna
wieloczynnikowa analiza wariancji
Opis:
The article is set in the realistic background of the local labor market. The topic taken up herein concerns the stream analysis of unemployment. The drain of the unemployed from the stock is analyzed from the causality viewpoint. Based on individual data regarding the unemployed from the area of the District Job Center in Pabianice those ontogenetic characteristics of the unemployed are identified that in a statistically significant manner influence the deregistering process. Thanks to using methods of logistic regression and multifactoral variance analysis that are further supported by professional statistic software (SPSS v. 14.0) the reader will learn how and under the influence of which demo-social factors chances and dangers of deregistering develop on the local labour market.
Artykuł osadzony jest w konkretnych realiach lokalnego rynku pracy. Podjęta jest w nim tematyka analizy strumieniowej bezrobocia. Pod katem przyczynowości badany jest strumień odpływu bezrobotnych z zasobu. Na podstawie indywidualnych danych o bezrobotnych z obszaru Powiatowego Urzędu Pracy w Pabianicach identyfikowane są te z osobniczych właściwości bezrobotnych. które statystycznie istotnie oddziałują na proces wyrejestrowań. Dzięki zastosowaniu metod regresji logistycznej i wieloczynnikowej analizy wariancji wspomaganych profesjonalnym oprogramowaniem statystycznym (SPSS v,14.0) Czytelnik dowie się. jak i pod wpływem jakich demograficzno-społecznych czynników kształtują się szanse i zagrożenia wyrejestrowań na lokalnym rynku pracy.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2008, 224
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Logistic regression and classification tree methods as elements of diagnosis in cardiology
Metody regresji logistycznej i drzewa klasyfikacyjnego jako elementy procesu diagnostycznego w dziedzinie kardiologii
Autorzy:
Spychała, Anna
Skrzypek, Michał
Niewiadomska, Ewa
Powiązania:
https://bibliotekanauki.pl/articles/1036433.pdf
Data publikacji:
2016
Wydawca:
Śląski Uniwersytet Medyczny w Katowicach
Tematy:
stroke
logistic regression
statistical analysis
classification tree
roc curve
udar
regresja logistyczna
analiza statystyczna
drzewo klasyfikacyjne
krzywa roc
Opis:
INTRODUCTION: The purpose of statistical analysis in research is to identify accurate and reliable conclusions where the researcher has a great deal of sources and information. Usually, one can point to a few different methods that allow the task to be fulfilled, but each time the question arises: which one to choose? MATERIAL AND METHODS: The study was conducted using a database that included 3246 patients in the Second Department of Cardiology, Silesian Medical Centre in Katowice-Ochojec in 2003–2008. We were A model in which the STROKE dependent variable was considered was subjected to statistical analysis, and the results of the analysis suggested selecting the following variables: gender, transfusion, PTCA, IVA, IVM, SVA, aneurysm and hematocrit. RESULTS: The essential factors affecting the occurrence of stroke, according to logistic regression are: aneurysm, transfusion of blood components, prior treatment with PTCA and according to the classification tree: aneurysm and level of hematocrit. CONCLUSIONS: The results achieved by both the two statistical models complemented each other, and by combining them one is able to obtain reliable information to use as a base for the decision-making process.
WSTĘP: Zadaniem analiz statystycznych w badaniach naukowych jest wskazanie trafnych i maksymalnie wiarygodnych wniosków w sytuacji, gdy badacz dysponuje wieloma informacjami. Zwykle można wskazać kilka różnych metod, które pozwalają to zadanie spełnić, jednak za każdym razem nasuwa się pytanie, którą z nich wybrać? MATERIAŁ I METODY: Badania zostały przeprowadzone na bazie danych, która obejmowała 3246 pacjentów przebywających na II Oddziale Kardiologii Górnośląskiego Centrum Medycznego w Katowicach-Ochojcu w latach 2003– –2008. Analizie statystycznej poddano model, w których za zmienną zależną uznano zmienną UDAR, natomiast wyniki przeprowadzonych analiz zasugerowały dobór następujących zmiennych objaśniających: płeć, przetoczenie, PTCA, IVA, IVM, SVA, tętniak i hematokryt. WYNIKI: Czynnikami istotnie wpływającymi na wystąpienie udaru, według regresji logistycznej, są: tętniak, przetoczenie składników krwi i przebyty zabieg PTCA, natomiast według drzewa klasyfikacyjnego – tętniak i poziom hematokrytu. WNIOSKI: Wyniki uzyskane za pomocą obydwu modeli statystycznych dopełniały się, a ich łączenie pozwala na uzyskanie wiarygodnych informacji, stanowiących podstawę procesu decyzyjnego.
Źródło:
Annales Academiae Medicae Silesiensis; 2016, 70; 154-162
1734-025X
Pojawia się w:
Annales Academiae Medicae Silesiensis
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Definition of main pollen season using logistic model
Autorzy:
Ribeiro, H
Cunha, M.
Abreu, I.
Powiązania:
https://bibliotekanauki.pl/articles/50716.pdf
Data publikacji:
2007
Wydawca:
Instytut Medycyny Wsi
Tematy:
Portugal
statistical analysis
pollen concentration
pollen season
airborne pollen
logistic regression
Porto Region
pollen emission model
main pollen season
Opis:
This paper proposes a method to unify the defi nition of the main pollen season based on statistical analysis. For this, an aerobiological study was carried out in Porto region (Portugal), from 2003-2005 using a 7-day Hirst-type volumetric spore trap. To defi ne the main pollen season, a non-linear logistic regression model was fi tted to the values of the accumulated sum of the daily airborne pollen concentration from several allergological species. An important feature of this method is that the main pollen season will be characterized by the model parameters calculated. These parameters are identifi able aspects of the fl owering phenology, and determine not only the beginning and end of the main pollen season, but are also infl uenced by the meteorological conditions. The results obtained with the proposed methodology were also compared with two of the most used percentage methods. The logistic model fi tted well with the sum of accumulated pollen. The explained variance was always higher than 97%, and the exponential part of the predicted curve was well adjusted to the time when higher atmospheric pollen concentration was sampled. The comparison between the different methods tested showed large divergence in the duration and end dates of the main pollen season of the studied species.
Źródło:
Annals of Agricultural and Environmental Medicine; 2007, 14, 2
1232-1966
Pojawia się w:
Annals of Agricultural and Environmental Medicine
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Non‑Metric Data in Household Durable Goods Analysis. Selected Aspects
Analiza danych niemetrycznych w badaniu wyposażenia gospodarstw domowych w dobra trwałe. Wybrane aspekty
Autorzy:
Dziechciarz, Józef
Dziechciarz-Duda, Marta
Powiązania:
https://bibliotekanauki.pl/articles/951729.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza danych niemetrycznych
dobra trwałe
analiza korespondencji
regresja logistyczna
drzewa klasyfikacyjne
CART
gospodarstwa domowe
non‑metric data analysis
durable goods
correspondence analysis
logistic regression
classification trees
cart
households
Opis:
Pomiar wyposażenia gospodarstw domowych jest kluczowy w wielu aspektach oceny stanu społeczno‑ekonomicznego kraju i jego obywateli. Zapotrzebowanie (sprzedaż) jest traktowane jako jeden z kluczowych wskaźników stanu koniunktury w gospodarce. Podobnie analiza i ocena poziomu wyposażenia gospodarstw domowych w dobra trwałe są rozpatrywane w kontekście pomiaru jakości życia. W badaniu wyposażenia gospodarstw domowych mierzy się liczbę i jakość dóbr, w jakie wyposażone są gospodarstwa domowe. Pomiar wyposażenia gospodarstw domowych prowadzony jest najczęściej za pomocą słabych skali pomiarowych, nominalnej i porządkowej. Takie dane wymagają stosowania wyspecjalizowanych narzędzi analizy i modelowania. W opracowaniu zostanie podjęta dyskusja o możliwościach statystycznej analizy takich danych i ich modelowania oraz o problemach wnioskowania na podstawie uzyskanych wyników.
Measurement of household endowment with durables is crucial in many aspects of assessing the social and economic situation of a country and its citizens. The demand (sales) for durables is regarded as one of the key indicators of economic conditions. Similarly, analysis and evaluation of household durable goods are usually considered in the context of measuring the quality of life. The possession of durables is measured by means of the number and quality of goods in households. Measurement of household endowment is conducted usually by means of weak measurement scales, namely nominal and ordinal. Such data require the use of specialised tools for analysis and modelling. This study discusses the possibilities of statistical analysis of such data. Additionally, modelling and problems of inference on the basis of obtained results are discussed.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2017, 4, 330
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Empirical analysis of food security status of agricultural households in the Platinum province of South Africa
Autorzy:
Ijatuyi, E.J.
Omotayo, A.O.
Nkonki-Mandleni, B.
Powiązania:
https://bibliotekanauki.pl/articles/43872.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Przyrodniczy w Poznaniu. Wydawnictwo Uczelniane
Tematy:
North West province
Platinum province zob.North West province
South Africa
empirical analysis
food security
agriculture
household
rural farm
logistic regression
probit model
data analysis
respondent
socio-economic characteristics
Źródło:
Journal of Agribusiness and Rural Development; 2018, 47, 1
1899-5241
Pojawia się w:
Journal of Agribusiness and Rural Development
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
„Śmierć wrogom ojczyzny!”. Przemoc zbiorowa w repertuarze działań skrajnej prawicy w Polsce, 1990–2013
“Death to Enemies of the Homeland!” The Repertoire of Violence in the Collective Actions of the Extreme Right in Poland, 1990–2013
Autorzy:
Płatek, Daniel
Płucienniczak, Piotr
Powiązania:
https://bibliotekanauki.pl/articles/427725.pdf
Data publikacji:
2017
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
skrajna prawica
ruchy społeczne
przemoc zbiorowa
analiza wydarzeń protestacyjnych
regresja logistyczna
extreme right
social movements
collective violence
protest event analysis
logistic regression
Opis:
W ostatnich dekadach obserwujemy wzrost aktywności ruchu skrajnej prawicy w Europie. W porównaniu do lat siedemdziesiątych XX wieku („pierwsza fala” działalności) oraz wczesnych lat dziewięćdziesiątych („druga fala”), na przełomie wieków wyraźnie wzrosła aktywność skrajnie prawicowych organizacji na płaszczyźnie polityki parlamentarnej („trzecia fala”). Nie we wszystkich krajach europejskich skrajna prawica odnosi bowiem sukces na płaszczyźnie parlamentarnej. Sukces bądź porażka są pochodną odmiennych możliwości mobilizacji politycznych, dostępnych tym ugrupowaniom. Na podstawie podejścia analizy struktur możliwości politycznych oraz metodologii badań prasy codziennej odtwarzamy czynniki, które wpływają na ograniczenie lub zwiększenie skali repertuaru przemocy stosowanego przez polską skrajną prawicę. Weryfikujemy tezę mówiącą, że skala przemocy skrajnej prawicy zmniejsza się, kiedy ruch podlega formalizacji, w porównaniu z okresami, kiedy żadna z organizacji należących do ruchu nie jest obecna na arenie parlamentarnej. W artykule kreślimy ilościowy obraz repertuaru przemocy wykorzystywanego przez polską skrajną prawicę. Badania nad aktywnością skrajnej prawicy w Polsce w latach 1990–2013 zostały przeprowadzone za pomocą szeroko stosowanej w socjologii ruchów społecznych metodologii analizy wydarzeń protestacyjnych (Protest Event Analysis, PEA). Metoda ta polega na zbieraniu danych o wydarzeniach protestacyjnych z prasy codziennej, a następnie kodowaniu ich pod kątem różnych charakterystyk.
In the immediate aftermath of the fall of communism in Poland in 1989, popular discussions of the reemergence of the extreme right centered on concerns that it would take the form of ultra-nationalism or post-communist national populism (Pankowski 2009). However, these discussions mainly emphasized sensational events involving militant skinheads and tended to stress the cultural specificity of the nationalist movement. The perceived risk from the extreme right has contributed to the creation of a sociological explanation focused on a restricted number of arguments. Phenomena such as the rise of nationalism and extremism were in fact considered (at the macro level) to be aggressive reactions to frustrations resulting either from the rapid end to a period of economic stabilization and increased expectations or (at the micro level) from status inconsistency. In our article we suggest that Poland’s extreme right should be analyzed as a social movement, with a focus on the meso-organizational and action level, as this has never been done before. Looking at the broad spectrum of actors in the extreme-right milieu, we analyze their forms of action with the aim of understanding the use of violent versus nonviolent forms of action. We study factors that influence the scale of violence employed by the extreme right and verify the thesis that the violence decreases in periods when the movement undergoes a process of formalization, i.e., enters parliamentary politics, and increases otherwise. The paper is based on political opportunity theory and analysis of protest events in the years 1990–2013.
Źródło:
Studia Socjologiczne; 2017, 2(225); 73-107
0039-3371
Pojawia się w:
Studia Socjologiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sentiment Classification of Bank Clients’ Reviews Written in the Polish Language
Analiza sentymentu na podstawie polskojęzycznych recenzji klientów banku
Autorzy:
Idczak, Adam Piotr
Powiązania:
https://bibliotekanauki.pl/articles/2033889.pdf
Data publikacji:
2021-06-30
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza sentymentu
klasyfikacja dokumentów
textmining
regresja logistyczna
naiwny klasyfikator Bayesa
sentiment analysis
opinion mining
text classification
text mining
logistic regression
naive Bayes classifier
Opis:
It is estimated that approximately 80% of all data gathered by companies are text documents. This article is devoted to one of the most common problems in text mining, i.e. text classification in sentiment analysis, which focuses on determining the sentiment of a document. A lack of defined structure of the text makes this problem more challenging. This has led to the development of various techniques used in determining the sentiment of a document. In this paper, a comparative analysis of two methods in sentiment classification, a naive Bayes classifier and logistic regression, was conducted. Analysed texts are written in the Polish language and come from banks. The classification was conducted by means of a bag‑of‑n‑grams approach, where a text document is presented as a set of terms and each term consists of n words. The results show that logistic regression performed better.
Szacuje się, że około 80% wszystkich danych gromadzonych i przechowywanych w systemach informacyjnych przedsiębiorstw ma postać dokumentów tekstowych. Artykuł jest poświęcony jednemu z podstawowych problemów textminingu, tj. klasyfikacji tekstów w analizie sentymentu, która rozumiana jest jako badanie wydźwięku tekstu. Brak określonej struktury dokumentów tekstowych jest przeszkodą w realizacji tego zadania. Taki stan rzeczy wymusił rozwój wielu różnorodnych technik ustalania sentymentu dokumentów. W artykule przeprowadzono analizę porównawczą dwóch metod badania sentymentu: naiwnego klasyfikatora Bayesa oraz regresji logistycznej. Badane teksty są napisane w języku polskim, pochodzą z banków i mają charakter marketingowy. Klasyfikację przeprowadzono, stosując podejście bag‑of‑n‑grams. W ramach tego podejścia dokument tekstowy wyrażony jest za pomocą podciągów składających się z określonej liczby n wyrazów. Uzyskane wyniki pokazały, że lepiej spisała się regresja logistyczna.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 2, 353; 43-56
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
New algorithm for determining the number of features for the effective sentiment-classification of text documents
Nowy algorytm ustalania liczby zmiennych potrzebnych do klasyfikacji dokumentów tekstowych ze względu na ich wydźwięk emocjonalny
Autorzy:
Idczak, Adam
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/18105028.pdf
Data publikacji:
2023-05-31
Wydawca:
Główny Urząd Statystyczny
Tematy:
sentiment analysis
document sentiment classification
text mining
logistic regression
naive Bayes classifier
feature selection
correlation
analiza sentymentu
klasyfikacja dokumentów ze względu na wydźwięk emocjonalny
eksploracja tekstu
regresja logistyczna
naiwny klasyfikator Bayesa
dobór cech
korelacja
Opis:
Sentiment analysis of text documents is a very important part of contemporary text mining. The purpose of this article is to present a new technique of text sentiment analysis which can be used with any type of a document-sentiment-classification method. The proposed technique involves feature selection independently of a classifier, which reduces the size of the feature space. Its advantages include intuitiveness and computational noncomplexity. The most important element of the proposed technique is a novel algorithm for the determination of the number of features to be selected sufficient for the effective classification. The algorithm is based on the analysis of the correlation between single features and document labels. A statistical approach, featuring a naive Bayes classifier and logistic regression, was employed to verify the usefulness of the proposed technique. They were applied to three document sets composed of 1,169 opinions of bank clients, obtained in 2020 from a Poland-based bank. The documents were written in Polish. The research demonstrated that reducing the number of terms over 10-fold by means of the proposed algorithm in most cases improves the effectiveness of classification.
Analiza sentymentu, czyli wydźwięku emocjonalnego, dokumentów tekstowych stanowi bardzo ważną część współczesnej eksploracji tekstu (ang. text mining). Celem artykułu jest przedstawienie nowej techniki analizy sentymentu tekstu, która może znaleźć zastosowanie w dowolnej metodzie klasyfikacji dokumentów ze względu na ich wydźwięk emocjonalny. Proponowana technika polega na niezależnym od klasyfikatora doborze cech, co skutkuje zmniejszeniem rozmiaru ich przestrzeni. Zaletami tej propozycji są intuicyjność i prostota obliczeniowa. Zasadniczym elementem omawianej techniki jest nowatorski algorytm ustalania liczby terminów wystarczających do efektywnej klasyfikacji, który opiera się na analizie korelacji pomiędzy pojedynczymi cechami dokumentów a ich wydźwiękiem. W celu weryfikacji przydatności proponowanej techniki zastosowano podejście statystyczne. Wykorzystano dwie metody: naiwny klasyfikator Bayesa i regresję logistyczną. Za ich pomocą zbadano trzy zbiory dokumentów składające się z 1169 opinii klientów jednego z banków działających na terenie Polski uzyskanych w 2020 r. Dokumenty zostały napisane w języku polskim. Badanie pokazało, że kilkunastokrotne zmniejszenie liczby terminów przy zastosowaniu proponowanej techniki na ogół poprawia jakość klasyfikacji.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 5; 40-57
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-13 z 13

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies