Autor: Idczak, Adam - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: Remarks on Statistical Measures for Assessing Quality of Scoring Models
Uwagi na temat statystycznych miar oceny jakości modelu scoringowego
Autorzy:: Idczak, Adam Piotr
Powiązania:: https://bibliotekanauki.pl/articles/657092.pdf
Data publikacji:: 2019
Wydawca:: Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:: scoring kredytowy
jakość modelu scoringowego
krzywa Lorenza
krzywa koncentracji
współczynnik Giniego
credit scoring
scoring model quality
Lorenz and concentration curve
Gini index
Opis:: Jednym z podstawowych zadań banków jest udzielanie kredytów i pożyczek pieniężnych. Z punktu widzenia kredytodawcy w procesie kredytowaniem niezwykle istotna jest ocena ryzyka zaniechania płatności zobowiązań potencjalnego kredytobiorcy. W celu selekcji klientów, obok oceny ich zdolności kredytowej, coraz częściej wykorzystuje się modele scoringowe wchodzące w skład metodologii tzw. scoringu kredytowego (creditscoring). W podejściu tym z punktu widzenia kredytodawcy kluczowa jest jakość doboru jednostek, którym kredyt zostanie przyznany. To, czy klasyfikacja dokonywana na podstawie modelu scoringowego jest dobra, może być opisane za pomocą statystycznych miar oceny jakości. Mimo coraz większej popularności metod scoringowych w praktyce gospodarczej literatura dotycząca statystycznych metod oceny ich jakości jest w dalszym ciągu stosunkowo uboga. Ponadto w publikacjach na ten temat często występują rozbieżności w zakresie nazewnictwa oraz konstrukcji poszczególnych miar. W artykule przedstawiono charakterystykę najczęściej stosowanych statystycznych miar oceny jakości modelu scoringowego (m.in. indeksu pseudo Giniego, statystyki Kolmogorova‑Smirnova, krzywej koncentracji), a także podjęto próbę standaryzacji nazewnictwa oraz postaci samych miar jakości modelu scoringowego. Ponadto przedstawione zostało studium przypadku, w którym dokonano analizy porównawczej trzech modeli scoringowych w kontekście ich jakości klasyfikacyjnej.
Granting a credit product has always been at the heart of banking. Simultaneously, banks are obligated to assess the borrower’s credit risk. Apart from creditworthiness, to grant a credit product, banks are using credit scoring more and more often. Scoring models, which are an essential part of credit scoring, are being developed in order to select those clients who will repay their debt. For lenders, high effectiveness of selection based on the scoring model is the primary attribute, so it is crucial to gauge its statistical quality. Several textbooks regarding assessing statistical quality of scoring models are available, there is however no full consistency between names and definitions of particular measures. In this article, the most common statistical measures for assessing quality of scoring models, such as the pseudo Gini index, Kolmogorov‑Smirnov statistic, and concentration curve are reviewed and their statistical characteristics are discussed. Furthermore, the author proposes the application of the well‑known distribution similarity index as a measure of discriminatory power of scoring models. The author also attempts to standardise names and formulas for particular measures in order to finally contrast them in a comparative analysis of credit scoring models.
Źródło:: Acta Universitatis Lodziensis. Folia Oeconomica; 2019, 4, 343; 21-38
0208-6018
2353-7663
Pojawia się w:: Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: Sentiment Classification of Bank Clients’ Reviews Written in the Polish Language
Analiza sentymentu na podstawie polskojęzycznych recenzji klientów banku
Autorzy:: Idczak, Adam Piotr
Powiązania:: https://bibliotekanauki.pl/articles/2033889.pdf
Data publikacji:: 2021-06-30
Wydawca:: Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:: analiza sentymentu
klasyfikacja dokumentów
textmining
regresja logistyczna
naiwny klasyfikator Bayesa
sentiment analysis
opinion mining
text classification
text mining
logistic regression
naive Bayes classifier
Opis:: It is estimated that approximately 80% of all data gathered by companies are text documents. This article is devoted to one of the most common problems in text mining, i.e. text classification in sentiment analysis, which focuses on determining the sentiment of a document. A lack of defined structure of the text makes this problem more challenging. This has led to the development of various techniques used in determining the sentiment of a document. In this paper, a comparative analysis of two methods in sentiment classification, a naive Bayes classifier and logistic regression, was conducted. Analysed texts are written in the Polish language and come from banks. The classification was conducted by means of a bag‑of‑n‑grams approach, where a text document is presented as a set of terms and each term consists of n words. The results show that logistic regression performed better.
Szacuje się, że około 80% wszystkich danych gromadzonych i przechowywanych w systemach informacyjnych przedsiębiorstw ma postać dokumentów tekstowych. Artykuł jest poświęcony jednemu z podstawowych problemów textminingu, tj. klasyfikacji tekstów w analizie sentymentu, która rozumiana jest jako badanie wydźwięku tekstu. Brak określonej struktury dokumentów tekstowych jest przeszkodą w realizacji tego zadania. Taki stan rzeczy wymusił rozwój wielu różnorodnych technik ustalania sentymentu dokumentów. W artykule przeprowadzono analizę porównawczą dwóch metod badania sentymentu: naiwnego klasyfikatora Bayesa oraz regresji logistycznej. Badane teksty są napisane w języku polskim, pochodzą z banków i mają charakter marketingowy. Klasyfikację przeprowadzono, stosując podejście bag‑of‑n‑grams. W ramach tego podejścia dokument tekstowy wyrażony jest za pomocą podciągów składających się z określonej liczby n wyrazów. Uzyskane wyniki pokazały, że lepiej spisała się regresja logistyczna.
Źródło:: Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 2, 353; 43-56
0208-6018
2353-7663
Pojawia się w:: Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 3.

Tytuł:: New algorithm for determining the number of features for the effective sentiment-classification of text documents
Nowy algorytm ustalania liczby zmiennych potrzebnych do klasyfikacji dokumentów tekstowych ze względu na ich wydźwięk emocjonalny
Autorzy:: Idczak, Adam
Korzeniewski, Jerzy
Powiązania:: https://bibliotekanauki.pl/articles/18105028.pdf
Data publikacji:: 2023-05-31
Wydawca:: Główny Urząd Statystyczny
Tematy:: sentiment analysis
document sentiment classification
text mining
logistic regression
naive Bayes classifier
feature selection
correlation
analiza sentymentu
klasyfikacja dokumentów ze względu na wydźwięk emocjonalny
eksploracja tekstu
regresja logistyczna
naiwny klasyfikator Bayesa
dobór cech
korelacja
Opis:: Sentiment analysis of text documents is a very important part of contemporary text mining. The purpose of this article is to present a new technique of text sentiment analysis which can be used with any type of a document-sentiment-classification method. The proposed technique involves feature selection independently of a classifier, which reduces the size of the feature space. Its advantages include intuitiveness and computational noncomplexity. The most important element of the proposed technique is a novel algorithm for the determination of the number of features to be selected sufficient for the effective classification. The algorithm is based on the analysis of the correlation between single features and document labels. A statistical approach, featuring a naive Bayes classifier and logistic regression, was employed to verify the usefulness of the proposed technique. They were applied to three document sets composed of 1,169 opinions of bank clients, obtained in 2020 from a Poland-based bank. The documents were written in Polish. The research demonstrated that reducing the number of terms over 10-fold by means of the proposed algorithm in most cases improves the effectiveness of classification.
Analiza sentymentu, czyli wydźwięku emocjonalnego, dokumentów tekstowych stanowi bardzo ważną część współczesnej eksploracji tekstu (ang. text mining). Celem artykułu jest przedstawienie nowej techniki analizy sentymentu tekstu, która może znaleźć zastosowanie w dowolnej metodzie klasyfikacji dokumentów ze względu na ich wydźwięk emocjonalny. Proponowana technika polega na niezależnym od klasyfikatora doborze cech, co skutkuje zmniejszeniem rozmiaru ich przestrzeni. Zaletami tej propozycji są intuicyjność i prostota obliczeniowa. Zasadniczym elementem omawianej techniki jest nowatorski algorytm ustalania liczby terminów wystarczających do efektywnej klasyfikacji, który opiera się na analizie korelacji pomiędzy pojedynczymi cechami dokumentów a ich wydźwiękiem. W celu weryfikacji przydatności proponowanej techniki zastosowano podejście statystyczne. Wykorzystano dwie metody: naiwny klasyfikator Bayesa i regresję logistyczną. Za ich pomocą zbadano trzy zbiory dokumentów składające się z 1169 opinii klientów jednego z banków działających na terenie Polski uzyskanych w 2020 r. Dokumenty zostały napisane w języku polskim. Badanie pokazało, że kilkunastokrotne zmniejszenie liczby terminów przy zastosowaniu proponowanej techniki na ogół poprawia jakość klasyfikacji.
Źródło:: Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 5; 40-57
0043-518X
Pojawia się w:: Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 4.

Tytuł:: Statystyczne metody klasyfikacji tekstów
Autorzy:: Idczak, Adam
Korzeniewski, Jerzy
Lula, Paweł
Trzpiot, Grażyna
Powiązania:: https://bibliotekanauki.pl/books/34111886.pdf
Data publikacji:: 2022
Wydawca:: Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Opis:: W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.
Dostawca treści:: Biblioteka Nauki