- Tytuł:
-
Evaluation of resampling methods in the class unbalance problem
Ocena metod repróbkowania w problemie zbiorów niezbilansowanych - Autorzy:
- Kubus, Mariusz
- Powiązania:
- https://bibliotekanauki.pl/articles/424935.pdf
- Data publikacji:
- 2020
- Wydawca:
- Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
- Tematy:
-
class unbalance
resampling
regularized logistic regression
random forests
klasy niezbilansowane
repróbkowanie
regularyzowana regresja logistyczna
lasy losowe - Opis:
-
The purpose of many real world applications is the prediction of rare events, and the training sets are then highly unbalanced. In this case, the classifiers are biased towards the correct prediction of the majority class and they misclassify a minority class, whereas rare events are of the greater interest. To handle this problem, numerous techniques were proposed that balance the data or modify the learning algorithms. The goal of this paper is a comparison of simple random balancing methods with more sophisticated resampling methods that appeared in the literature and are available in R program. Additionally, the authors ask whether learning on the original dataset and using a shifted threshold for classification is not more competitive. The authors provide a survey from the perspective of regularized logistic regression and random forests. The results show that combining random under-sampling with random forests has an advantage over other techniques while logistic regression can be competitive in the case of highly unbalanced data.
Celem wielu praktycznych zastosowań modeli dyskryminacyjnych jest przewidywanie zdarzeń rzadkich. Zbiory uczące są wówczas niezbilansowane. W tym przypadku klasyfikatory mają tendencję do poprawnego klasyfikowania obiektów klasy większościowej i jednocześnie błędnie klasyfikują wiele obiektów klasy mniejszościowej, która jest przedmiotem szczególnego zainteresowania. W celu rozwiązania tego problemu zaproponowano wiele technik, które bilansują dane lub modyfikują algorytmy uczące. Celem artykułu jest porównanie prostych, losowych metod bilansowania z bardziej wyrafinowanymi, które pojawiły się w literaturze. Dodatkowo postawiono pytanie, czy konkurencyjnym podejściem nie jest budowa modelu na oryginalnym zbiorze danych i przesunięcie progu klasyfikacji. Badanie przedstawiono z perspektywy regularyzowanej regresji logistycznej i lasów losowych. Wyniki pokazują, że kombinacja metody under-sampling z lasami losowymi wykazuje przewagę nad innymi technikami, podczas gdy regresja logistyczna może być konkurencyjna w przypadku silnego niezbilansowania. - Źródło:
-
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2020, 24, 1; 39-50
1507-3866 - Pojawia się w:
- Econometrics. Ekonometria. Advances in Applied Data Analytics
- Dostawca treści:
- Biblioteka Nauki