Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "feature selection" wg kryterium: Temat


Wyświetlanie 1-9 z 9
Tytuł:
Some Remarks on Feature Ranking Based Wrappers
Wybrane uwagi na temat podejścia wrappers bazującego na rankingu zmiennych
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/904802.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
feature selection
wrappers
feature ranking
Opis:
One of the approaches to feature selection in discrimination or regression is learning models using various feature subsets and evaluating these subsets, basing on model quality criterion (so called wrappers). Heuristic or stochastic search techniques are applied for the choice of feature subsets. The most popular example is stepwise regression which applies hillclimbing. Alternative approach is that features are ranked according to some criterion and then nested models are learned and evaluated. The sophisticated tools of obtaining a feature rankings are tree based ensembles. In this paper we propose the competitive ranking which results in slightly lower classification error. In the empirical study metric and binary noisy variables will be considered. The comparison with a popular stepwise regression also will be given.
Jednym z podejść do problemu selekcji zmiennych w dyskryminacji lub regresji jest wykorzystanie kryterium oceny jakości modeli budowanych na różnych podzbiorach zmiennych (tzw. wrappers). Do wyboru podzbiorów zmiennych stosowane są techniki przeszukiwania (heurystyczne lub stochastyczne). Najpopularniejszym przykładem jest regresja krokowa wykorzystująca strategię wspinaczki. Alternatywne podejście polega na uporządkowaniu zmiennych wg wybranego kryterium, a następnie budowaniu modeli zagnieżdżonych i ich ocenie. Zaawansowanymi narzędziami budowy rankingów są agregowane drzewa klasyfikacyjne. W artykule został zaproponowany konkurujący ranking, który prowadzi do nieco mniejszych błędów klasyfikacji. W studium empirycznym rozważane są zmienne nieistotne metryczne oraz binarne. Przedstawiono też porównanie z popularną regresją krokową.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2013, 286
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
DISCRIMINANT STEPWISE PROCEDURE
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/655859.pdf
Data publikacji:
2014
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
stepwise procedure
feature selection
model selection
Opis:
Stepwise procedure is now probably the most popular tool for automatic feature selection. In the most cases it represents model selection approach which evaluates various feature subsets (so called wrapper). In fact it is heuristic search technique which examines the space of all possible feature subsets. This method is known in the literature under different names and variants. We organize the concepts and terminology, and show several variants of stepwise feature selection from a search strategy point of view. Short review of implementations in R will be given.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2014, 3, 302
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
On Model Selection in Some Regularized Linear Regression Methods
O wyborze postaci modelu w wybranych metodach regularyzowanej regresji liniowej
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/905647.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
model selection
EDC
regularization
linear models
feature selection
Opis:
A dynamic development of various regularization formulas in linear models has been observed recently. Penalizing the values of coefficients affects decreasing of the variance (shrinking coefficients to zero) and feature selection (setting zero for some coefficients). Feature selection via regularized linear models is preferred over popular wrapper methods in high dimension due to less computational burden as well as due to the fact that it is less prone to overfitting. However, estimated coefficients (and as a result quality of the model) depend on tuning parameters. Using model selection criteria available in R implementation does not guarantee that optimal model will be chosen. Having done simulation study we propose to use EDC criterion as an alternative.
W ostatnich latach można zaobserwować dynamiczny rozwój różnych postaci regularyzacji w modelach liniowych. Wprowadzenie kary za duże wartości współczynników skutkuje zmniejszeniem wariancji (wartości współczynników są ,,przyciągane” do zera) oraz eliminacją niektórych zmiennych (niektóre współczynniki się zerują). Selekcja zmiennych za pomocą regularyzowanych modeli liniowych jest w problemach wielowymiarowych preferowana wobec popularnego podejścia polegającego na przeszukiwaniu przestrzeni cech i ocenie podzbiorów zmiennych za pomocą kryterium jakości modelu (wrappers). Przyczyną są mniejsze koszty obliczeń i mniejsza podatność na nadmierne dopasowanie. Jednakże wartości estymowanych współczynników (a więc także jakość modelu) zależą od parametrów regularyzacji. Zaimplementowane w tym celu w programie R kryteria jakości modelu nie gwarantują wyboru modelu optymalnego. Na podstawie przeprowadzonych symulacji w artykule proponuje się zastosowanie kryterium EDC.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2013, 285
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Feature Selection in High Dimensional Regression Problem
Selekcja zmiennych dla regresji w przypadku dużego wymiaru przestrzeni cech
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/904460.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
feature selection
filters
embedded methods
high dimension
Opis:
There are three main approaches to feature selection problem considered in statistical and machine learning literature: filters, wrappers and embedded methods. Filters evaluate and exclude some variables before learning a model. Wrappers use learning algorithm for evaluation of the feature subsets and involve search techniques in the feature subset space. Embedded methods use feature selection as an integral part of learning algorithm. When features outnumber examples, filters or embedded methods are recommended. The goal of this paper is to compare popular filters and embedded methods in high dimensional problem. In the simulation study, redundant variables will be included in the artificially generated data.
Metody selekcji zmiennych dyskutowane obecnie w literaturze dzielone są na trzy główne podejścia: dobór zmiennych dokonywany przed etapem budowy modelu, przeszukiwanie przestrzeni cech i selekcja zmiennych na podstawie oceny jakości modelu oraz metody z wbudowanym mechanizmem selekcji zmiennych. W przypadku, gdy liczba zmiennych jest większa od liczby obserwacji rekomendowane są głównie podejścia pierwsze lub trzecie. Celem artykułu jest porównanie wybranych metod reprezentujących te podejścia w przypadku dużego wymiaru przestrzeni cech. W przeprowadzonych symulacjach, do sztucznie generowanych danych włączano zmienne skorelowane.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2013, 286
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Propozycja agregowanego klasyfikatora kNN z selekcją zmiennych
The proposition of the kNN ensemble with feature selection.
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/424859.pdf
Data publikacji:
2016
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
k nearest neighbors
ensemble
feature selection
ReliefF algorithm
Opis:
Aggregated classification trees have gained recognition due to improved stability, and frequently reduced bias. However, the adaptation of this approach to the k nearest neighbors method (kNN), faces some difficulties: the relatively high stability of these classifiers, and an increase of misclassifications when the variables without discrimination power are present in the training set. In this paper we propose aggregated kNN classifier with feature selection. Its classification accuracy has been verified on the real data with added irrelevant variables.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2016, 3 (53); 32-41
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Identyfikacja potencjalnych nabywców polis ubezpieczeniowych w warunkach mocno niezbilansowanej próby uczącej
Identification of potential purchasers of the insurance policies under hard unbalanced training set
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/424839.pdf
Data publikacji:
2015
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
marketing scoring
weighted k nearest neighbours method
feature selection
Opis:
Having given the data set with executed transactions and customer demographic features one can use marketing scoring to support sales campaign. The discrimination methods used in the scoring often face the problem of imbalance classes and irrelevant variables. In this paper, we analyze the insurance market, where the scoring is performed with a use of the weighted k nearest neighbors and multivariate filters. The feature selection significantly contributed to increasing the number of correctly identified potential purchasers of the insurance policy.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2015, 2 (48); 89-99
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
FEATURE SELECTION AND THE CHESSBOARD PROBLEM
Selekcja zmiennych a problem szachownicy
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/654335.pdf
Data publikacji:
2015
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
problem szachownicy
selekcja zmiennych
ważność zmiennych
chessboard problem
feature selection
feature relevance
Opis:
W artykule podjęto dyskusję nad aspektem przeszukiwania w metodach selekcji zmiennych. Posłużono się znanym z literatury przykładem szachownicy, gdzie zmienne, które indywidualnie nie mają mocy dyskryminacyjnej (mają jednakowe rozkłady w klasach) mogą rozpinać przestrzeń, w której klasy są dobrze separowalne. Uogólniając ten przykład wygenerowano zbiór z trójwymiarową strukturą szachownicy i zmiennymi zakłócającymi, a następnie zweryfikowano metody selekcji zmiennych. Rozważono też możliwość zastosowania analizy skupień jako narzędzia wspomagającego etap dyskryminacji.
Feature selection methods are usually classified into three groups: filters, wrappers and embedded methods. The second important criterion of their classification is an individual or multivariate approach to evaluation of the feature relevance. The chessboard problem is an illustrative example, where two variables which have no individual influence on the dependent variable can be essential to separate the classes. The classifiers which deal well with such data structure are sensitive to irrelevant variables. The generalization error increases with the number of noisy variables. We discuss the feature selection methods in the context of chessboard-like structure in the data with numerous irrelevant variables.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2015, 1, 311
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Locally Regularized Linear Regression in the Valuation of Real Estate
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/465851.pdf
Data publikacji:
2016
Wydawca:
Główny Urząd Statystyczny
Tematy:
large transactional data
local regression
feature selection
regularization
cross-validation
Opis:
Regression methods are used for the valuation of real estate in the comparative approach. The basis for the valuation is a data set of similar properties, for which sales transactions were concluded within a short period of time. Large and standardized databases, which meet the requirements of the Polish Financial Supervision Authority, are created in Poland and used by the banks involved in mortgage lending, for example. We assume that in the case of large data sets of transactions, it is more advantageous to build local regression models than a global model. Additionally, we propose a local feature selection via regularization. The empirical research carried out on three data sets from real estate market confirmed the effectiveness of this approach. We paid special attention to the model quality assessment using cross-validation for estimation of the residual standard error.
Źródło:
Statistics in Transition new series; 2016, 17, 3; 515-524
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Problem of Redundant Variables in Random Forests
Problem zmiennych redundantnych w metodzie lasów losowych
Autorzy:
Kubus, Mariusz
Powiązania:
https://bibliotekanauki.pl/articles/656761.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
lasy losowe
zmienne redundantne
dobór zmiennych
taksonomia cech
random forests
redundant variables
feature selection
clustering of features
Opis:
Lasy losowe są obecnie jedną z najchętniej stosowanych przez praktyków metod klasyfikacji wzorcowej. Na jej popularność wpływ ma możliwość jej stosowania bez czasochłonnego, wstępnego przygotowywania danych do analizy. Las losowy można stosować dla różnego typu zmiennych, niezależnie od ich rozkładów. Metoda ta jest odporna na obserwacje nietypowe oraz ma wbudowany mechanizm doboru zmiennych. Można jednak zauważyć spadek dokładności klasyfikacji w przypadku występowania zmiennych redundantnych. W artykule omawiane są dwa podejścia do problemu zmiennych redundantnych. Rozważane są dwa sposoby przeszukiwania w podejściu polegającym na doborze zmiennych oraz dwa sposoby konstruowania zmiennych syntetycznych w podejściu wykorzystującym grupowanie zmiennych. W eksperymencie generowane są liniowo zależne predyktory i włączane do zbiorów danych rzeczywistych. Metody redukcji wymiarowości zwykle poprawiają dokładność lasów losowych, ale żadna z nich nie wykazuje wyraźnej przewagi.
Random forests are currently one of the most preferable methods of supervised learning among practitioners. Their popularity is influenced by the possibility of applying this method without a time consuming pre‑processing step. Random forests can be used for mixed types of features, irrespectively of their distributions. The method is robust to outliers, and feature selection is built into the learning algorithm. However, a decrease of classification accuracy can be observed in the presence of redundant variables. In this paper, we discuss two approaches to the problem of redundant variables. We consider two strategies of searching for best feature subset as well as two formulas of aggregating the features in the clusters. In the empirical experiment, we generate collinear predictors and include them in the real datasets. Dimensionality reduction methods usually improve the accuracy of random forests, but none of them clearly outperforms the others.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2018, 6, 339; 7-16
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-9 z 9

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies