Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "cluster," wg kryterium: Temat


Wyświetlanie 1-11 z 11
Tytuł:
Modification of Hinov Method of Variable Selection for Multiple Cluster Structure Analysis
Modyfikacja metody HINoV selekcji zmiennych w analizie wielokrotnych struktur skupień
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/904539.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
variable choice
multiple cluster structures
Opis:
The original HINoV method (Carmone et al., 1999 ) is not robust to the presence of correlated unimodal and uniform variables among noisy variables (e.g. Korzeniewski, 2012). Moreover, HINoV can be applied only to a single cluster structure analysis. In the article, a modification is proposed consisting in grouping all variables (separately for each reference variable) into two classes. One of the classes consists of variables similar to the reference variable, the other consists of variables which are “less similar”. Similarity between two variables is based on the similarity of the data set division into an established number of clusters (from 2 to 10) measured with the modified Rand index. We arrive at a zero-one matrix describing relations between every pair of variables. Then, a set of variables creating the same (the strongest) cluster structure is selected by means of a criterion optimizing the matrix division into four blocks. After completing the first stage selection one can search another cluster structure applying the same procedure to the set of remaining variables. The modification is assessed in a broad experiment based on 2250 data sets generated from the mixtures of normal distribution.
Oryginalna metoda HINoV jest zupełnie nieodporna na występowanie wśród zmiennych zanieczyszczających strukturę skupień zmiennych skorelowanych jednomodalnych lub równomiernych. Ponadto HINoV można stosować tylko w przypadku jednej struktury skupień.W referacie zaproponowana jest modyfikacja polegająca na tym, by, oddzielnie, dla każdej ustalonej zmiennej, grupować zmienne w dwie klasy zmiennych podobnych i niepodobnych do niej w sensie podobieństwa podziału zbioru danych na daną liczbę skupień (od 2 do 10). Otrzymujemy wówczas macierz zerojedynkową opisującą związki pomiędzy każdą parą zmiennych. Następnie, podzbiór zmiennych tworzących tę samą (najsilniejszą) strukturę skupień wybierany jest za pomocą kryterium optymalizującego podział macierzy na cztery bloki. Po wybraniu zmiennych tworzących jedną strukturę skupień można, w dalszym kroku, wybierać zmienne tworzące następną strukturę skupień spośród zmiennych, które nie zostały wybrane w pierwszym kroku. W celu selekcji właściwego bloku macierzy stosowane jest kryterium stabilności podziału zbioru danych oparte na wielokrotnym losowaniu połowy zbioru i porównywaniu podziałów otrzymanych przy pomocy metody k-średnich. Modyfikacja oceniona jest w obszernym eksperymencie symulacyjnym na 2250 zbiorach danych wygenerowanych w postaci mieszanin rozkładów normalnych.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2013, 286
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Empirical Evaluation of Oclus and Genrandomclust Algorithms of Generating Cluster Structures
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/973546.pdf
Data publikacji:
2014
Wydawca:
Główny Urząd Statystyczny
Tematy:
cluster analysis
cluster structure generation
OCLUS algorithm
genRandomClust algorithm
Opis:
The OCLUS algorithm and genRandomClust algorithm are newest proposals of generating multivariate cluster structures. Both methods have the capacity of controlling cluster overlap, but both do it quite differently. It seems that OCLUS method has much easier, intuitive interpretation. In order to verify this opinion a comparative assessment of both algorithms was carried out. For both methods multiple cluster structures were generated and each of them was grouped into the proper number of clusters using k-means. The groupings were assessed by means of divisions similarity index (modified Rand index) referring to the classification resulting from the generation. The comparison criterion is the behaviour of the overlap parameters of structures. The monotonicity of the overlap parameters with respect to the similarity index is assessed as well as the variability of the similarity index for the fixed value of overlap parameters. Moreover, particular attention is given to checking the existence of an overlap parameter limit for the classical grouping procedures as well as uniform nature of overlap control with respect to all clusters.
Źródło:
Statistics in Transition new series; 2014, 15, 3; 487-494
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An entropy based non-wrapper approach for choosing variables in cluster analysis
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/657955.pdf
Data publikacji:
2011
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
entropy
variable choice
Opis:
W artykule badamy sprawność algorytmu wybierania zmiennych w analizie skupień opartego na entropii (por. Dash, Liu, 2000). Ocena oparta jest na eksperymencie, w którym zbiory generowane są w postaci mieszanin rozkładów normalnych. Wyniki wskazują na to. że metoda nie radzi sobie tak dobrze jak to sugerowali Autorzy.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2011, 255
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Proposal of Modification of Agglomerative Clustering Algorithms
Propozycja modyfikacji alorytmów aglomeracynych konstruowania skupień
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/906270.pdf
Data publikacji:
2009
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
agglomerative algorithms
silhouette indices
Opis:
W pracy przedstawiono propozycję modyfikacji dowolnego algorytmu aglomeracyjnego łączenia obserwacji w skupienia. Ideą modyfikacji jest położenie większego nacisku na łączenie skupień w tych obszarach, w których lokalna gęstość rozkładu obserwacji jest większa. Modyfikację zastosowano do czterech klasycznych algorytmów: aglomeracji pojedynczego połączenia, całkowitego połączenia, środka ciężkości i średniej odległości klasowej. Jakość otrzymywanych grupowań była oceniana przy pomocy odsetka obserwacji o ujemnym indeksie sylwetkowym. Wyniki pokazują, że zaproponowane modyfikacje prawie zawsze poprawiają tradycyjne algorytmy.
In the paper, a modification o f agglomerative clustering algorithms is proposed which can be applied to any kind o f agglomeraitve algorithm. The idea o f die modification is to stress the local density o f observations’ distribution, while performing clustering based on the dissimilarity matrix. The following clustering algorithms are examined: single link, complete link, group average link and centroid link. The quality o f clustering is assessed by means o f the silhouette indices on subsets generated with the Milligan’s Clustgen software. The results prove that the Author’s modifications almost always improve the standard methods.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2009, 228
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Modification of Talavera Method of Variable Selection in Cluster Analysis
Badanie efektywności modyfikacji metody Talavery wybierania zmiennych w analizie skupień na empirycznych zbiorach danych
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/905648.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
variable choice
correlation of variables
Opis:
Talavera has proposed a method of variable selection in cluster analysis for data sets in which only variables measured on nominal scale are present. He examined the method on a couple of data sets basing his assessment on the case in which one can use a data grouping algorithm (he used the COBWEB algorithm). In other approaches some authors try to select variables without referring to any particular grouping method. In the paper, we investigate the efficiency of the Talavera method on real world data sets, referring only to the succession of variables and the greatest jump criterion. Some data sets with variables measured on stronger scales are also investigated after previous descretization.
Talavera zaproponował metodę wybierania zmiennych tworzących strukturę skupień w zbiorze danych dla zbiorów, w których występują tylko zmienne mierzone na skali nominalnej. Autor zbadał tę metodę na kilku empirycznych zbiorach opierając ocenę na tym jak spisywała się metoda w połączeniu z ustalonym sposobem grupowania danych (algorytm COBWEB). W innych podejściach do tego samego zagadnienia autorzy starają się oprzeć wybór zmiennych na samym uporządkowaniu zbioru zmiennych bez odwoływania się do grupowania obserwacji. W artykule badana jest efektywność metody również w odniesieniu do empirycznych zbiorów danych, uzależniona tylko od uporządkowania zmiennych, oparta na kryterium największego skoku. Rozważane są również zbiory z niektórymi zmiennymi mierzonymi na mocniejszych skalach z po uprzedniej dyskretyzacji zmiennych.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2013, 285
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Proposal of New Cluster Analysis Algorithm
Propozycja nowego algorytmu do analizy skupień
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/905670.pdf
Data publikacji:
2006
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
density estimation
kernel estimation
Epanechnikov kernel
Opis:
One of well-known groups of cluster analysis methods is the group of methods based on density estimation. In the paper we propose a new method of defining dusters which consists of two steps. In the first step we find local maxima of the joint distribution thus establishing clusters centres. In the second step we assign observations to one of existing clusters centres. The number of clusters is assumed to be known. In both steps we use similar technique based on the kernel density estimator with the Epanechnikov kernel. The performance of the method is analyzed in an example of application to the Gordon (1999) data. In the analysis the Rousseeuw indices are used to assess clusters cohesion as well as and some comparisons with other methods of defining clusters are presented. The results look promising.
Jedną z dobrze znanych grup metod analizy skupień są metody oparte na szacowaniu gęstości. W artykule zaproponowana jest nowa metoda wyszukiwania skupień, która składa się z dwóch kroków. W pierwszym kroku znajdujemy maksima lokalne rozkładu łącznego, które przyjmujemy jako centra skupień. W drugim kroku każda obserwacja przyłączana jest do jednego z centrów. Zakładamy z góry liczbę skupień. W obydwu krokach używamy tej samej techniki opartej na estymatorze jądrowym funkcji gęstości z jądrem Epanecznikowa. Działanie metody jest przeanalizowane na przykładzie danych Gordona (1999). W analizie wykorzystano indeksy Rousseeuwa spoistości skupień, jak również przedstawiono porównanie z innymi metodami analizowania skupień. Wyniki wyglądają obiecująco.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2006, 196
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A proposal of a new method of choosing starting points for k-means grouping
Propozycja nowej metody wyboru punktów startowych do grupowania metodą k-średnich
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/907035.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
starting points
silhouette indices
k-means method
Opis:
When one groups set elements with the help of k-means it is crucial to choose starting points properly. If they are chosen incorrectly one may arrive at badly grouped elements. In the paper a new method of choosing starting points is proposed. It is based on the distance matrix only. Starting points are chosen so as to improve the classical method of choosing points which are as far from one another as possible. The quality of grouping is assessed by means of silhouette indices — it is compared with the quality of grouping done with randomly chosen starting points and with maximum distance interval method. Sets from Euclidean spaces are generated with the help of CLUSTGEN software written by J. Milligana.
Gdy grupujemy punkty zbioru metodą k-średnich to zasadniczym problemem jest właściwy wybór punktów startowych. Jeśli są one źle wybrane to grupowanie może być złe. W artykule zaproponowana jest nowa metoda wyboru punktów startowych. Metoda ta jest oparta wyłącznie na znajomości macierzy odległości. Punkty startowe są wybierane tak, by poprawić wybór, który otrzymamy przy pomocy metody klasycznej polegającej na wyborze punktów możliwie jak najbardziej od siebie oddalonych. Jakość grupowania jest oceniana przy pomocy indeksów sylwetkowych - porównywana jest z jakością grupowania otrzymanego przy losowym wyborze punktów startowych oraz przy wyborze metodą klasyczną. Zbiory z przestrzeni euklidesowych są generowane przy pomocy programu CLUSTGEN autorstwa J. Milligana.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2008, 216
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparative Assessment of Some Selected Methods of Determining the Number of Clusters in a Data Set
Ocena porównawcza wybranych metod wyznaczających ilość skupień w zbiorze danych
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/906871.pdf
Data publikacji:
2007
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
cluster analysis
number of clusters
computer algorithm
mean shift method
Opis:
This paper is an attempt to compare the performance of an algorithm for determining the number of clusters in a data set proposed by the author with other methods of determining the number of clusters. The idea of the new algorithm is based on the comparison of pseudo cumulative distribution functions of a certain random variable. For a fixed window size we draw К different points and for every point we find the corresponding limiting point in the mean shift procedure. Then we check if the distance (e.g. Euclidean) between every pair of the limiting points is greater than the window size. Analogously we determine the pseudo cumulative distribution functions for different numbers К of clusters. Out of all pseudo cumulative distribution functions we pick the proper one i.e. the last one” (with respect to K) which has a horizontal phase. Other methods of determining the number of clusters in a data set are compared with the proposed algorithm in a number of examples of two dimensional data sets for different clustering methods (k-means clustering and minimum distance agglomeration).
Artykuł niniejszy jest próbą oceny porównawczej algorytmu wyznaczającego ilość skupień w zbiorze danych, zaproponowanego przez autora, z innymi metodami wyznaczania ilości skupień. Algorytm autora oparty jest na porównaniu pseudodystrybuant pewnej zmiennej losowej dla różnych ilości skupień. Ta zmienna losowa jest zdefiniowana w następujący sposób. Dla ustalonego rozmiaru okna losujemy ze zbioru danych К różnych punktów i dla każdego z tych punktów znajdujemy odpowiadający mu punkt graniczny w procedurze średniego przesunięcia próby. Następnie sprawdzamy, czy odległość (np. euklidesowa) pomiędzy każdą parą punktów granicznych jest większa od rozmiaru okna. Analogicznie wyznaczamy pseudodystrybuanty dla różnych ilości К skupień. Ze wszystkich dystrybuant za prawidłowo określającą ilość skupień uznajemy tę, która odpowiada ostatniej (względem K) krzywej, posiadającej fazę poziomą. Inne metody określania liczby skupień w zbiorze danych są porównane z zaproponowanym algorytmem na przykładach kilku dwuwymiarowych zbiorów danych dla dwóch, diametralnie różnych w naturze, metod konstruowania skupień.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2007, 206
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
DETERMINING THE NUMBER OF CLUSTERS FOR MARKETING BINARY DATA
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/452885.pdf
Data publikacji:
2015
Wydawca:
Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Katedra Ekonometrii i Statystyki
Tematy:
cluster analysis
binary data
number of clusters index
market segmentation
Opis:
In the article a new way of determining the number of clusters was proposed focused on data made up of binary variables. An important application aspect is that the data sets on which the new formula was investigated were generated in the way characteristic for the marketing data following the work of Dimitriadou et al. [2002]. The new formula is a modification of the Ratkowsky-Lance index and proved to be better in some respects than this index, which was the best in the mentioned research. The modification proposed is based on measuring the quality of grouping into the predicted number of clusters and running the same index on the twice smaller set of objects comprising dense regions of the original data set.
Źródło:
Metody Ilościowe w Badaniach Ekonomicznych; 2015, 16, 2; 7-12
2082-792X
Pojawia się w:
Metody Ilościowe w Badaniach Ekonomicznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
New Method of Variable Selection for Binary Data Cluster Analysis
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/466036.pdf
Data publikacji:
2016
Wydawca:
Główny Urząd Statystyczny
Tematy:
cluster analysis
market segmentation
selection of variables
binary data
k-means grouping
Opis:
Cluster analysis of binary data is a relatively poorly developed task in comparison with cluster analysis for data measured on stronger scales. For example, at the stage of variable selection one can use many methods arranged for arbitrary measurement scales but the results are usually of poor quality. In practice, the only methods dedicated for variable selection for binary data are the ones proposed by Brusco (2004), Dash et al. (2000) and Talavera (2000). In this paper the efficiency of these methods will be discussed with reference to the marketing type data of Dimitriadou et al. (2002). Moreover, the primary objective is a new proposal of variable selection method based on connecting the filtering of the input set of all variables with grouping of sets of variables similar with respect to similar groupings of objects. The new method is an attempt to link good features of two entirely different approaches to variable selection in cluster analysis, i.e. filtering methods and wrapper methods. The new method of variable selection returns best results when the classical k-means method of objects grouping is slightly modified.
Źródło:
Statistics in Transition new series; 2016, 17, 2; 295-304
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Indeks wyboru liczby skupień w zbiorze danych
Index of the Choice of the Number of Clusters
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/422648.pdf
Data publikacji:
2014
Wydawca:
Główny Urząd Statystyczny
Tematy:
analiza skupień
liczba skupień w zbiorze danych
indeks Calińskiego-Harabasza
indeks Gap
cluster analysis
number of clusters In a data set
Caliński-Harabasz index
Gap index
Opis:
W artykule zaproponowany jest nowy indeks wyznaczający liczbę skupień w zbiorze danych opisanych przez zmienne ciągłe. Indeks oparty jest na wielostopniowym dzieleniu zbioru danych (lub jego części) na dwa skupienia i sprawdzaniu czy podział taki należy zachować czy pominąć. Kryterium sprawdzającym jest indeks Randa przy pomocy którego oceniana jest zgodność podziału pierwotnego na dwa skupienia z podziałem na dwa skupienia zbioru węższego, składającego się ze skupienia mniejszego z podziału pierwotnego i 1/3 skupienia większego z podziału pierwotnego. Podziały dokonywane są przy pomocy metody k-średnich (dla k=2) z wielokrotnym losowym wyborem punktów startowych. Efektywność nowego indeksu została zbadana w obszernym eksperymencie na kilku tysiącach zbiorów danych wygenerowanych w postaci struktur skupień o różnej liczbie zmiennych, skupień, względnej liczebności skupień i różnych wariantach skorelowania zmiennych wewnątrz skupień. Ponadto, zmienny był również stopień separowalności skupień – kontrolowany według algorytmu OCLUS. Podstawą oceny efektywności było porównanie z dwoma innymi indeksami liczby skupień, mającymi w literaturze przedmiotu opinię jednych z najlepszych spośród dotychczas opracowanych tj. indeksem Calińskiego-Harabasza oraz indeksem Gap. Efektywność zaproponowanego indeksu jest znacznie wyższa od obu konkurencyjnych indeksów w przypadkach niezbyt wyraźnej struktury skupień.
In the article a new index for determining the number of clusters in a data set is proposed. The index is based on multiple division of the data set (or a part of it) into two clusters and checking if this division should be retained or neglected. The checking criterion is the Rand index by means of which the extent to which the primary division and the secondo division of the narrower subset consisting of the smaller cluster from the primary division and 1/3 of the bigger cluster coincide. The divisions are made by means of the classical k-means (for k=2) with multiple random choice of starting points. The efficiency of the new index was examined in a broad experiment on a couple of thousands of data sets generated to possess cluster structures with different number of variables, clusters, cluster densities and different variants of within cluster correlation. Moreover, the cluster overlap controlled according to the OCLUS algorithm was also varied. A basis for efficiency assessment was the comparison with two other leading indices i.e. Caliński-Harabasz index and the Gap index. The efficiency of the new index proposed is higher than that of the competition when the cluster structure is not very distinct.
Źródło:
Przegląd Statystyczny; 2014, 61, 2; 169-180
0033-2372
Pojawia się w:
Przegląd Statystyczny
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-11 z 11

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies