Temat: number of clusters - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: DETERMINING THE NUMBER OF CLUSTERS FOR MARKETING BINARY DATA
Autorzy:: Korzeniewski, Jerzy
Powiązania:: https://bibliotekanauki.pl/articles/452885.pdf
Data publikacji:: 2015
Wydawca:: Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Katedra Ekonometrii i Statystyki
Tematy:: cluster analysis
binary data
number of clusters index
market segmentation
Opis:: In the article a new way of determining the number of clusters was proposed focused on data made up of binary variables. An important application aspect is that the data sets on which the new formula was investigated were generated in the way characteristic for the marketing data following the work of Dimitriadou et al. [2002]. The new formula is a modification of the Ratkowsky-Lance index and proved to be better in some respects than this index, which was the best in the mentioned research. The modification proposed is based on measuring the quality of grouping into the predicted number of clusters and running the same index on the twice smaller set of objects comprising dense regions of the original data set.
Źródło:: Metody Ilościowe w Badaniach Ekonomicznych; 2015, 16, 2; 7-12
2082-792X
Pojawia się w:: Metody Ilościowe w Badaniach Ekonomicznych
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: Comparative Assessment of Some Selected Methods of Determining the Number of Clusters in a Data Set
Ocena porównawcza wybranych metod wyznaczających ilość skupień w zbiorze danych
Autorzy:: Korzeniewski, Jerzy
Powiązania:: https://bibliotekanauki.pl/articles/906871.pdf
Data publikacji:: 2007
Wydawca:: Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:: cluster analysis
number of clusters
computer algorithm
mean shift method
Opis:: This paper is an attempt to compare the performance of an algorithm for determining the number of clusters in a data set proposed by the author with other methods of determining the number of clusters. The idea of the new algorithm is based on the comparison of pseudo cumulative distribution functions of a certain random variable. For a fixed window size we draw К different points and for every point we find the corresponding limiting point in the mean shift procedure. Then we check if the distance (e.g. Euclidean) between every pair of the limiting points is greater than the window size. Analogously we determine the pseudo cumulative distribution functions for different numbers К of clusters. Out of all pseudo cumulative distribution functions we pick the proper one i.e. the last one” (with respect to K) which has a horizontal phase. Other methods of determining the number of clusters in a data set are compared with the proposed algorithm in a number of examples of two dimensional data sets for different clustering methods (k-means clustering and minimum distance agglomeration).
Artykuł niniejszy jest próbą oceny porównawczej algorytmu wyznaczającego ilość skupień w zbiorze danych, zaproponowanego przez autora, z innymi metodami wyznaczania ilości skupień. Algorytm autora oparty jest na porównaniu pseudodystrybuant pewnej zmiennej losowej dla różnych ilości skupień. Ta zmienna losowa jest zdefiniowana w następujący sposób. Dla ustalonego rozmiaru okna losujemy ze zbioru danych К różnych punktów i dla każdego z tych punktów znajdujemy odpowiadający mu punkt graniczny w procedurze średniego przesunięcia próby. Następnie sprawdzamy, czy odległość (np. euklidesowa) pomiędzy każdą parą punktów granicznych jest większa od rozmiaru okna. Analogicznie wyznaczamy pseudodystrybuanty dla różnych ilości К skupień. Ze wszystkich dystrybuant za prawidłowo określającą ilość skupień uznajemy tę, która odpowiada ostatniej (względem K) krzywej, posiadającej fazę poziomą. Inne metody określania liczby skupień w zbiorze danych są porównane z zaproponowanym algorytmem na przykładach kilku dwuwymiarowych zbiorów danych dla dwóch, diametralnie różnych w naturze, metod konstruowania skupień.
Źródło:: Acta Universitatis Lodziensis. Folia Oeconomica; 2007, 206
0208-6018
2353-7663
Pojawia się w:: Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 3.

Tytuł:: Efficient Stock Portfolio Construction by Means of Clustering
Konstrukcja efektywnego portfela przy użyciu metod analizy skupień
Autorzy:: Korzeniewski, Jerzy
Powiązania:: https://bibliotekanauki.pl/articles/655560.pdf
Data publikacji:: 2018
Wydawca:: Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:: analiza skupień
portfel inwestycyjny
liczba skupień
wskaźnik Sharpa
investment portfolio construction
clustering
number of clusters
Sharpe index
Opis:: Stosując metody statystyczne do optymalizacji swoich decyzji inwestycyjnych, inwestorzy stają przed bardzo istotnym problemem skonstruowania dobrze zdywersyfikowanego portfela inwestycyjnego składającego się z niewielkiej liczby pozycji. Wśród wielu metod stosowanych do konstrukcji takiego portfela są metody wykorzystujące grupowanie wszystkich spółek w homogeniczne grupy spółek, po którym to etapie następuje wybieranie reprezentanta każdej grupy w celu utworzenia ostatecznej postaci portfela. Etap grupowania nie musi pokrywać się z przynależnością sektorową spółek. Grupowanie może być wykonywane za pomocą metod analizy skupień i w tym procesie bardzo istotne jest ustalanie właściwej liczby skupień. Celem niniejszego artykułu jest zaproponowanie nowej techniki konstrukcji portfela inwestycyjnego, odnoszącej się zarówno do ustalenia liczby pozycji w portfelu, jak również do wyboru reprezentantów skupień. Stosowane metody grupowania spółek to klasyczna metoda k‑średnich oraz algorytm PAM (Partitioning Around Medoids). Technika jest testowana na danych 85 największych spółek giełdowych z parkietu warszawskiego z lat 2011–2016. Wyniki są bardzo obiecujące w sensie możliwości opracowania algorytmu opartego na analizie skupień, który prawie nie wymagałby interwencji inwestora.
When investors start to use statistical methods to optimise their stock market investment decisions, one of fundamental problems is constructing a well‑diversified portfolio consisting of a moderate number of positions. Among a multitude of methods applied to the task, there is a group based on dividing all companies into a couple of homogeneous groups followed by picking out a representative from each group to create the final portfolio. The division stage does not have to coincide with the sector affiliation of companies. When the division is performed by means of clustering of companies, a vital part of the process is to establish a good number of clusters. The aim of this article is to present a novel technique of portfolio construction based on establishing a numer of portfolio positions as well as choosing cluster representatives. The grouping methods used in the clustering process are the classical k‑means and the PAM (Partitioning Around Medoids) algorithm. The technique is tested on data concerning the 85 biggest companies from the Warsaw Stock Exchange for the years 2011–2016. The results are satisfactory with respect to the overall possibility of creating a clustering‑based algorithm requiring almost no intervention on the part of the investor.
Źródło:: Acta Universitatis Lodziensis. Folia Oeconomica; 2018, 1, 333
0208-6018
2353-7663
Pojawia się w:: Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 4.

Tytuł:: Kryteria wyboru liczby skupień w binarnym modelu klas ukrytych – analiza symulacyjna
Criteria for Choosing the Number of Clusters of the Binary Latent Class Model – Simulation Analysis
Autorzy:: Kapłon, Robert
Powiązania:: https://bibliotekanauki.pl/articles/1827225.pdf
Data publikacji:: 2010-03-31
Wydawca:: Główny Urząd Statystyczny
Tematy:: analiza klas ukrytych
liczba skupień
kryteria informacyjne
analiza symulacyjna
latent class analysis
the number of clusters
information criteria
simulations
Opis:: Wykorzystanie analizy klas ukrytych (LCA) wymaga przyjęcia a priori liczby klas. W celu rozstrzygnięcia, ile ma ich być, można wykorzystać kryteria informacyjne. Procedura selekcji sprowadza się do: szacowania kilku modeli o różnej liczbie klas, obliczenia wartości kryterium informacyjnego oraz wyboru modelu, dla którego odnotowano najmniejszą wartość tego kryterium. Ponieważ istnieje wiele kryteriów informacyjnych, więc należy zadecydować, które powinno rozstrzygać. Niestety, nie można jednoznacznie wskazać na konkretne kryterium, gdyż w zależności od klasy modelu, zmienia się ich wiarygodność. Taki wniosek wynika z badań symulacyjnych. Biorąc pod uwagę fakt, że najczęściej badania takie dotyczyły mieszanek rozkładów normalnych, dlatego celem niniejszego opracowania jest rozszerzenie tych badań o analizę klas ukrytych.
When using latent class analysis the number of clusters need to be known in advance. In order to decide on this, one can use information criteria. In such a case selection procedure is as follows: estimating a few models with different number of classes, computing information criteria and choosing a model for which a criterion takes the smallest value. Because there are many information criteria one need to determine which of them ought to be decisive. Unfortunately, by virtue of the differences among these criteria, their reliability alter depending on model class. Simulations confirm it as well. Taking into account the fact that simulations mainly concern finite mixtures of normal density functions, therefore in this paper we broaden research to latent class analysis.
Źródło:: Przegląd Statystyczny; 2010, 57, 1; 66-84
0033-2372
Pojawia się w:: Przegląd Statystyczny
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 5.

Tytuł:: Indeks wyboru liczby skupień w zbiorze danych
Index of the Choice of the Number of Clusters
Autorzy:: Korzeniewski, Jerzy
Powiązania:: https://bibliotekanauki.pl/articles/422648.pdf
Data publikacji:: 2014
Wydawca:: Główny Urząd Statystyczny
Tematy:: analiza skupień
liczba skupień w zbiorze danych
indeks Calińskiego-Harabasza
indeks Gap
cluster analysis
number of clusters In a data set
Caliński-Harabasz index
Gap index
Opis:: W artykule zaproponowany jest nowy indeks wyznaczający liczbę skupień w zbiorze danych opisanych przez zmienne ciągłe. Indeks oparty jest na wielostopniowym dzieleniu zbioru danych (lub jego części) na dwa skupienia i sprawdzaniu czy podział taki należy zachować czy pominąć. Kryterium sprawdzającym jest indeks Randa przy pomocy którego oceniana jest zgodność podziału pierwotnego na dwa skupienia z podziałem na dwa skupienia zbioru węższego, składającego się ze skupienia mniejszego z podziału pierwotnego i 1/3 skupienia większego z podziału pierwotnego. Podziały dokonywane są przy pomocy metody k-średnich (dla k=2) z wielokrotnym losowym wyborem punktów startowych. Efektywność nowego indeksu została zbadana w obszernym eksperymencie na kilku tysiącach zbiorów danych wygenerowanych w postaci struktur skupień o różnej liczbie zmiennych, skupień, względnej liczebności skupień i różnych wariantach skorelowania zmiennych wewnątrz skupień. Ponadto, zmienny był również stopień separowalności skupień – kontrolowany według algorytmu OCLUS. Podstawą oceny efektywności było porównanie z dwoma innymi indeksami liczby skupień, mającymi w literaturze przedmiotu opinię jednych z najlepszych spośród dotychczas opracowanych tj. indeksem Calińskiego-Harabasza oraz indeksem Gap. Efektywność zaproponowanego indeksu jest znacznie wyższa od obu konkurencyjnych indeksów w przypadkach niezbyt wyraźnej struktury skupień.
In the article a new index for determining the number of clusters in a data set is proposed. The index is based on multiple division of the data set (or a part of it) into two clusters and checking if this division should be retained or neglected. The checking criterion is the Rand index by means of which the extent to which the primary division and the secondo division of the narrower subset consisting of the smaller cluster from the primary division and 1/3 of the bigger cluster coincide. The divisions are made by means of the classical k-means (for k=2) with multiple random choice of starting points. The efficiency of the new index was examined in a broad experiment on a couple of thousands of data sets generated to possess cluster structures with different number of variables, clusters, cluster densities and different variants of within cluster correlation. Moreover, the cluster overlap controlled according to the OCLUS algorithm was also varied. A basis for efficiency assessment was the comparison with two other leading indices i.e. Caliński-Harabasz index and the Gap index. The efficiency of the new index proposed is higher than that of the competition when the cluster structure is not very distinct.
Źródło:: Przegląd Statystyczny; 2014, 61, 2; 169-180
0033-2372
Pojawia się w:: Przegląd Statystyczny
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Informacja

Wyszukujesz frazę "number of clusters" wg kryterium: Temat

Źródło danych

Dostawca treści

Kolekcja

Rok wydania

Wydawca

Temat

Autor

Typ dokumentu

Język