Clustering method based on the analysis of the access request stream in object-oriented databases
Metoda klasteryzacji uwzględniająca charakterystyki strumieni żądań dostępu do danych w obiektowych bazach danych
Tomaszewski, K.
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
obiektowe bazy danych
object-oriented database
Recent studies on modern database management systems consider object-oriented databases as a possible significant extension of the modern database functionalities. However, new functionalities bring an increased processing complexity. This may also result in an increased demand for computing resources and the deterioration of database performance. In this article, the use of clustering methods has been described as one of performance techniques in object-oriented databases. The article includes an introduction to the popular clustering methods discussed so far. Afterwards, a new method has been introduced in order to analyse the access request stream as the basis for a new clustering approach in OODB. Graph techniques are discussed as the basic elements of the familiar clustering methods and their adaptation to the aforementioned new approach. This article also describes limitations of the existing methods and the possible impact on the new technique. Finally, selected algorithm variants are proposed for the new clustering method to improve performance of object-oriented databases.
Rozwój obiektowych baz danych związany jest z rozszerzeniem możliwości współczesnych systemów bazodanowych. Nowe funkcjonalności związane są jednak ze wzrostem złożoności przetwarzania oraz mogą wpływać na pogorszenie wydajności baz danych. W artykule tym omówione zostało zastosowanie klasteryzacji jako jednej z technik poprawy wydajności w obiektowych bazach danych. Artykuł zawiera wprowadzenie do popularnych metod klasteryzacji omawianych dotychczas. Następnie opisana została metoda analizy strumienia żądań dostępu do danych jako podstawa nowej techniki klasteryzacji w OODB. Omówione zostały również właściwości kolorowanych grafów oraz ich zastosowanie w nowej metodzie. Wraz z opisem nowej metody przedstawione zostało możliwe uproszczenie technik grafowych, jak również wybrane warianty modyfikacji algorytmu metody klasteryzacji.
Biuletyn Instytutu Systemów Informatycznych; 2014, 13; 45-50
Biuletyn Instytutu Systemów Informatycznych
Biblioteka Nauki
Semi-supervised learning with the clustering and Decision Trees classifier for the task of cognitive workload study
Częściowo nadzorowane uczenie z zastosowaniem klasteryzacji oraz klasyfikatora Drzew Decyzyjnych w przypadku badania obciążenia poznawczego
Wawrzyk, Martyna
Politechnika Lubelska. Instytut Informatyki
semi-supervised learning
eye tracker
uczenie częściowo nadzorowane
The paper is focused on application of the clustering algorithm and Decision Tress classifier (DTs) as a semi-supervised method for the task of cognitive workload level classification. The analyzed data were collected during examination of Digit Symbol Substitution Test (DSST) with use of eye-tracker device. 26 participants took part in examination as vol-unteers. There were conducted three parts of DSST test with different levels of difficulty. As a results three versions were obtained of data: low, middle and high level of cognitive workload. The case study covered clustering of collected data by using k-means algorithm to detect three clusters or more. The obtained clusters were evaluated by three internal indices to measure the quality of clustering. The David-Boudin index detected the best results in case of four clusters. Based on this information it is possible to formulate the hypothesis of the existence of four clusters. The obtained clus-ters were adopted as classes in supervised learning and have been subjected to classification. The DTs was applied in classification. There were obtained the 0.85 mean accuracy for three-class classification and 0.73 mean accuracy for four-class classification.
Celem artykułu było zastosowanie klasteryzacji wraz z klasyfikatorem Drzew Decyzyjnych jako częściowo nadzoro-wanej metody klasyfikacji poziomu obciążenia poznawczego. Dane przeznaczone do analizy zostały zebrane podczas badania DSST (z ang. Digit Symbol Substitution Test) z użyciem urządzenia eye-tracker. 26 wolontariuszów wzięło udział w badaniu. Zostały przeprowadzone trzy części testu DSST o różnych poziomach trudności. W wyniku tego, otrzymano trzy wersje danych: z niskim, średnim i wysokim poziomem obciążenia poznawczego. Do analizy danych został użyty algorytm klasteryzacji k-means do wyznaczenia trzech lub większej liczby klastrów. Uzyskane klastry zostały poddane ocenie przy użyciu trzech wewnętrznych indeksów w celu zmierzenia jakości klasteryzacji. Indeks David-Boudin’a wykazał najlepsze rezultaty w przypadku istnienia czterech klastrów. Na podstawie tej informacji można sformułować hipotezę, iż dane są podzielone na 4 klastry, co oznaczałoby istnienie dodatkowego poziomu poznawczego. Uzyskane klastry zostały zaadoptowane jako klasy w uczeniu pod nadzorem. Do klasyfikacji danych został użyty klasyfikator Drzew Decyzyjnych . Otrzymano średnią dokładność równą 0.85 w przypadku 3-klasowej klasyfikacji oraz 0.73 średnią dokładność dla 4-klasowej klasyfikacji.
Journal of Computer Sciences Institute; 2020, 15; 214-218
Journal of Computer Sciences Institute
Biblioteka Nauki
Modele systemów podatkowych w państwach Unii Europejskiej
Tax System Models in the EU Countries
Zielińska, Joanna
Sawulski, Jakub
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
system podatkowy
analiza skupień
metoda k-średnich
tax system
k-means method
Celem artykułu jest zidentyfikowanie podobieństw i różnic w systemach podatkowych państw Unii Europejskiej (UE) przez wyszczególnienie podstawowych modeli tych systemów. Dla jego osiągnięcia przeprowadzono analizę skupień metodą k-średnich, której podstawą było 12 parametrów charakteryzujących systemy podatkowe. W ten sposób wyodrębniono pięć modeli systemów podatkowych w państwach UE: zachodnioeuropejski, wschodnioeuropejski, nordycki, brytyjski i mieszany. Ich nazewnictwo wynika z tego, że podstawowe parametry systemu podatkowego są silnie skorelowane z położeniem geograficznym kraju. Prawdopodobnie zatem znaczący wpływ na ukształtowanie systemów podatkowych w państwach UE mają czynniki, takie jak historia, tradycja i kultura. Wyraźne różnice w konstrukcji systemów podatkowych są widoczne zwłaszcza między państwami tzw. starej piętnastki UE a państwami Europy Środkowo-Wschodniej.
The aim of the article is to identify the similarities and differences in the tax systems in the European Union (EU) countries by specifying the basic tax system models. For its implementation we carry out a cluster analysis using the k-means method based on 12 parameters characterising tax systems. We distinguish five models of tax systems in the EU countries: Western European, Eastern European, Nordic, British and mixed model. We use such a nomenclature as the basic parameters of the tax system are strongly correlated with the geographical location of the country. Probably factors such as history, tradition, and culture have a significant impact on the shapes of the tax systems in the EU. Clear differences exist especially between the EU-15 countries and Central and Eastern European countries.
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu; 2022, 66, 1; 168-181
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu
Biblioteka Nauki
Segmentation Analysis For Polish Digital Startups in Years 2015 and 2016
Analiza segmentacyjna polskich startupów cyfrowych w latach 2015–2016
Rostek, Katarzyna
Skala, Agnieszka
Uniwersytet Warszawski. Wydawnictwo Naukowe Wydziału Zarządzania
SOM Kohonen
sieci Kohonena
technologie cyfrowe
The largest study of the digital industry in Poland has been run since 2015 by the Startup Poland Foundation in cooperation with the researchers from the Warsaw University of Technology. Such studies are not easy to carry out because of the heterogeneity of the definitions of basic concepts, including the definition of a startup. This article presents a comparison of examples of this type of study carried out worldwide and identifies the main differences between them. On the basis of the data obtained from the Foundation’s research, a segmentation and comparative analysis of Polish startups was carried out, the results of which are presented in this article. Six main differentiating features of the defined segments were identified, of which the production of hardware by startups and cooperation with academia were of particular interest.
Największe badanie startupów branży cyfrowej w Polsce od 2015 r. wykonuje fundacja Startup Poland we współpracy z naukowcami z Politechniki Warszawskiej. Badania takie nie są łatwe do zrealizowania ze względu na niejednorodność definicji podstawowych pojęć, w tym definicji startupu. W artykule przedstawiono zestawienie przykładowych badań tego typu, wykonywanych na świecie i wskazano główne różnice, jakie między nimi występują. Na podstawie danych otrzymanych w ramach badań fundacji, przeprowadzono analizę segmentacyjną i porównawczą polskich startupów, której wyniki zaprezentowano w artykule. Zidentyfikowano sześć głównych cech różnicujących poszczególne segmenty, wśród których na szczególną uwagę zasługuje fakt produkowania przez startupy hardware’u oraz prowadzenie współpracy z nauką.
Studia i Materiały; 2018, 1(26); 55-67
Studia i Materiały
Biblioteka Nauki
The Number of Groups in an Aggregated Approach in Taxonomy with the Use of Stability Measures and Classical Indices – A Comparative Analysis
Wybór liczby grup w podejściu zagregowanym w taksonomii z wykorzystaniem miar stabilności oraz klasycznych indeksów – porównanie wyników
Rozmus, Dorota
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
podejście zagregowane
stabilność metod taksonomicznych
cluster ensemble
cluster stability
Recently, the two concepts that have been often discussed in the literature on taxonomy are the cluster ensemble and stability. An interesting proposal regarding the combination of these two concepts was presented by Șenbabaoğlu, Michailidis, and Li, who proposed as a measure of stability a proportion of ambiguously clustered pairs (PAC) for selecting the optimal number of groups in the cluster ensemble. This proposal appeared in the field of genetic research, but as the authors themselves write, the method can be successfully used also in other research areas. The aim of this paper is to compare the results of indicating the number of clusters (k parameter) using the aggregated approach in taxonomy and the above-mentioned measure of stability and classical indices (e.g. Caliński–Harabasz, Dunn, Davies–Bouldin).
We współczesnych rozważaniach z dziedziny taksonomii w literaturze często poruszane są dwa pojęcia: podejście zagregowane oraz stabilność metod grupowania. Do tej pory te były one rozważane osobno. Natomiast ciekawą propozycję w zakresie połączenia tych dwóch pojęć przedstawili Y. Șenbabaoğlu, G. Michailidis i J.Z. Li, którzy zasugerowali podejście zagregowane w taksonomii, połączone z zaproponowaną przez siebie miarą stabilności jako kryterium wyboru optymalnej liczby grup (k). Celem artykułu jest porównanie wyników wyboru wartości parametru k za pomocą wspomnianej miary stabilności oraz klasycznych indeksów (np. Calińskiego‑Harabasza, Dunna).
Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 6, 357; 55-67
Acta Universitatis Lodziensis. Folia Oeconomica
Biblioteka Nauki
A step towards the majority-based clustering validation decision fusion method
Krok w kierunku metodyfuzji decyzji opartej na większości dla walidacji wyników klasteryzacji
Panskyi, Taras
Mosorov, Volodymyr
Politechnika Lubelska. Wydawnictwo Politechniki Lubelskiej
clustering validation index
decision fusion method
indeks walidacji klasteryzacji
metoda fuzji decyzji
A variety of clustering validation indices (CVIs) are aimed at validating the results of clustering analysis and determining which clustering algorithm performs best. Different validation indices may be appropriate for different clustering algorithms or partition dissimilarity measures; however, the best suitable index to use in practice remains unknown. A single CVI is generally unable to handle the wide variability and scalability of the data and cope successfully with all the contexts. Therefore, one of the popular approaches is to use a combination of multiple CVIs and fuse their votes into the final decision. This work aims to analyze the majority-based decision fusion method. Thus, the experimental work consisted of designing and implementing the NbClust majority-based decision fusion method and then evaluating the CVIs performance with different clustering algorithms and dissimilarity measures to discover the best validation configuration. Moreover, the authors proposed to enhance the standard majority-based decision fusion method with straightforward rules for the maximum efficiency of the validation procedure. The result showed that the designed enhanced method with an invasive validation configuration could cope with almost all data sets (99%) with different experimental factors (density, dimensionality, number of clusters, etc.).
Różnorodne indeksy walidacji klasteryzacji (CVI) mają na celu walidację wyników analizy skupień i określenie, który algorytm klasteryzacji działa najlepiej. Różne indeksy walidacji mogą być odpowiednie dla różnych algorytmów klasteryzacji lub miar niepodobieństwa podziału; jednak najlepszy walidacyjny indeks do zastosowania w praktyce pozostaje nieznany. Pojedynczy CVI na ogół nie jest w stanie poradzić sobie z dużą zmiennością i skalowalnością danych oraz z powodzeniem poradzić sobie we wszystkich kontekstach. Dlatego jednym z popularnych podejść jest użycie kombinacji wielu CVIs i połączenie ich głosów w ostateczną decyzję. Celem tej pracy jest analiza metody fuzji decyzji opartej na większości. W związku z tym prace eksperymentalne polegały na zaprojektowaniu i wdrożeniu metody NbClust fuzji decyzji opartej na większości, a następnie ocenianie wydajności CVIs za pomocą różnych algorytmów klasteryzacji i miar niepodobieństwa w celu odkrycia najlepszej konfiguracji walidacji. Ponadto autor zaproponował rozszerzenie standardowej metody fuzji decyzji oparta na większości o proste reguły dla maksymalnej efektywności procedury walidacji. Wynik pokazał, że zaprojektowana ulepszona metoda z inwazyjną konfiguracją walidacji może poradzić sobie z prawie wszystkimi zbiorami danych (99%) z różnymi eksperymentalnymi parametrami (gęstość, wymiarowość, liczba klastrów itp.).
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska; 2021, 11, 2; 4-13
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska
Biblioteka Nauki
Clustering large-scale data based on modified affinity propagation algorithm
Serdah, A. M.
Ashour, W. M.
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
clustering algorithm
data clustering algorithm
propagation algorithm
Affinity Propagation
algorytm klastrowania
algorytm propagacji
Traditional clustering algorithms are no longer suitable for use in data mining applications that make use of large-scale data. There have been many large-scale data clustering algorithms proposed in recent years, but most of them do not achieve clustering with high quality. Despite that Affinity Propagation (AP) is effective and accurate in normal data clustering, but it is not effective for large-scale data. This paper proposes two methods for large-scale data clustering that depend on a modified version of AP algorithm. The proposed methods are set to ensure both low time complexity and good accuracy of the clustering method. Firstly, a data set is divided into several subsets using one of two methods random fragmentation or K-means. Secondly, subsets are clustered into K clusters using K-Affinity Propagation (KAP) algorithm to select local cluster exemplars in each subset. Thirdly, the inverse weighted clustering algorithm is performed on all local cluster exemplars to select well-suited global exemplars of the whole data set. Finally, all the data points are clustered by the similarity between all global exemplars and each data point. Results show that the proposed clustering method can significantly reduce the clustering time and produce better clustering result in a way that is more effective and accurate than AP, KAP, and HAP algorithms.
Journal of Artificial Intelligence and Soft Computing Research; 2016, 6, 1; 23-33
Journal of Artificial Intelligence and Soft Computing Research
Biblioteka Nauki
Analysis of vibration signals using short-time analysis and clustering in parameter space for detection of combustion engine state
Boguś, Piotr
Merkisz, Jerzy
Polskie Towarzystwo Naukowe Silników Spalinowych
vibration signals
Diesel engine diagnostic
short-time analysis
sygnały drganiowe
diagnostyka silników wysokoprężnych
analiza krótkoczasowa
The paper presents a short-time analysis of the vibration signals for the diagnosis of Diesel engine of combustion locomotive by recognition of different engine states using the clustering technique. The main aim of the researches was to distinguish between different engine states represent different wear extends. The proposed method of vibration signal analysis consists on sliding a time window along signal in time and observing the changes of some given statistical parameters. The set of this parameter values creates a multidimensional parameter space where the time evolution can be observed. For recognition and detection of different engine system states some clustering techniques in the parameter space were performed. The results show the possibility of distinguishing different cluster centers within the parameter space which can be assigning to different engine states represented the states before and after a general repair.
Combustion Engines; 2019, 58, 2; 83-87
Combustion Engines
Biblioteka Nauki
