Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Outliers" wg kryterium: Temat


Tytuł:
Zastosowanie metod odpornościowych w analizie dokładności pomiarów międzylaboratoryjnych (1). Zasady statystyki odpornościowej, metoda Hubera czyli Algorytm A
Application of Robust Methods in Evaluation the Accuracy of Interlaboratory Measurements. Part 1. Bases of Robust Statistics. Huber Method, i.e. Algorithm A
Autorzy:
Warsza, Z. L.
Volodarsky, E. T.
Powiązania:
https://bibliotekanauki.pl/articles/276805.pdf
Data publikacji:
2017
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
outlier
niepewność pomiaru
odchylenie standardowe
mediana
odporna wartość średnia
rozstęp międzykwartylowy
outliers
uncertainty of measurements
standard deviation
median
robust mean value
interquartile mid-range
Opis:
W dwuczęściowej pracy omówiono zastosowanie statystyki odpornościowej do oceny wartości i niepewności menzurandu uzyskiwanych na podstawie próbki danych doświadczalnych, gdy niektóre z tych danych różnią się istotnie od pozostałych, czyli są outlierami. Metodami odpornościowymi wyznaczono parametry statystyczne wyniku pomiaru ze wszystkich danych, ale wpływ outlierów potraktowano odmiennie. Dla próbek o niewielkiej liczności uzyskano wyniki bardziej wiarygodne niż w sposób klasyczny z odrzuceniem outlierów. Ilustrują to przykłady z porównań międzylaboratoryjnych. W części 1. omówiono podstawowe zasady statystyki odpornościowej oraz iteracyjną metodę odporną podaną przez Hubera, którą w normie ISO 5725-5 nazwano Algorytm A. Jako ilustrację, w symulowanym przykładzie liczbowym, wyznaczono niepewność procedury pomiarowej testowanej przez porównanie wyników badania jednorodnych obiektów w kilku laboratoriach akredytowanych. Oszacowano średnią niepewność metodą klasyczną dla wszystkich danych. Po usunięciu outlierów zastosowano dwie metody odpornościowe – przeskalowanego odchylenia medianowego MADS i metodę Hubera, czyli iteracyjny Algorytm A, którego wyniki były najbardziej wiarygodne.
This two-part paper discusses the use of robust statistics to assess the value and uncertainty of measurand obtained from a sample of experimental data when some of these data differ significantly from the others, i.e. are outliers. The statistical parameters of the measurement result are determined by robust methods from all data, but influence of outliers is treated differently. For small sample sizes results are more reliable than obtained by classical methods with exclusions of outliers. This is illustrated by examples from the interlaboratory key comparisons. Part 1 discusses the basic principles of the robust statistics and the iterative robust method given by Huber, which is called Algorithm A in ISO 5725-5. As illustration in the simulated numerical example, the uncertainty of some measurement method was estimated based on measurements of homogeneous object in several accredited laboratories. The mean uncertainty of this experiment is estimated by classic method for all data and with exclusion of outliers and by two robust methods: rescaled median deviation and by Algorithm-A. The result of last method is the most reliable.
Źródło:
Pomiary Automatyka Robotyka; 2017, 21, 2; 47-55
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie metod odpornościowych w analizie dokładności pomiarów międzylaboratoryjnych (2) Ocena niepewności pomiarów metodą odporną Algorytm S
Application of Robust Methods in Evaluation the Accuracy of Interlaboratory Measurements Part 2. Estimation of the Measurement Uncertainty by Robust Method Algorithm S
Autorzy:
Warsza, Z. L.
Volodarsky, E. T.
Powiązania:
https://bibliotekanauki.pl/articles/274794.pdf
Data publikacji:
2017
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
odporne statystyki
wartości odstające
outlier
niepewność pomiaru
wspólny eksperyment
outliers
uncertainty of measurements
standard deviation
median
robust mean value
interquartile mid-range
Opis:
W artykule omówiono iteracyjną metodę odporną Algorytm S. Stosuje się ją do oszacowania precyzji określonej metody pomiarowej na podstawie wyników badań jednorodnych obiektów w wielu akredytowanych laboratoriach, gdy oceny dokładności pomiarów w niektórych z nich są odstające. Wypadkową odporną ocenę dokładności badanej metody znajduje się na podstawie oszacowania niepewności lub rozstępu wyników pomiarów tą metodą w każdym z laboratoriów, bez odrzucania danych odstających. Rozważania zilustrowano przykładem liczbowym.
This two-part paper discusses the use of robust statistics to assess the value and uncertainty of measurand obtained from a sample of experimental data when some of these data differ significantly from the others, i.e. are outliers. The statistical parameters of the measurement result are determined by robust methods from all data, but influence of outliers is treated differently. For small sample sizes results are more reliable than obtained by classical methods with exclusions of outliers. This is illustrated by examples from the interlaboratory key comparisons. Part 1 discusses the basic principles of the robust statistics and the iterative robust method given by Huber, which is called Algorithm A in ISO 5725-5. As illustration in the simulated numerical example, the uncertainty of some measurement method was estimated based on measurements of homogeneous object in several accredited laboratories. The mean uncertainty of this experiment is estimated by classic method for all data and with exclusion of outliers and by two robust methods: rescaled median deviation and by Algorithm A. The result of last method is the most reliable.
Źródło:
Pomiary Automatyka Robotyka; 2017, 21, 3; 45-51
1427-9126
Pojawia się w:
Pomiary Automatyka Robotyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Robust estimation in interlaboratory measurements with small number of measurements
Autorzy:
Volodarsky, E. T.
Warsza, Z. L.
Powiązania:
https://bibliotekanauki.pl/articles/114483.pdf
Data publikacji:
2015
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
interlaboratory comparisons
proficiency testing of laboratory outliers
robust statistics
precision
uncertainty of measurements
Opis:
In this paper two robust methods of assessing the value and the uncertainty of the measurand from the samples of small number of experimental data are presented and compared. Those methods can be used when some measurements results contain outliers, i.e. when the values of certain measurement results significantly differ from the others. They allow to set a credible statistical parameters of the measurements with the use of all experimental data. The following considerations are illustrated by the numerical examples of multi-laboratory measurement data key comparison. Compared are the results obtained by a classical method with rejection of outliers with two robust methods: a rescaled median absolute deviation MADS and an iterative two-criteria method. The paper also presents the advantages of the robust iterative statistical method in estimating the accuracy of the tested laboratory measurement results during its accreditation on the sample of four elements with outlier. A comparison with the estimates obtained by the standard procedure for evaluating performance accuracy is also provided.
Źródło:
Measurement Automation Monitoring; 2015, 61, 4; 104-110
2450-2855
Pojawia się w:
Measurement Automation Monitoring
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Identyfikacja obserwacji oddalonych w szeregach czasowych
Detection of outliers in time series
Autorzy:
Trzęsiok, Michał
Powiązania:
https://bibliotekanauki.pl/articles/591642.pdf
Data publikacji:
2016
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Identyfikacja obserwacji oddalonych
Klasyfikacja
Szeregi czasowe
Classification
Outliers detection
Time series
Opis:
W artykule uwzględniono różne podejścia do zagadnienia identyfikacji obserwacji oddalonych: podejście dedykowane dla szeregów czasowych i modeli ARIMA, mierniki stopnia oddalenia obserwacji oraz metody klasyfikacyjne. Celem cząstkowym jest zestawienie istniejących metod, ze wskazaniem możliwości pewnych modyfikacji dla polepszenia wyników otrzymywanych z prowadzonej diagnostyki.
The paper presents three different methods for detecting anomalies in time series. The first one is dedicated for time series analysis and ARIMA models. Two other two come from very different background: one is associated with measuring the distance from the given observation to the remaining objects in dataset. The other one belongs to the family of classification methods within machine learning framework. The goal of the paper is to present, compare and illustrate these three different approaches on a real world dataset.
Źródło:
Studia Ekonomiczne; 2016, 265; 95-105
2083-8611
Pojawia się w:
Studia Ekonomiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
O odporności na obserwacje odstające wybranych nieparametrycznych modeli regresji
Robustness for outliers of selected nonparametric regression models
Autorzy:
Trzęsiok, Joanna
Powiązania:
https://bibliotekanauki.pl/articles/587772.pdf
Data publikacji:
2015
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Obserwacje odstające
Odporność
Regresja nieparametryczna
Nonparametric regression
Outliers
Robust
Opis:
Artykuł jest poświęcony zagadnieniu odporności metod regresji na obserwacje odstające występujące w zbiorze danych. W pierwszej części przedstawiono wybrane metody identyfikacji obserwacji nietypowych. Następnie badano odporność trzech nieparametrycznych metod regresji: PPR, POLYMARS i RANDOM FORESTS. Analiz dokonano za pomocą procedur symulacyjnych na rzeczywistym zbiorze danych Mieszkania, w którym wykryto obserwacje odstające. Pomimo dosyć powszechnych przekonań o odporności regresji nieparametrycznej, okazało się, że modele zbudowane na całym zbiorze danych mają istotnie mniejsze zdolności predykcyjne niż modele uzyskane na zbiorze, z którego usunięto obserwacje nietypowe.
The paper presents an important problem of robustness for outliers in regression. In the first part selected outliers detection techniques are described. Moreover, we empirically examine the robustness of the following methods: PPR, POLYMARS and RANDOM FORESTS on real world dataset. We show, that after removing outliers the prediction abilities of the models increase.
Źródło:
Studia Ekonomiczne; 2015, 227; 75-84
2083-8611
Pojawia się w:
Studia Ekonomiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Outliers vs Robustness in Nonparametric Methods of Regression
Obserwacje odstające a problem odporności
Autorzy:
Trzęsiok, Joanna
Powiązania:
https://bibliotekanauki.pl/articles/658308.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
obserwacje odstające
odporność
nieparametryczne metody regresji
outliers
robustness
nonparametric regression methods
Opis:
Artykuł poświęcony jest zagadnieniu odporności metod regresji na obserwacje odstające występujące w zbiorze danych. W pierwszej części przedstawiono wybrane metody identyfikacji obserwacji nietypowych. Następnie badano odporność trzech nieparametrycznych metod regresji: PPR, POLYMARS i RANDOM FORESTS. Analiz dokonano za pomocą procedur symulacyjnych na zbiorach danych, w których wykryto obserwacje odstające. Mimo dosyć powszechnych przekonań o odporności regresji nieparametrycznej okazało się, że modele zbudowane na całych zbiorach danych mają istotnie mniejsze zdolności predykcyjne niż modele uzyskane na zbiorach, z których usunięto obserwacje nietypowe.
The article addresses the question of how robust methods of regression are against outliers in a given data set. In the first part, we presented the selected methods used to detect outliers. Then, we tested the robustness of three nonparametric methods of regression: PPR, POLYMARS, and RANDOM FORESTS. The analysis was conducted applying simulation procedures to the data sets where outliers were detected. Contrary to a relatively common conviction about the robustness of nonparametric regression, the study revealed that the models built on the basis of complete data sets represent a significantly lower predictive capability than models based on the sets from which outliers were discarded.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2018, 4, 337; 99-109
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Fault detection and isolation with robust principal component analysis
Autorzy:
Tharrault, Y.
Mourot, G.
Ragot, J.
Maquin, D.
Powiązania:
https://bibliotekanauki.pl/articles/929927.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
analiza głównych składowych
odporność
detekcja uszkodzeń
lokalizacja uszkodzeń
principal component analysis
robustness
outliers
fault detection
fault isolation
structured residual vector
variable reconstruction
Opis:
Principal component analysis (PCA) is a powerful fault detection and isolation method. However, the classical PCA, which is based on the estimation of the sample mean and covariance matrix of the data, is very sensitive to outliers in the training data set. Usually robust principal component analysis is applied to remove the effect of outliers on the PCA model. In this paper, a fast two-step algorithm is proposed. First, the objective was to find an accurate estimate of the covariance matrix of the data so that a PCA model might be developed that could then be used for fault detection and isolation. A very simple estimate derived from a one-step weighted variance-covariance estimate is used (Ruiz-Gazen, 1996). This is a 'local' matrix of variance which tends to emphasize the contribution of close observations in comparison with distant observations (outliers). Second, structured residuals are used for multiple fault detection and isolation. These structured residuals are based on the reconstruction principle, and the existence condition of such residuals is used to determine the detectable faults and the isolable faults. The proposed scheme avoids the combinatorial explosion of faulty scenarios related to multiple faults to be considered. Then, this procedure for outliers detection and isolation is successfully applied to an example with multiple faults.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2008, 18, 4; 429-442
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Detecting rows and columns of contingency table, which outlie from a total positivity pattern
Autorzy:
Szczęsny, W.
Powiązania:
https://bibliotekanauki.pl/articles/205844.pdf
Data publikacji:
2000
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
monitor graficzny
tablica wielodzielcza
wartość oddalona
computer-intensive methods
contingency table
graphical display
occupational mobility
outliers
scatterplot
total positive dependence
Opis:
It is known that the procedure called Grade Correspondence Analysis (GCA) transforms any bivariate contingency table into an approximation of table with a very regular positive dependence, called total positivity of order two (TP2). This fact is reminded in Sections 2 and 3, illustrated there by the GCA transformation of an artificial contingency table [T_8x6]. A search for rows and/or columns of table [T_8x6], which most strongly outlie from the TP2 pattern, is described in Section 4. Section 5 presents the outliers found in three large contingency tables, containing the occupational mobility data from Britain and Poland and the parliamentary election data from Poland.
Źródło:
Control and Cybernetics; 2000, 29, 4; 1059-1073
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An outlier-robust neuro-fuzzy system for classification and regression
Autorzy:
Siminski, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/1838201.pdf
Data publikacji:
2021
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
outliers
neuro-fuzzy system
clustering algorithm
regression
wyjątki
system neurorozmyty
algorytm grupowania
Opis:
Real life data often suffer from non-informative objects—outliers. These are objects that are not typical in a dataset and can significantly decline the efficacy of fuzzy models. In the paper we analyse neuro-fuzzy systems robust to outliers in classification and regression tasks. We use the fuzzy c-ordered means (FCOM) clustering algorithm for scatter domain partition to identify premises of fuzzy rules. The clustering algorithm elaborates typicality of each object. Data items with low typicalities are removed from further analysis. The paper is accompanied by experiments that show the efficacy of our modified neuro-fuzzy system to identify fuzzy models robust to high ratios of outliers.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2021, 31, 2; 303-319
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Do multi-factor models produce robustresults? Econometric and diagnostic issues in equity risk premia study
Analiza diagnostyczna wieloczynnikowych modeli oszacowań premii za ryzyko akcyjne
Autorzy:
Sakowski, Paweł
Ślepaczuk, Robert
Wywiał, Mateusz
Powiązania:
https://bibliotekanauki.pl/articles/585858.pdf
Data publikacji:
2016
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Asset pricing models
Autocorrelation
Collinearity
Diagnostics
Econometric
Equity risk premia
General Methods of Moments (GMM)
Heteroscedasticity
Maximum Likelihood Estimation (MLE)
Multi-factor models
Normality
Ordinary Least Squares (OLS)
Outliers
Autokorelacja
Diagnostyka modeli
Heteroskedastyczność
Metoda najmniejszych kwadratów
Metoda największej wiarygodności
Modele wieloczynnikowe
Modele wyceny aktywów
Obserwacje odstające
Premia za ryzyko akcyjne
Uogólniona metoda momentów
Współliniowość
Opis:
In recent decades numerous studies verified empirical validity of the CAPM model. Many of them showed that CAPM alone is not able to explain cross-sectional variation of stock returns. Researchers revealed various risk factors which explained outperformance of given groups of stocks or proposed modifications to existing multi-factor models. Surprisingly, we hardly find any discussion in financial literature about potential drawbacks of applying standard OLS method to estimate parameters of such models. Yet, the question of robustness of OLS results to invalid assumptions shouldn't be ignored. This article aims to address diagnostic and econometric issues which can influence results of a time-series multifactor model. Based on the preliminary results of a five-factor model for 81 emerging and developed equity indices [Sakowski, Ślepaczuk and Wywiał, 2016a] obtained with OLS we check the robustness of these results to popular violations of OLS assumptions. We find autocorrelation of error term, heteroscedasticity and ARCH effects for most of 81 regressions and apply an AR-GARCH model using MLE to remove them. We also identify outliers and diagnose collinearity problems. Additionally, we apply GMM to avoid strong assumption of IID error term. Finally, we present comparison of parameters estimates and Rsquared values obtained by three different methods of estimation: OLS, MLE and GMM. We find that results do not differ substantially between these three methods and allow to draw the same conclusions from the investigated five-factor model.
W ostatnich latach liczne prace podejmowały temat empirycznej weryfikacji skuteczności modelu CAPM. Ich autorzy zaproponowali co najmniej kilka czynników ryzyka, które są w stanie wyjaśnić zróżnicowanie przekrojowe zwrotów rozmaitych aktywów finansowych. Zaproponowano także liczne modyfikacje istniejących modeli wieloczynnikowych. W bogatej literaturze rzadko jednak spotykamy dyskusję na temat konsekwencji stosowania standardowej Metody Najmniejszych Kwadratów do oszacowania parametrów tych modeli. Pytanie o odporność oszacowań wieloczynnikowych modeli wyceny aktywów finansowych uzyskanych za pomocą MNK na niespełnienie założeń nie powinno być jednak ignorowane. Celem niniejszego artykułu jest analiza diagnostyczna wyników oszacowań modelu pięcioczynnikowego dla 81 indeksów giełdowych [Sakowski, Ślepaczuk i Wywiał, 2016a]. Weryfikacja założeń modelu wskazuje na obecność autokorelacji i heteroskedastyczności czynnika losowego, a także występowanie efektów ARCH. Analiza obejmuje także identyfikację obserwacji wpływowych oraz weryfikację obecności współliniowości wśród czynników. W końcowej części prezentujemy porównanie oszacowań uzyskanych za pomocą Metody Najmniejszych Kwadratów, Metody Największej Wiarygodności oraz Uogólnionej Metody Momentów. Wszystkie trzy metody dają bardzo zbliżone oszacowania i pozwalają wyciągnąć ten sam zestaw wniosków dla analizowanego modelu pięcioczynnikowego.
Źródło:
Studia Ekonomiczne; 2016, 301; 203-227
2083-8611
Pojawia się w:
Studia Ekonomiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dispersion of estimates of linear regression parameters in case of the deepest regression method
Zróżnicowanie ocen parametrów regresji liniowej uzyskanych metodą najgłębszej regresji
Autorzy:
Pruska, Dorota
Powiązania:
https://bibliotekanauki.pl/articles/907023.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
the deepest regression method
outliers
dispersion
breakdown value
Opis:
The deepest regression method is such a method of estimation of regression parameters that the maximal regression depth characterises the obtained model. In this paper the deeepest regression method is presented and the simulation analysis (Monte Carlo experiments) of dispersion of linear regression parameter estimates is conducted in case of data sets with different numbers of outliers. On the basis of the results of Monte Carlo experiments the characteristics of distribution of regression parameter estimates are determined and compared with the results of analogous experiments conducted with the use of the least square method.
Metoda najgłębszej regresji polega na oszacowaniu parametrów liniowej funkcji regresji w taki sposób, aby uzyskanemu modelowi odpowiadała największa głębia regresyjna. W pracy przedstawiono charakterystykę metody najgłębszej regresji i przeprowadzono symulacyjną analizę (metodami Monte Carlo) zróżnicowania ocen parametrów modelu regresji liniowej uzyskanych tą metodą dla zbiorów danych zawierających różną liczbę obserwacji nietypowych. Na podstawie przeprowadzonych eksperymentów Monte Carlo wyznaczono charakterystyki rozkładu ocen parametrów i dokonano porównania otrzymanych wyników z wynikami analogicznych eksperymentów, w których do estymacji parametrów wykorzystano metodę najmniejszych kwadratów.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2008, 216
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparison of robust estimators for leveling networks in Monte Carlo simulations
Autorzy:
Pokarowska, M.
Powiązania:
https://bibliotekanauki.pl/articles/106789.pdf
Data publikacji:
2016
Wydawca:
Politechnika Warszawska. Wydział Geodezji i Kartografii
Tematy:
leveling network
robust estimation
outliers
gross error
internal reliability index
sieć niwelacyjna
estymacja
elementy odstające
błąd całkowity
wewnętrzny wskaźnik niezawodności
Opis:
We compared the method of least squares (LS), Pope’s iterative data snooping (IDS) and Huber’s M-estimator (HU) in realistic leveling networks, for which the heights or the vertical displacements of points are known. The study was conducted using the Monte Carlo simulation, in which one repeatedly generates sets of observations related to the measurement data, then calculates values of the estimators and, finally, assesses it with respect to the real coordinates. To simulate outliers we used popular mixture models with two or more normal distributions. It is shown that for small, strong networks robust methods IDS and HU are more accurate than LS, but for large, weak networks occurring in practice there is no significant difference between the considered methods in the accuracy of the solution.
Źródło:
Reports on Geodesy and Geoinformatics; 2016, 101; 70-81
2391-8365
2391-8152
Pojawia się w:
Reports on Geodesy and Geoinformatics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wild Image Retrieval with HAAR Features and Hybrid DBSCAN Clustering For 3D Cultural Artefact Landmarks Reconstruction
Autorzy:
Pitchandi, Perumal
Powiązania:
https://bibliotekanauki.pl/articles/2201730.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
outliers removal
culturalartefact objects
3D reconstruction
particle swarm optimization
PSO
spatial clustering
density based spatial clustering
noise clustering algorithm
Opis:
In this digital age large amounts of information, images and videos can be found in the web repositories which accumulate this information. These repositories include personal, historic, cultural, and business event images. Image mining is a limited field in research where most techniques look at processing images instead of mining. Very limited tools are found for mining these images, specifically 3D (Three Dimensional) images. Open source image datasets are not structured making it difficult for query based retrievals. Techniques extracting visual features from these datasets result in low precision values as images lack proper descriptions or numerous samples exist for the same image or images are in 3D. This work proposes an extraction scheme for retrieving cultural artefact based on voxel descriptors. Image anomalies are eliminated with a new clustering technique and the 3D images are used for reconstructing cultural artefact objects. Corresponding cultural 3D images are grouped for a 3D reconstruction engine’s optimized performance. Spatial clustering techniques based on density like PVDBSCAN (Particle Varied Density Based Spatial Clustering of Applications with Noise) eliminate image outliers. Hence, PVDBSCAN is selected in this work for its capability to handle a variety of outliers. Clustering based on Information theory is also used in this work to identify cultural object’s image views which are then reconstructed using 3D motions. The proposed scheme is benchmarked with DBSCAN (Density-Based Spatial Clustering of Applications with Noise) to prove the proposed scheme’s efficiency. Evaluation on a dataset of about 31,000 cultural heritage images being retrieved from internet collections with many outliers indicate the robustness and cost effectiveness of the proposed method towards a reliable and just-in-time 3D reconstruction than existing state-of-the-art techniques.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 3; 269--281
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Isolation Forests for Symbolic Data as a Tool for Outlier Mining
Lasy separujące dla danych symbolicznych jako narzędzie wykrywania obserwacji odstających
Autorzy:
Pełka, Marcin
Dudek, Andrzej
Powiązania:
https://bibliotekanauki.pl/articles/31233541.pdf
Data publikacji:
2024
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
symbolic data analysis
isolation forest
outliers
analiza danych symbolicznych
lasy separujące
obserwacje odstające
Opis:
Aim: Outlier detection is a key part of every data analysis. Although there are many definitions of outliers that can be found in the literature, all of them emphasise that outliers are objects that are in some way different from other objects in the dataset. There are many different approaches that have been proposed, compared, and analysed for the case of classical data. However, there are only few studies that deal with the problem of outlier detection in symbolic data analysis. The paper aimed to propose how to adapt isolation forest for symbolic data cases. Methodology: An isolation forest for symbolic data is used to detect outliers in four different artificial datasets with a known cluster structure and a known number of outliers Results: The results show that the isolation forest for symbolic data is a fast and efficient tool for outlier mining. Implications and recommendations: As the isolation forest for symbolic data appears to be an efficient tool for outlier detection for artificial data, further studies should focus on real data sets that contain outliers (i.e. credit card fraud dataset), and this approach should be compared with other outlier mining tools (i.e. DBCSAN). The authors recommend using the same initial settings for the isolation forest for symbolic data as the settings that are proposed for the isolation forest for classical data. Originality/value: This paper is the first of its kind, focusing not only on the problem of outlier detection in general, but also extending the well-known isolation forest model for symbolic data cases. Keywords: symbolic data analysis, isolation forest, outliers
Cel: Identyfikacja obserwacji odstających stanowi kluczowy element w analizie danych. Pomimo że w literaturze funkcjonuje wiele różnych definicji, czym są obserwacje odstające, to ogólnie można stwierdzić, że są to obiekty różniące się od pozostałych obserwacji ze zbioru danych. Literatura przedmiotu wskazuje wiele różnorodnych metod, które można wykorzystać w przypadku danych klasycznych. Niestety w przypadku danych symbolicznych brakuje takich analiz. Celem artykułu jest zaproponowanie modyfikacji lasów separujących (isolation forests) dla danych symbolicznych. Metodyka: W artykule wykorzystano lasy separujące dla danych symbolicznych do identyfikacji obserwacji odstających w sztucznych zbiorach danych o znanej strukturze klas i znanej liczbie obserwacji odstających. Wyniki: Otrzymane wyniki wskazują, że lasy separujące dla danych symbolicznych są efektywnym i szybkim narzędziem w identyfikacji obserwacji odstających. Implikacje i rekomendacje: Ponieważ lasy separujące dla danych symbolicznych okazały się skutecznym narzędziem w identyfikacji obserwacji odstających, celem przyszłych badań powinno być przeanalizowanie skuteczności tej metody w przypadku rzeczywistych zbiorów danych (np. zbioru dotyczącego oszustw z użyciem kart kredytowych), a także porównanie tej metody z innymi metodami, które pozwalają odnaleźć obserwacje odstające (np. DBSCAN). Autorzy sugerują, by w przypadku lasów separujących dla danych symbolicznych stosować te same parametry, jakie zwykle stosuje się w przypadku lasów losowych dla danych klasycznych. Oryginalność/wartość: Artykuł nie tylko stanowi ujęcie teorii w zakresie obserwacji odstających, ale jednocześnie proponuje, jak zastosować lasy separujące w przypadku danych symbolicznych.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2024, 28, 1; 1-10
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Regression analysis for interval-valued symbolic data versus noisy variables and outliers
Regresja liniowa danych symbolicznych a zmienne zakłócające i obserwacje odstające
Autorzy:
Pełka, Marcin
Dudek, Andrzej
Powiązania:
https://bibliotekanauki.pl/articles/425104.pdf
Data publikacji:
2016
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
regression analysis
interval-valued symbolic data
noisy variables
outliers
Opis:
Regression analysis is perhaps the best known and most widely used method used for the analysis of dependence; that is, for examining the relationship between a set of independent variables (X’s) and a single dependent variable (Y). In general regression, the model is a linear combination of independent variables that corresponds as closely as possible to the dependent variable [Lattin, Carroll, Green 2003, p. 38]. The aim of the article is to present two suitable adaptations for a regression analysis of symbolic interval-valued data (centre method and centre and range method) and to compare their usefulness when dealing with noisy variables and/or outliers. The empirical part of the paper presents the results of simulation studies based on artificial and real data, without noisy variables and/or outliers and with noisy variable and outliers. The results are compared according to the values of two coefficients of determination 2 RL and 2 . RU The results show that usually the centre and range method obtains better results even when the data set contains noisy variables and outliers, but in some cases the centre method obtains better results than the centre and range method.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2016, 2 (52); 35-42
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies