Temat: Obserwacje odstające - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: Isolation Forests for Symbolic Data as a Tool for Outlier Mining
Lasy separujące dla danych symbolicznych jako narzędzie wykrywania obserwacji odstających
Autorzy:: Pełka, Marcin
Dudek, Andrzej
Powiązania:: https://bibliotekanauki.pl/articles/31233541.pdf
Data publikacji:: 2024
Wydawca:: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:: symbolic data analysis
isolation forest
outliers
analiza danych symbolicznych
lasy separujące
obserwacje odstające
Opis:: Aim: Outlier detection is a key part of every data analysis. Although there are many definitions of outliers that can be found in the literature, all of them emphasise that outliers are objects that are in some way different from other objects in the dataset. There are many different approaches that have been proposed, compared, and analysed for the case of classical data. However, there are only few studies that deal with the problem of outlier detection in symbolic data analysis. The paper aimed to propose how to adapt isolation forest for symbolic data cases. Methodology: An isolation forest for symbolic data is used to detect outliers in four different artificial datasets with a known cluster structure and a known number of outliers Results: The results show that the isolation forest for symbolic data is a fast and efficient tool for outlier mining. Implications and recommendations: As the isolation forest for symbolic data appears to be an efficient tool for outlier detection for artificial data, further studies should focus on real data sets that contain outliers (i.e. credit card fraud dataset), and this approach should be compared with other outlier mining tools (i.e. DBCSAN). The authors recommend using the same initial settings for the isolation forest for symbolic data as the settings that are proposed for the isolation forest for classical data. Originality/value: This paper is the first of its kind, focusing not only on the problem of outlier detection in general, but also extending the well-known isolation forest model for symbolic data cases. Keywords: symbolic data analysis, isolation forest, outliers
Cel: Identyfikacja obserwacji odstających stanowi kluczowy element w analizie danych. Pomimo że w literaturze funkcjonuje wiele różnych definicji, czym są obserwacje odstające, to ogólnie można stwierdzić, że są to obiekty różniące się od pozostałych obserwacji ze zbioru danych. Literatura przedmiotu wskazuje wiele różnorodnych metod, które można wykorzystać w przypadku danych klasycznych. Niestety w przypadku danych symbolicznych brakuje takich analiz. Celem artykułu jest zaproponowanie modyfikacji lasów separujących (isolation forests) dla danych symbolicznych. Metodyka: W artykule wykorzystano lasy separujące dla danych symbolicznych do identyfikacji obserwacji odstających w sztucznych zbiorach danych o znanej strukturze klas i znanej liczbie obserwacji odstających. Wyniki: Otrzymane wyniki wskazują, że lasy separujące dla danych symbolicznych są efektywnym i szybkim narzędziem w identyfikacji obserwacji odstających. Implikacje i rekomendacje: Ponieważ lasy separujące dla danych symbolicznych okazały się skutecznym narzędziem w identyfikacji obserwacji odstających, celem przyszłych badań powinno być przeanalizowanie skuteczności tej metody w przypadku rzeczywistych zbiorów danych (np. zbioru dotyczącego oszustw z użyciem kart kredytowych), a także porównanie tej metody z innymi metodami, które pozwalają odnaleźć obserwacje odstające (np. DBSCAN). Autorzy sugerują, by w przypadku lasów separujących dla danych symbolicznych stosować te same parametry, jakie zwykle stosuje się w przypadku lasów losowych dla danych klasycznych. Oryginalność/wartość: Artykuł nie tylko stanowi ujęcie teorii w zakresie obserwacji odstających, ale jednocześnie proponuje, jak zastosować lasy separujące w przypadku danych symbolicznych.
Źródło:: Econometrics. Ekonometria. Advances in Applied Data Analytics; 2024, 28, 1; 1-10
1507-3866
Pojawia się w:: Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: On the method of identification of atypical observations in time series
O metodzie identyfikacji obserwacji nietypowych w szeregach czasowych
Autorzy:: Oesterreich, Maciej
Powiązania:: https://bibliotekanauki.pl/articles/424783.pdf
Data publikacji:: 2020
Wydawca:: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:: forecasts
identification
multiple regression
time series
outliers
prognozy
identyfikacja
regresja wieloraka
szeregi czasowe
obserwacje odstające
Opis:: The paper presents a method of detecting atypical observations in time series with or without seasonal fluctuations. Unlike classical methods of identifying outliers and influential observations, its essence consists in examining the impact of individual observations both on the fitted values of the model and the forecasts. The exemplification of theoretical considerations is the empirical example of modelling and forecasting daily sales of liquid fuels at X gas station in the period 2012-2014. As a predictor, a classic time series model was used, in which 7-day and 12-month cycle seasonality was described using dummy variables. The data for the period from 01.01.2012 to 30.06.2014 were for the estimation period and the second half of 2014 which was the period of empirical verification of forecasts. The obtained results were compared with other classical methods used to identify influential observations and outliers, i.e. standardized residuals, Cook distances and DFFIT. The calculations were carried out in the R environment and the Statistica package.
W pracy zaproponowano metodę wykrywania obserwacji nietypowych w szeregach czasowych z wahaniami sezonowymi oraz bez tych wahań. Jej istota jej polega na badaniu wpływu poszczególnych obserwacji szeregu na wartości teoretyczne modelu oraz wielkości prognoz zbudowanych na jego podstawie. Egzemplifikacją rozważań o charakterze teoretycznym jest przykład empiryczny dotyczący modelowania i prognozowania dziennej sprzedaży paliw płynnych na stacji paliw X w latach 2012-2014. Dane za okres od 1.01.2012 do 30.06.2014 stanowią okres estymacyjny, a za II półrocze 2014 r. okres empirycznej weryfikacji prognoz. Wyniki otrzymane za jej pomocą zostały porównane z wynikami uzyskanymi innymi metodami służącymi do identyfikacji obserwacji wpływowych oraz odstających, w tym m.in.: reszt standaryzowanych, odległości Cooka oraz DFFIT. Obliczenia przeprowadzono w środowisku R oraz pakiecie Statistica.
Źródło:: Econometrics. Ekonometria. Advances in Applied Data Analytics; 2020, 24, 2; 1-16
1507-3866
Pojawia się w:: Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Informacja

Wyszukujesz frazę "Obserwacje odstające" wg kryterium: Temat

Źródło danych

Dostawca treści

Kolekcja

Rok wydania

Wydawca

Temat

Autor

Typ dokumentu

Język