- Tytuł:
-
Metody uzupełniania brakujących danych na przykładzie liczby zarejestrowanych pojazdów
Missing data imputation on example of number of registered trucks - Autorzy:
- Kulpa, T.
- Powiązania:
- https://bibliotekanauki.pl/articles/192774.pdf
- Data publikacji:
- 2013
- Wydawca:
- Stowarzyszenie Inżynierów i Techników Komunikacji Rzeczpospolitej Polskiej
- Tematy:
-
modelowanie podróży
badania ruchu
bazy danych
trip modelling
traffic research
databases - Opis:
-
W artykule podjęto problematykę braków w bazach danych
wykorzystywanych w analizach transportowych. Braki występują
zarówno w wynikach badań ankietowych, jak i innych bazach danych. Ich
źródłem może być odmowa udzielenia odpowiedzi na pytanie, błędny pomiar
lub po prostu dane nie są zbierane dla wszystkich elementów próby.
W artykule wyróżniono trzy typy brakujących danych oraz dwie grupy
metod ich uzupełniania: proste i złożone. Występowanie brakujących danych
może mieć charakter losowy lub może być uzależnione od pewnych
cech charakteryzujących populację. W pierwszym przypadku możliwe
jest zastosowanie pełnej gamy metod uzupełniania brakujących danych.
Pomimo tego częstą praktyką jest usuwanie wybrakowanych rekordów.
Przy dużej próbie jest to metoda dopuszczalna, jednak w małych próbach
powoduje dodatkowe zmniejszenie liczebności próby. Stąd konieczne jest
poszukiwanie innych metod, np. uzupełnianie na podstawie podobnych
rekordów, regresji liniowej lub metoda k-najbliższych sąsiadów. Różne
metody uzupełniania brakujących danych zostały zilustrowane na fikcyjnych
przykładach pokazujących ich istotę. Następnie wybrane metody
wykorzystano do szacowania liczby zarejestrowanych samochodów ciężarowych
w powiatach. Dokonana ocena poszczególnych metod pokazała,
że najgorsze rezultaty uzyskano przy uzupełnianiu wartością średnią, natomiast
najlepsze przy wykorzystaniu regresji liniowej. Zadowalające wyniki
uzyskano również w przypadku metod złożonych. W podsumowaniu
sformułowano wnioski dotyczące zastosowania technik uzupełniania
brakujących danych, między innymi stosowanie usuwania brakujących
rekordów tylko dla dużych prób oraz rezygnacji z uzupełniania wartością
średnią na rzecz innych metod.
In this paper missing data methods application was presented. Reasons of missing data might be various: caused by refusal to answer the question in inquiry, carelessness of person conducting the measurement or data are not collected or collected only for certain groups. Three types of missingness were listed: random, partially random and non-random, and two groups of imputation methods were characterised: simple and complex. However listwise deletion is widely used but it results in sample size reduction. Thus other methods should be explored. In paper different methods of missing data imputation were described using fictional examples. Next, chosen procedures were used to deal with missing data in number of trucks registered in districts. Each method was evaluated and conclusions were formulated. The worst results were achieved for mean imputation, while the best for single regression imputation. - Źródło:
-
Transport Miejski i Regionalny; 2013, 10; 22-25
1732-5153 - Pojawia się w:
- Transport Miejski i Regionalny
- Dostawca treści:
- Biblioteka Nauki