Metody uzupełniania brakujących danych na przykładzie liczby zarejestrowanych pojazdów Missing data imputation on example of number of registered trucks
W artykule podjęto problematykę braków w bazach danych
wykorzystywanych w analizach transportowych. Braki występują
zarówno w wynikach badań ankietowych, jak i innych bazach danych. Ich
źródłem może być odmowa udzielenia odpowiedzi na pytanie, błędny pomiar
lub po prostu dane nie są zbierane dla wszystkich elementów próby.
W artykule wyróżniono trzy typy brakujących danych oraz dwie grupy
metod ich uzupełniania: proste i złożone. Występowanie brakujących danych
może mieć charakter losowy lub może być uzależnione od pewnych
cech charakteryzujących populację. W pierwszym przypadku możliwe
jest zastosowanie pełnej gamy metod uzupełniania brakujących danych.
Pomimo tego częstą praktyką jest usuwanie wybrakowanych rekordów.
Przy dużej próbie jest to metoda dopuszczalna, jednak w małych próbach
powoduje dodatkowe zmniejszenie liczebności próby. Stąd konieczne jest
poszukiwanie innych metod, np. uzupełnianie na podstawie podobnych
rekordów, regresji liniowej lub metoda k-najbliższych sąsiadów. Różne
metody uzupełniania brakujących danych zostały zilustrowane na fikcyjnych
przykładach pokazujących ich istotę. Następnie wybrane metody
wykorzystano do szacowania liczby zarejestrowanych samochodów ciężarowych
w powiatach. Dokonana ocena poszczególnych metod pokazała,
że najgorsze rezultaty uzyskano przy uzupełnianiu wartością średnią, natomiast
najlepsze przy wykorzystaniu regresji liniowej. Zadowalające wyniki
uzyskano również w przypadku metod złożonych. W podsumowaniu
sformułowano wnioski dotyczące zastosowania technik uzupełniania
brakujących danych, między innymi stosowanie usuwania brakujących
rekordów tylko dla dużych prób oraz rezygnacji z uzupełniania wartością
średnią na rzecz innych metod.
In this paper missing data methods application was
presented. Reasons of missing data might be various: caused by
refusal to answer the question in inquiry, carelessness of person
conducting the measurement or data are not collected or collected
only for certain groups. Three types of missingness were listed:
random, partially random and non-random, and two groups of
imputation methods were characterised: simple and complex.
However listwise deletion is widely used but it results in sample
size reduction. Thus other methods should be explored. In paper
different methods of missing data imputation were described
using fictional examples. Next, chosen procedures were used to
deal with missing data in number of trucks registered in districts.
Each method was evaluated and conclusions were formulated. The
worst results were achieved for mean imputation, while the best
for single regression imputation.
Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies
Informacja
SZANOWNI CZYTELNICY!
UPRZEJMIE INFORMUJEMY, ŻE BIBLIOTEKA FUNKCJONUJE W NASTĘPUJĄCYCH GODZINACH:
Wypożyczalnia i Czytelnia Główna: poniedziałek – piątek od 9.00 do 19.00