Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "data imputation" wg kryterium: Temat


Wyświetlanie 1-12 z 12
Tytuł:
Missing-data imputation using wearable sensors in heart rate variability
Autorzy:
Tlija, A.
Węgrzyn-Wolska, K.
Istrate, D.
Powiązania:
https://bibliotekanauki.pl/articles/200516.pdf
Data publikacji:
2020
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
data imputation
spline interpolation
linear interpolation
HRV
IoT
Opis:
The objective of this work is to set up a methodology that considers missing data from a connected heartbeat sensor in order to propose a good replacement methodology in the context of heart rate variability (HRV) computation. The framework is a research project, which aims to build a system that can measure stress and other factors influencing the onset and development of heart disease. The research encompasses studying existing methods, and improving them by use of experimental data from case study that describe the participant’s everyday life. We conduct a study to modelize stress from the HRV signal, which is extracted from a heart rate monitor belt connected to a smart watch. This paper describes data recording procedure and data imputation methodology. Missing data is a topic that has been discussed by several authors. The manuscript explains why we choose spline interpolation for data values imputation. We implement a random suppression data procedure and simulate removed data. After that, we implement several algorithms and choose the best one for our case study based on the mean square error.
Źródło:
Bulletin of the Polish Academy of Sciences. Technical Sciences; 2020, 68, 2; 255-261
0239-7528
Pojawia się w:
Bulletin of the Polish Academy of Sciences. Technical Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Influence of missing data imputation method on the classification accuracy of the medical data
Autorzy:
Orczyk, T.
Porwik, P.
Powiązania:
https://bibliotekanauki.pl/articles/334037.pdf
Data publikacji:
2013
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
medical data analysis
missing data
data imputation
classification efficiency
analiza danych medycznych
brakujące dane
przypisanie danych
efektywność klasyfikacji
Opis:
Aim of this study is to show the dangers of filling missing data - particularly medical data. Because there are many dedicated medical expert systems and medical decision support systems, a special attention must be paid on the construction of classifiers. Medical data are almost never complete, and completion of the missing data requires a special care. The safest approach of dealing with missing data would be removing records with missing parameters and/or removing parameters that are missing in the records. Unfortunately reducing data set that is already very small is not always an option. Dangers coming out from data imputation are shown in the article, which presents the influence of selected missing data filling algorithms on the classification accuracy.
Źródło:
Journal of Medical Informatics & Technologies; 2013, 22; 111-116
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Hybrid multiple imputation in a large scale complex survey
Autorzy:
Razzak, Humera
Heumann, Christian
Powiązania:
https://bibliotekanauki.pl/articles/1186925.pdf
Data publikacji:
2019-12-10
Wydawca:
Główny Urząd Statystyczny
Tematy:
complex surveys
high-dimensional data
missing data
multiple imputation
Opis:
Large-scale complex surveys typically contain a large number of variables measured on an even larger number of respondents. Missing data is a common problem in such surveys. Since usually most of the variables in a survey are categorical, multiple imputation requires robust methods for modelling highdimensional categorical data distributions. This paper introduces the 3-stage Hybrid Multiple Imputation (HMI) approach, computationally efficient and easy to implement, to impute complex survey data sets that contain both continuous and categorical variables. The proposed HMI approach involves the application of sequential regression MI techniques to impute the continuous variables by using information from the categorical variables, already imputed by a non-parametric Bayesian MI approach. The proposed approach seems to be a good alternative to the existing approaches, frequently yielding lower root mean square errors, empirical standard errors and standard errors than the others. The HMI method has proven to be markedly superior to the existing MI methods in terms of computational efficiency. The authors illustrate repeated sampling properties of the hybrid approach using simulated data. The results are also illustrated by child data from the multiple indicator survey (MICS) in Punjab 2014.
Źródło:
Statistics in Transition new series; 2019, 20, 4; 33-58
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Review of methods for data sets with missing values and practical applications
Autorzy:
Korczyński, Adam
Powiązania:
https://bibliotekanauki.pl/articles/433946.pdf
Data publikacji:
2014
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
missing data pattern
missing data mechanism
complete-case analysis
available-case analysis
single imputation
likelihood-based methods
multiple imputation
weighting methods
Opis:
The aim of this paper is to revise the traditional methods (complete-case analysis, available-case analysis, single imputation) and current methods (likelihood-based methods, multiple imputation, weighting methods) for handling the problem of missing data and to assess their usefulness in statistical research. The paper provides the terminology and the description of traditional and current methods and algorithms used in the analysis of incomplete data sets. The methods are assessed in terms of the statistical properties of their estimators. An example is provided for the multiple imputation method. The review indicates that current methods outweigh traditional ones in terms of bias reduction, precision and efficiency of the estimation.
Źródło:
Śląski Przegląd Statystyczny; 2014, 12(18); 83-104
1644-6739
Pojawia się w:
Śląski Przegląd Statystyczny
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Bias Reduction of Finite Population Imputation by Kernel Methods
Autorzy:
Pettersson, Nicklas
Powiązania:
https://bibliotekanauki.pl/articles/465881.pdf
Data publikacji:
2013
Wydawca:
Główny Urząd Statystyczny
Tematy:
bayesian bootstrap
boundary and nonresponse bias missing data
multiple imputation
Pólya urn models
real donor imputation
Opis:
Missing data is a nuisance in statistics. Real donor imputation can be used with item nonresponse. A pool of donor units with similar values on auxiliary variables is matched to each unit with missing values. The missing value is then replaced by a copy of the corresponding observed value from a randomly drawn donor. Such methods can to some extent protect against nonresponse bias. But bias also depends on the estimator and the nature of the data. We adopt techniques from kernel estimation to combat this bias. Motivated by Pólya urn sampling, we sequentially update the set of potential donors with units already imputed, and use multiple imputations via Bayesian bootstrap to account for imputation uncertainty. Simulations with a single auxiliary variable show that our imputation method performs almost as well as competing methods with linear data, but better when data is nonlinear, especially with large samples.
Źródło:
Statistics in Transition new series; 2013, 14, 1; 139-160
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparison of incomplete data handling techniques for neuro-fuzzy systems
Autorzy:
Sikora, M.
Simiński, K.
Powiązania:
https://bibliotekanauki.pl/articles/305722.pdf
Data publikacji:
2014
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
incomplete data
marginalization
imputation
neuro-fuzzy system
ANNBFIS
PDS
IFCM
OCS
NPS
Opis:
Real-life data sets sometimes miss some values. The incomplete data needs specialized algorithms or preprocessing that allows the use of the algorithms for complete data. The paper presents a comparison of various techniques for handling incomplete data in the neuro-fuzzy system ANNBFIS. The crucial procedure in the creation of a fuzzy model for the neuro-fuzzy system is the partition of the input domain. The most popular approach (also used in the ANNBFIS) is clustering. The analyzed approaches for clustering incomplete data are: preprocessing (marginalization and imputation) and specialized clustering algorithms (PDS, IFCM, OCS, NPS). The objective of our research is the comparison of the preprocessing techniques and specialized clustering algorithms to find the the most-advantageous technique for handling incomplete data with a neuro-fuzzy system. This approach is also the indirect validation of clustering.
Źródło:
Computer Science; 2014, 15 (4); 441-458
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The problem of imputation of the missing data from the continuous counts of road traffic
Autorzy:
Spławińska, M.
Powiązania:
https://bibliotekanauki.pl/articles/231354.pdf
Data publikacji:
2015
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
ruch drogowy
zbiór danych
przypisanie
dane brakujące
model SARIMA
road traffic
data collection
imputation
missing data
SARIMA model
Opis:
Missing traffic data is an important issue for road administration. Although numerous ways can be found to impute them in foreign literature (inter alia, the most effective method, that is Box-Jenkins models), in Poland, still only proven and simplified methods are applied. The article presents the analyses including an assessment of the completeness of the existing traffic data and works related to the construction of SARIMA model. The study was conducted on the basis of hourly traffic volumes, derived from the continuous traffic counts stations located in the national road network in Poland (Golden River stations) from the years 2005 – 2010. As a result, the proposed model was used to impute the missing data in the form of SARIMA (1.1,1)(0,1,1)168. The newly developed model can be used effectively to fill in the missing required days of measurement for estimating AADT by AASHTO method. In other cases, due to its accuracy and laboriousness of the process, it is not recommended.
Źródło:
Archives of Civil Engineering; 2015, 61, 1; 131-145
1230-2945
Pojawia się w:
Archives of Civil Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Comparison of Selected Multiple Imputation Methods for Continuous Variables – Preliminary Simulation Study Results
Porównanie wybranych metod imputacji wielokrotnej dla zmiennych ilościowych – wstępne wyniki badań symulacyjnych
Autorzy:
Misztal, Małgorzata Aleksandra
Powiązania:
https://bibliotekanauki.pl/articles/656755.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
dane niekompletne
imputacja wielokrotna
analiza głównych składowych
missForest
incomplete data
multiple imputation
principal component analysis
Opis:
Problem występowania danych niekompletnych i ich wpływu na wyniki analiz statystycznych nie jest związany z żadną konkretną dziedziną nauki – pojawia się w ekonomii, socjologii, edukacji, naukach behawioralnych czy medycynie. W przypadku większości klasycznych metod statystycznych wymagana jest kompletna informacja o zmiennych charakteryzujących badane obiekty, a typowym podejściem do brakujących danych jest po prostu ich usunięcie. Prowadzi to jednak do niewiarygodnych i obciążonych wyników analiz i nie jest zalecane w literaturze przedmiotu. Rekomendowaną metodą postępowania z brakującymi danymi jest imputacja wielokrotna. W artykule rozważono kilka wybranych jej metod. Szczególną uwagę zwrócono na wykorzystanie analizy głównych składowych (PCA) jako metody imputacji. Celem pracy była ocena jakości imputacji opartej na PCA na tle dwóch innych technik uzupełniania braków danych: imputacji wielokrotnej za pomocą równań łańcuchowych (MICE) i metody missForest. Porównania metod imputacji dokonano, wykorzystując podejście symulacyjne i generując braki danych w 10 kompletnych zbiorach danych z repozytorium baz danych Uniwersytetu Kalifornijskiego w Irvine, z uwzględnieniem różnych mechanizmów generowania braków danych oraz różnych proporcji (10–50%) brakujących wartości. Do imputacji brakujących wartości zastosowano metodę równań łańcuchowych, metodę missForest oraz metodę opartą na głównych składowych (MIPCA). Znormalizowany pierwiastek kwadratowy błędu średniokwadratowego (NRMSE) wykorzystano jako miarę dokładności imputacji. Na podstawie przeprowadzonych analiz metoda missForest może być rekomendowana jako ta metoda wielokrotnej imputacji, która zapewnia najwyższą dokładność imputacji braków danych. Imputacja oparta na analizie głównych składowych (PCA) nie prowadzi do zadowalających wyników.
The problem of incomplete data and its implications for drawing valid conclusions from statistical analyses is not related to any particular scientific domain, it arises in economics, sociology, education, behavioural sciences or medicine. Almost all standard statistical methods presume that every object has information on every variable to be included in the analysis and the typical approach to missing data is simply to delete them. However, this leads to ineffective and biased analysis results and is not recommended in the literature. The state of the art technique for handling missing data is multiple imputation. In the paper, some selected multiple imputation methods were taken into account. Special attention was paid to using principal components analysis (PCA) as an imputation method. The goal of the study was to assess the quality of PCA‑based imputations as compared to two other multiple imputation techniques: multivariate imputation by chained equations (MICE) and missForest. The comparison was made by artificially simulating different proportions (10–50%) and mechanisms of missing data using 10 complete data sets from the UCI repository of machine learning databases. Then, missing values were imputed with the use of MICE, missForest and the PCA‑based method (MIPCA). The normalised root mean square error (NRMSE) was calculated as a measure of imputation accuracy. On the basis of the conducted analyses, missForest can be recommended as a multiple imputation method providing the lowest rates of imputation errors for all types of missingness. PCA‑based imputation does not perform well in terms of accuracy.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2018, 6, 339; 73-98
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computer-Intensive Methods in Traffic Safety Research
Autorzy:
Harold, S.
Powiązania:
https://bibliotekanauki.pl/articles/90673.pdf
Data publikacji:
2002
Wydawca:
Centralny Instytut Ochrony Pracy
Tematy:
data analysis
errors
screening
missing values
unknown values
imputation
data mining
analiza komputerowa
komputer
archiwa
bezpieczeństwo ruchu drogowego
analiza danych
Opis:
The analysis of traffic safety data archives has improved markedly with the development of procedures that are heavily dependent upon computers. Three such procedures are described here. The first procedure involves using computers to assist in the identification and correction of invalid data. The second procedure makes greater computational demands, and involves using computerized algorithms to fill in the ‘‘gaps’’ that typically occur in archival data when information regarding key variables is not available. The third and most computer-intensive procedure involves using data mining techniques to search archives for interesting and important relationships between variables. These procedures are illustrated using examples from data archives that describe the characteristics of traffic accidents in the USA and Australia.
Źródło:
International Journal of Occupational Safety and Ergonomics; 2002, 8, 3; 353-363
1080-3548
Pojawia się w:
International Journal of Occupational Safety and Ergonomics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Missing data estimation based on the chaining technique in survey sampling
Autorzy:
Singh Thakur, Narendra
Shukla, Diwakar
Powiązania:
https://bibliotekanauki.pl/articles/2156986.pdf
Data publikacji:
2022-12-15
Wydawca:
Główny Urząd Statystyczny
Tematy:
estimation
missing data
chaining
imputation
bias
mean squared error (MSE)
factor type (F-T)
chain type estimator
double sampling
Opis:
Sample surveys are often affected by missing observations and non-response caused by the respondents' refusal or unwillingness to provide the requested information or due to their memory failure. In order to substitute the missing data, a procedure called imputation is applied, which uses the available data as a tool for the replacement of the missing values. Two auxiliary variables create a chain which is used to substitute the missing part of the sample. The aim of the paper is to present the application of the Chain-type factor estimator as a means of source imputation for the non-response units in an incomplete sample. The proposed strategies were found to be more efficient and bias-controllable than similar estimation procedures described in the relevant literature. These techniques could also be made nearly unbiased in relation to other selected parametric values. The findings are supported by a numerical study involving the use of a dataset, proving that the proposed techniques outperform other similar ones.
Źródło:
Statistics in Transition new series; 2022, 23, 4; 91-111
1234-7655
Pojawia się w:
Statistics in Transition new series
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Classifiers accuracy improvement based on missing data imputation
Autorzy:
Jordanov, I.
Petrov, N.
Petrozziello, A.
Powiązania:
https://bibliotekanauki.pl/articles/91626.pdf
Data publikacji:
2018
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
machine learning
missing data
model-based imputation
neural networks
random forests
support vector machine
radar signal classification
nauczanie maszynowe
brakujące dane
sieci neuronowe
maszyna wektorów nośnych
klasyfikacja sygnałów radarowych
Opis:
In this paper we investigate further and extend our previous work on radar signal identification and classification based on a data set which comprises continuous, discrete and categorical data that represent radar pulse train characteristics such as signal frequencies, pulse repetition, type of modulation, intervals, scan period, scanning type, etc. As the most of the real world datasets, it also contains high percentage of missing values and to deal with this problem we investigate three imputation techniques: Multiple Imputation (MI); K-Nearest Neighbour Imputation (KNNI); and Bagged Tree Imputation (BTI). We apply these methods to data samples with up to 60% missingness, this way doubling the number of instances with complete values in the resulting dataset. The imputation models performance is assessed with Wilcoxon’s test for statistical significance and Cohen’s effect size metrics. To solve the classification task, we employ three intelligent approaches: Neural Networks (NN); Support Vector Machines (SVM); and Random Forests (RF). Subsequently, we critically analyse which imputation method influences most the classifiers’ performance, using a multiclass classification accuracy metric, based on the area under the ROC curves. We consider two superclasses (‘military’ and ‘civil’), each containing several ‘subclasses’, and introduce and propose two new metrics: inner class accuracy (IA); and outer class accuracy (OA), in addition to the overall classification accuracy (OCA) metric. We conclude that they can be used as complementary to the OCA when choosing the best classifier for the problem at hand.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2018, 8, 1; 31-48
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Digital population and housing census - the experience of Serbia
Cyfrowy powszechny spis ludności i mieszkań – przykład Serbii
Autorzy:
Kovačević, Miladin
Nikić, Mira
Josipović, Branko
Lakčević, Snežana
Pantelić, Vesna
Mitrović, Nevena
Kolaković, Adil
Korovićh, Petar
Powiązania:
https://bibliotekanauki.pl/articles/28408260.pdf
Data publikacji:
2023-10-31
Wydawca:
Główny Urząd Statystyczny
Tematy:
2022 Census of Population
Households and Dwellings
digital census
geospatial data
monitoring system
machine learning
administrative data
record linkage
imputation
statistical population register
Serbia
Powszechny Spis Ludności
Gospodarstw Domowych i Mieszkań 2022
spis cyfrowy
dane geoprzestrzenne
system monitorujący
uczenie maszynowe
dane administracyjne
łączenie rekordów
imputacja
statystyczna ewidencja ludności
Opis:
The aim of the paper is to present the experience of the Republic of Serbia in conducting the 2022 Census of Population, Households and Dwellings, focusing on the employment, legal framework and financing of the census as well as on its successful implementation. It discusses strategic decisions on data collection and the integration of information technology - including geospatial data, data collection techniques, machine learning, record linkage and monitoring system - to overcome the challenges posed by the census. The paper addresses the census undercoverage, explores the use of administrative data for item imputation, and examines the development of a statistical population register. The study demonstrates the benefits of adopting a digital-census approach: significant improvement of accuracy, cost reduction and acquired expeditiousness. The Statistical Office of the Republic of Serbia conducted a digital census combined with traditional methods, excluding self-enumeration, along with the use of administrative data for item imputation, and recommends this approach as the most effective way to obtain precise and comprehensive information about a population, including its demographic characteristics, geographic distribution and overall size.
Celem artykułu jest przedstawienie doświadczeń Republiki Serbii w zakresie organizacji Powszechnego Spisu Ludności, Gospodarstw Domowych i Mieszkań 2022, ze szczególnym uwzględnieniem zagadnień dotyczących zatrudnienia personelu, ram prawnych i finansowania tego badania oraz warunków jego udanej realizacji. Praca skupia się na strategicznych decyzjach w sprawie zbierania danych oraz zastosowania technik informatycznych, takich jak: wykorzystanie danych przestrzennych, cyfrowe metody uzyskiwania danych, uczenie maszynowe, łączenie rekordów czy system monitorujący, mających na celu sprostanie wyzwaniom związanym ze spisem. Autorzy poruszają także kwestie niedostatecznego pokrycia spisu oraz wykorzystania rejestrów administracyjnych do imputacji danych. Ponadto poświęcają uwagę opracowaniu i udoskonalaniu statystycznej ewidencji ludności, dokładności danych, obniżeniu kosztów i zwiększeniu efektywności badania. Główny Urząd Statystyczny Republiki Serbii przeprowadził spis powszechny w sposób cyfrowy, łącząc ten mechanizm z metodami tradycyjnymi (z wyłączeniem samospisu) i posiłkując się rejestrami administracyjnymi w celu imputacji danych. Metoda ta jest w artykule rekomendowana jako najefektywniejszy sposób uzyskania precyzyjnych i wyczerpujących informacji na temat populacji, w tym jej charakterystyki demograficznej, rozmieszczenia przestrzennego i liczebności.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 10; 49-70
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-12 z 12

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies