Synthetic Financial Data: A Case Study Regarding Polish Limited Liability Companies Data Syntetyczne dane finansowe: studium przypadku dla danych polskich spółek z ograniczoną odpowiedzialnością
Aim: The aim of this article is to present and evaluate the concept of synthetic data. They are completely new, artificially generated data, but keep the statistical properties of real data. Due to the statistical similarity with real data, they can be used instead of them. This action allows data to be shared externally while guaranteeing their privacy.
Methodology: New datasets were generated based on financial information about Polish limited liability companies, which come from the Orbis database and refers to 2020. To create synthetic data, it was decided to use generative models: CTGAN (based on GAN architecture) and TVAE (based on autoencoders). Finally, the synthetic data were compared with the real ones in terms of statistical properties (e.g. shape of distributions, correlations etc.) and their applicability to machine learning models (PCA method).
Results: The Overall Quality Score was higher for the data generated by TVAE, but after examining the results in more detail, it was seen that the data generated by CTGAN had a better quality in terms of keeping the statistical properties of the real data. Comparing the results of the PCA method, TVAE was better than CTGAN. In addition, the TVAE method was less time-consuming than CTGAN.
Implications and recommendations: Before publishing the synthetic data externally, it is recommended that the data are generated using several algorithms, evaluating their final results and finally selecting the best option. This action enables the resulting dataset to be of the highest quality. In further research, it is proposed that other algorithms are tested (e.g. CopulaGAN or TableGAN), in an attempt to deal with some of the realistic data problems that were missed in this analysis, such as missing values (the work was carried out with a complete dataset). Data generated in this study may be used to build financial indicators; which in turn could be used to construct company assessment models.
Originality/value: Synthetic data help to deal with some of the data limitations, such as data privacy or scarcity. Due to their statistical similarity with real data, it is possible to use them in advanced machine learning methods instead of real datasets. Analysis on high quality synthetic data allows conclusions similar to analysis on real data to be achieved, while retaining privacy and without publishing sensitive data to third parties.
Cel: Celem artykułu jest prezentacja i ocena koncepcji danych syntetycznych. Są to całkowicie nowe, sztucznie wygenerowane dane, ale zachowujące własności statystyczne danych rzeczywistych. Ze względu na ich statystyczne podobieństwo do danych rzeczywistych mogą być wykorzystywane zamiast nich. Pozwala to na udostępnianie danych na zewnątrz z jednoczesnym zagwarantowaniem ich prywatności.
Metodyka: Nowe zbiory wygenerowano na bazie informacji finansowych polskich spółek z ograniczoną odpowiedzialnością. Wszystkie potrzebne dane wejściowe pochodzą z bazy Orbis i dotyczą 2020 roku. Do tworzenia danych syntetycznych zdecydowano się wykorzystać modele generatywne: CTGAN (oparte na architekturze GAN) i TVAE (oparte na autoenkoderach). Finalnie porównano otrzymane dane syntetyczne z rzeczywistymi pod kątem własności statystycznych (np. podobieństwo rozkładów, korelacje) oraz ich możliwości zastosowania w analizie danych (PCA).
Wyniki: Ogólny wskaźnik oceny jakości danych był wyższy dla danych wygenerowanych metodą TVAE, ale zagłębiając się w szczegóły, stwierdzono, że dane wygenerowane metodą CTGAN są lepszej jakości pod względem zachowania własności statystycznych w stosunku do danych rzeczywistych. Po porównaniu wyników metody PCA ponownie stwierdzono, że TVAE okazało się lepsze niż CTGAN. Dodatkowo metoda TVAE była mniej czasochłonna niż CTGAN.
Implikacje i rekomendacje: Przed udostępnieniem danych syntetycznych na zewnątrz zaleca się wygenerowanie ich z wykorzystaniem kilku algorytmów, porównanie ich wyników końcowych, a następnie – na ich podstawie – wybranie jednej, najlepszej opcji. Takie działanie pozwoli na otrzymanie zbioru o najwyższej jakości. W przyszłych badaniach proponuje się sprawdzenie innych algorytmów (np. CopulaGAN lub TableGAN) oraz podjęcie próby poradzenia sobie z rzeczywistymi problemami występującymi w danych, które zostały pominięte w tej analizie, jak np. występowanie braków danych (w tym artykule pracowano na kompletnym zbiorze danych). Dane wygenerowane w tym badaniu mogą być wykorzystane do budowy wskaźników finansowych, które z kolei mogą być później zastosowane w tworzeniu modeli oceny przedsiębiorstw.
Oryginalność/wartość: Dane syntetyczne pomagają przezwyciężyć liczne ograniczenia, jak np. prywatność danych czy ich niedobór. Ze względu na ich statystyczne podobieństwo do danych rzeczywistych możliwe jest użycie ich w zaawansowanych modelach uczenia maszynowego zamiast danych rzeczywistych. Analiza na dobrych jakościowo danych syntetycznych pozwala na osiągnięcie podobnych wniosków co analiza przeprowadzana na danych rzeczywistych, z zachowaniem przy tym prywatności danych, bez udostępniania danych wrażliwych osobom trzecim.
Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies
Informacja
SZANOWNI CZYTELNICY!
UPRZEJMIE INFORMUJEMY, ŻE BIBLIOTEKA FUNKCJONUJE W NASTĘPUJĄCYCH GODZINACH:
Wypożyczalnia i Czytelnia Główna: poniedziałek – piątek od 9.00 do 19.00