Temat: dane syntetyczne - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: Synthetic Financial Data: A Case Study Regarding Polish Limited Liability Companies Data
Syntetyczne dane finansowe: studium przypadku dla danych polskich spółek z ograniczoną odpowiedzialnością
Autorzy:: Szymura, Aleksandra
Powiązania:: https://bibliotekanauki.pl/articles/38890071.pdf
Data publikacji:: 2024
Wydawca:: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:: synthetic data
generative models
financial data
CTGAN
TVAE
dane syntetyczne
modele generatywne
dane finansowe
Opis:: Aim: The aim of this article is to present and evaluate the concept of synthetic data. They are completely new, artificially generated data, but keep the statistical properties of real data. Due to the statistical similarity with real data, they can be used instead of them. This action allows data to be shared externally while guaranteeing their privacy. Methodology: New datasets were generated based on financial information about Polish limited liability companies, which come from the Orbis database and refers to 2020. To create synthetic data, it was decided to use generative models: CTGAN (based on GAN architecture) and TVAE (based on autoencoders). Finally, the synthetic data were compared with the real ones in terms of statistical properties (e.g. shape of distributions, correlations etc.) and their applicability to machine learning models (PCA method). Results: The Overall Quality Score was higher for the data generated by TVAE, but after examining the results in more detail, it was seen that the data generated by CTGAN had a better quality in terms of keeping the statistical properties of the real data. Comparing the results of the PCA method, TVAE was better than CTGAN. In addition, the TVAE method was less time-consuming than CTGAN. Implications and recommendations: Before publishing the synthetic data externally, it is recommended that the data are generated using several algorithms, evaluating their final results and finally selecting the best option. This action enables the resulting dataset to be of the highest quality. In further research, it is proposed that other algorithms are tested (e.g. CopulaGAN or TableGAN), in an attempt to deal with some of the realistic data problems that were missed in this analysis, such as missing values (the work was carried out with a complete dataset). Data generated in this study may be used to build financial indicators; which in turn could be used to construct company assessment models. Originality/value: Synthetic data help to deal with some of the data limitations, such as data privacy or scarcity. Due to their statistical similarity with real data, it is possible to use them in advanced machine learning methods instead of real datasets. Analysis on high quality synthetic data allows conclusions similar to analysis on real data to be achieved, while retaining privacy and without publishing sensitive data to third parties.
Cel: Celem artykułu jest prezentacja i ocena koncepcji danych syntetycznych. Są to całkowicie nowe, sztucznie wygenerowane dane, ale zachowujące własności statystyczne danych rzeczywistych. Ze względu na ich statystyczne podobieństwo do danych rzeczywistych mogą być wykorzystywane zamiast nich. Pozwala to na udostępnianie danych na zewnątrz z jednoczesnym zagwarantowaniem ich prywatności. Metodyka: Nowe zbiory wygenerowano na bazie informacji finansowych polskich spółek z ograniczoną odpowiedzialnością. Wszystkie potrzebne dane wejściowe pochodzą z bazy Orbis i dotyczą 2020 roku. Do tworzenia danych syntetycznych zdecydowano się wykorzystać modele generatywne: CTGAN (oparte na architekturze GAN) i TVAE (oparte na autoenkoderach). Finalnie porównano otrzymane dane syntetyczne z rzeczywistymi pod kątem własności statystycznych (np. podobieństwo rozkładów, korelacje) oraz ich możliwości zastosowania w analizie danych (PCA). Wyniki: Ogólny wskaźnik oceny jakości danych był wyższy dla danych wygenerowanych metodą TVAE, ale zagłębiając się w szczegóły, stwierdzono, że dane wygenerowane metodą CTGAN są lepszej jakości pod względem zachowania własności statystycznych w stosunku do danych rzeczywistych. Po porównaniu wyników metody PCA ponownie stwierdzono, że TVAE okazało się lepsze niż CTGAN. Dodatkowo metoda TVAE była mniej czasochłonna niż CTGAN. Implikacje i rekomendacje: Przed udostępnieniem danych syntetycznych na zewnątrz zaleca się wygenerowanie ich z wykorzystaniem kilku algorytmów, porównanie ich wyników końcowych, a następnie – na ich podstawie – wybranie jednej, najlepszej opcji. Takie działanie pozwoli na otrzymanie zbioru o najwyższej jakości. W przyszłych badaniach proponuje się sprawdzenie innych algorytmów (np. CopulaGAN lub TableGAN) oraz podjęcie próby poradzenia sobie z rzeczywistymi problemami występującymi w danych, które zostały pominięte w tej analizie, jak np. występowanie braków danych (w tym artykule pracowano na kompletnym zbiorze danych). Dane wygenerowane w tym badaniu mogą być wykorzystane do budowy wskaźników finansowych, które z kolei mogą być później zastosowane w tworzeniu modeli oceny przedsiębiorstw. Oryginalność/wartość: Dane syntetyczne pomagają przezwyciężyć liczne ograniczenia, jak np. prywatność danych czy ich niedobór. Ze względu na ich statystyczne podobieństwo do danych rzeczywistych możliwe jest użycie ich w zaawansowanych modelach uczenia maszynowego zamiast danych rzeczywistych. Analiza na dobrych jakościowo danych syntetycznych pozwala na osiągnięcie podobnych wniosków co analiza przeprowadzana na danych rzeczywistych, z zachowaniem przy tym prywatności danych, bez udostępniania danych wrażliwych osobom trzecim.
Źródło:: Econometrics. Ekonometria. Advances in Applied Data Analytics; 2024, 28, 2; 1-17
1507-3866
Pojawia się w:: Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: Blender jako narzędzie do generacji danych syntetycznych
Blender as a tool for generating synthetic data
Autorzy:: Sieczka, Rafał
Pańczyk, Maciej
Powiązania:: https://bibliotekanauki.pl/articles/98204.pdf
Data publikacji:: 2020
Wydawca:: Politechnika Lubelska. Instytut Informatyki
Tematy:: artificial neural networks
convolutional neural network
synthetic data
blender
sztuczne sieci neuronowe
konwolucyjne sieci neuronowe
dane syntetyczne
Opis:: Acquiring data for neural network training is an expensive and labour-intensive task, especially when such data is difficult to access. This article proposes the use of 3D Blender graphics software as a tool to automatically generate synthetic image data on the example of price labels. Using the fastai library, price label classifiers were trained on a set of synthetic data, which were compared with classifiers trained on a real data set. The comparison of the results showed that it is possible to use Blender to generate synthetic data. This allows for a significant acceleration of the data acquisition process and consequently, the learning process of neural networks.
Pozyskiwanie danych do treningu sieci neuronowych, jest kosztownym i pracochłonnym zadaniem, szczególnie kiedy takie dane są trudno dostępne. W niniejszym artykule zostało zaproponowane użycie programu do grafiki 3D Blender, jako narzędzia do automatycznej generacji danych syntetycznych zdjęć, na przykładzie etykiet cenowych. Przy użyciu biblioteki fastai, zostały wytrenowane klasyfikatory etykiet cenowych, na zbiorze danych syntetycznych, które porównano z klasyfikatorami trenowanymi na zbiorze danych rzeczywistych. Porównanie wyników wykazało, że możliwe jest użycie programu Blender do generacji danych syntetycznych. Pozwala to w znaczącym stopniu przyśpieszyć proces pozyskiwania danych, a co za tym idzie proces uczenia sieci neuronowych.
Źródło:: Journal of Computer Sciences Institute; 2020, 16; 227-232
2544-0764
Pojawia się w:: Journal of Computer Sciences Institute
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 3.

Tytuł:: A new approach for discovering top-k sequential patterns based on the variety of items
Autorzy:: Sakurai, S.
Nishizawa, M.
Powiązania:: https://bibliotekanauki.pl/articles/91708.pdf
Data publikacji:: 2015
Wydawca:: Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:: sequential data
sequential patterns
synthetic sequential data
numerical experiment
top-k
dane sekwencyjne
wzorce sekwencyjne
syntetyczne dane sekwencyjne
eksperyment numeryczny
Opis:: This paper proposes a method that discovers various sequential patterns from sequential data. The sequential data is a set of sequences. Each sequence is a row of item sets. Many previous methods discover frequent sequential patterns from the data. However, the patterns tend to be similar to each other because they are composed of limited items. The patterns do not always correspond to the interests of analysts. Therefore, this paper tackles on the issue discovering various sequential patterns. The proposed method decides redundant sequential patterns by evaluating the variety of items and deletes them based on three kinds of delete processes. It can discover various sequential patterns within the upper bound for the number of sequential patterns given by the analysts. This paper applies the method to the synthetic sequential data which is characterized by number of items, their kind, and length of sequence. The effect of the method is verified through numerical experiments.
Źródło:: Journal of Artificial Intelligence and Soft Computing Research; 2015, 5, 2; 141-153
2083-2567
2449-6499
Pojawia się w:: Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 4.

Tytuł:: Interpretacja ilościowa profilowań geofizyki otworowej w przypadku niskiej jakości profilowań i ograniczonego zakresu metodycznego pomiarów
Quantitative interpretation of well logs for cases of low quality logs and limited measurement methods
Autorzy:: Czopek, B.
Nowak, J.
Powiązania:: https://bibliotekanauki.pl/articles/184101.pdf
Data publikacji:: 2011
Wydawca:: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:: geofizyka otworowa
niekompletne dane
kalibracja profilowań radiometrycznych
korekta profilowań
petrofizyczna analiza ilościowa
profilowania syntetyczne
well logging
incomlete data
calibration of radiometric logs
well log correction
petrophysical quantitive analysis
synthetic logs
Opis:: W artykule przedstawiono analizę przyczyn najczęściej spotykanych błędów podczas rejestracji i wstępnego opracowania profilowań geofizyki otworowej, zarówno danych archiwalnych uzyskanych przy użyciu sprzętu starszego typu, jak i współczesnych, rejestrowanych sondami firmy Halliburton. Autorzy omawiają sposoby identyfikacji tych błędów oraz możliwości korekty dostosowane do określonych warunków. Prezentują graficzne przykłady błędnych zapisów oraz efekty ich eliminacji. Podają przykłady zastosowania skorygowanych i ujednoliconych profilowań do petrofizycznej analizy ilościowej, obejmującej określenie składu mineralnego, porowatości i zawodnienia. Zdaniem autorów rezultaty tak prowadzonej analizy umożliwiają generację wiarygodnych, syntetycznych (teoretycznych) profilowań gęstości i czasu interwałowego, stanowiących pożądane dane wejściowe przy rozwiązywaniu różnych problemów geologicznych z zakresu poszukiwań, eksploatacji i magazynowania węglowodorów, pozyskiwania źródeł energii geotermalnej i w wielu innych dziedzinach.
This paper presents a causal analysis of the most common errors occurring during recording and preliminary processing of well logs on both archival as well as current data obtained with Halliburton tools. The authors discuss the ways to identify and to correct these errors, under specific conditions. They present graphic examples of recording errors and the effects of their elimination. Examples of applying corrected standardized logs in petrophysical quantitative analysis involving determination of mineral composition, porosity and water saturation are provided by the authors. It is their opinion that the results of such analysis make it possible to generate reliable synthetic (theoretical) logs of density and interval transit time, which are useful input data in solving various geological problems related to hydrocarbon exploration, production and storage, to geothermal energy sources and many other issues.
Źródło:: Geologia / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie; 2011, 37, 4; 517-535
0138-0974
Pojawia się w:: Geologia / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Informacja

Wyszukujesz frazę "dane syntetyczne" wg kryterium: Temat

Źródło danych

Dostawca treści

Kolekcja

Rok wydania

Wydawca

Temat

Autor

Typ dokumentu

Język