Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Random Forest" wg kryterium: Temat


Tytuł:
A comparative study on performance of basic and ensemble classifiers with various datasets
Autorzy:
Gunakala, Archana
Shahid, Afzal Hussain
Powiązania:
https://bibliotekanauki.pl/articles/30148255.pdf
Data publikacji:
2023
Wydawca:
Polskie Towarzystwo Promocji Wiedzy
Tematy:
classification
Naïve Bayes
neural network
Support Vector Machine
Decision Tree
ensemble learning
Random Forest
Opis:
Classification plays a critical role in machine learning (ML) systems for processing images, text and high -dimensional data. Predicting class labels from training data is the primary goal of classification. An optimal model for a particular classification problem is chosen based on the model's performance and execution time. This paper compares and analyzes the performance of basic as well as ensemble classifiers utilizing 10-fold cross validation and also discusses their essential concepts, advantages, and disadvantages. In this study five basic classifiers namely Naïve Bayes (NB), Multi-layer Perceptron (MLP), Support Vector Machine (SVM), Decision Tree (DT), and Random Forest (RF) and the ensemble of all the five classifiers along with few more combinations are compared with five University of California Irvine (UCI) ML Repository datasets and a Diabetes Health Indicators dataset from Kaggle repository. To analyze and compare the performance of classifiers, evaluation metrics like Accuracy, Recall, Precision, Area Under Curve (AUC) and F-Score are used. Experimental results showed that SVM performs best on two out of the six datasets (Diabetes Health Indicators and waveform), RF performs best for Arrhythmia, Sonar, Tic-tac-toe datasets, and the best ensemble combination is found to be DT+SVM+RF on Ionosphere dataset having respective accuracies 72.58%, 90.38%, 81.63%, 73.59%, 94.78% and 94.01%. The proposed ensemble combinations outperformed the conven¬tional models for few datasets.
Źródło:
Applied Computer Science; 2023, 19, 1; 107-132
1895-3735
2353-6977
Pojawia się w:
Applied Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Machine Learning Model for Improving Building Detection in Informal Areas: A Case Study of Greater Cairo
Autorzy:
Taha, Lamyaa Gamal El-deen
Ibrahim, Rania Elsayed
Powiązania:
https://bibliotekanauki.pl/articles/2055780.pdf
Data publikacji:
2022
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
multi-source image fusion
random forest
support vector machine
DEM extraction
unplanned unsafe areas
remote sensing
Opis:
Building detection in Ashwa’iyyat is a fundamental yet challenging problem, mainly because it requires the correct recovery of building footprints from images with high-object density and scene complexity. A classification model was proposed to integrate spectral, height and textural features. It was developed for the automatic detection of the rectangular, irregular structure and quite small size buildings or buildings which are close to each other but not adjoined. It is intended to improve the precision with which buildings are classified using scikit learn Python libraries and QGIS. WorldView-2 and Spot-5 imagery were combined using three image fusion techniques. The Grey-Level Co-occurrence Matrix was applied to determine which attributes are important in detecting and extracting buildings. The Normalized Digital Surface Model was also generated with 0.5-m resolution. The results demonstrated that when textural features of colour images were introduced as classifier input, the overall accuracy was improved in most cases. The results show that the proposed model was more accurate and efficient than the state-of-the-art methods and can be used effectively to extract the boundaries of small size buildings. The use of a classifier ensample is recommended for the extraction of buildings.
Źródło:
Geomatics and Environmental Engineering; 2022, 16, 2; 39--58
1898-1135
Pojawia się w:
Geomatics and Environmental Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A novel drift detection algorithm based on features’ importance analysis in a data streams environment
Autorzy:
Duda, Piotr
Przybyszewski, Krzysztof
Wang, Lipo
Powiązania:
https://bibliotekanauki.pl/articles/1837417.pdf
Data publikacji:
2020
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
data stream mining
random forest
features importance
Opis:
The training set consists of many features that influence the classifier in different degrees. Choosing the most important features and rejecting those that do not carry relevant information is of great importance to the operating of the learned model. In the case of data streams, the importance of the features may additionally change over time. Such changes affect the performance of the classifier but can also be an important indicator of occurring concept-drift. In this work, we propose a new algorithm for data streams classification, called Random Forest with Features Importance (RFFI), which uses the measure of features importance as a drift detector. The RFFT algorithm implements solutions inspired by the Random Forest algorithm to the data stream scenarios. The proposed algorithm combines the ability of ensemble methods for handling slow changes in a data stream with a new method for detecting concept drift occurrence. The work contains an experimental analysis of the proposed algorithm, carried out on synthetic and real data.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2020, 10, 4; 287-298
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A random forest model for the prediction of spudcan penetration resistance in stiff-over-soft clays
Autorzy:
Gao, Pan
Liu, Zhihui
Zeng, Ji
Zhan, Yiting
Wang, Fei
Powiązania:
https://bibliotekanauki.pl/articles/1573798.pdf
Data publikacji:
2020
Wydawca:
Politechnika Gdańska. Wydział Inżynierii Mechanicznej i Okrętownictwa
Tematy:
machine learning
random forest
jack-up
penetration resistance
stiff-over-soft clays
Opis:
Punch-through is a major threat to the jack-up unit, especially at well sites with layered stiff-over-soft clays. A model is proposed to predict the spudcan penetration resistance in stiff-over-soft clays, based on the random forest (RF) method. The RF model was trained and tested with numerical simulation results obtained through the Finite Element model, implemented with the Coupled Eulerian Lagrangian (CEL) approach. With the proposed CEL model, the effects of the stiff layer thickness, undrained shear strength ratio, and the undrained shear strength of the soft layer on the bearing characteristics, as well as the soil failure mechanism, were numerically studied. A simplified resistance profile model of penetration in stiff-over-soft clays is proposed, divided into three sections by the peak point and the transition point. The importance of soil parameters to the penetration resistance was analysed. Then, the trained RF model was tested against the test set, showing a good prediction of the numerical cases. Finally, the trained RF was validated against centrifuge tests. The RF model successfully captured the punch-through potential, and was verified using data recorded in the field, showing advantages over the SNAME guideline. It is supposed that the trained RF model should give a good prediction of the spudcan penetration resistance profile, especially if trained with more field data.
Źródło:
Polish Maritime Research; 2020, 4; 130-138
1233-2585
Pojawia się w:
Polish Maritime Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Small Wind Turbine Output Model for Spatially Constrained Remote Island Micro-Grids
Autorzy:
Žigman, D.
Meštrović, K.
Tomiša, T.
Powiązania:
https://bibliotekanauki.pl/articles/2172468.pdf
Data publikacji:
2022
Wydawca:
Uniwersytet Morski w Gdyni. Wydział Nawigacyjny
Tematy:
wind turbine
small wind turbine
decision tree model
artificial neural network model
random forest model
micro-grids
spatially constrained remote Island micro-grids
remote Island micro-grid
Opis:
Modelling operation of the power supply system for remote island communities is essential for its operation, as well as a survival of a modern society settled in challenging conditions. Micro-grid emerges as a proper solution for a sustainable development of a spatially constrained remote island community, while at the same time reflecting the power requirements of similar maritime subjects, such as large vessels and fleets. Here we present research results in predictive modelling the output of a small wind turbine, as a component of a remote island micro-grid. Based on a month-long experimental data and the machine learning-based predictive model development approach, three candidate models of a small wind turbine output were developed, and assessed on their performance based on an independent set of experimental data. The Random Forest Model out performed competitors (Decision Tree Model and Artificial Neural Network Model), emerging as a candidate methodology for the all-year predictive model development, as a later component of the over-all remote island micro-grid model.
Źródło:
TransNav : International Journal on Marine Navigation and Safety of Sea Transportation; 2022, 16, 1; 143--146
2083-6473
2083-6481
Pojawia się w:
TransNav : International Journal on Marine Navigation and Safety of Sea Transportation
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Study on the Optimization of Metalloid Contents of Fe-Si-B-C Based Amorphous Soft Magnetic Materials Using Artificial Intelligence Method
Autorzy:
Choi, Young-Sin
Kwon, Do-Hun
Lee, Min_Woo
Cha, Eun-Ji
Jeon, Junhyub
Lee, Seok-Jae
Kim, Jongryoul
Kim, Hwi-Jun
Powiązania:
https://bibliotekanauki.pl/articles/2174571.pdf
Data publikacji:
2022
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
Fe-based amorphous
soft magnetic properties
artificial intelligence
machine learning
random forest regression
Opis:
The soft magnetic properties of Fe-based amorphous alloys can be controlled by their compositions through alloy design. Experimental data on these alloys show some discrepancy, however, with predicted values. For further improvement of the soft magnetic properties, machine learning processes such as random forest regression, k-nearest neighbors regression and support vector regression can be helpful to optimize the composition. In this study, the random forest regression method was used to find the optimum compositions of Fe-Si-B-C alloys. As a result, the lowest coercivity was observed in Fe80.5Si3.63B13.54C2.33 at.% and the highest saturation magnetization was obtained Fe81.83Si3.63B12.63C1.91at.% with R2 values of 0.74 and 0.878, respectively.
Źródło:
Archives of Metallurgy and Materials; 2022, 67, 4; 1459--1463
1733-3490
Pojawia się w:
Archives of Metallurgy and Materials
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A System for Filling Store Displays: Pitting a Single Model against a Set of Demand Forecasting Models
System zapełnienia ekspozycji sklepowych: pojedynczy model a zespół modeli prognozowania popytu
Autorzy:
Myna, Artur
Myna, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/2206342.pdf
Data publikacji:
2023
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
Extreme Gradient Boosting
logistic regression
random forest
regresja logistyczna
las losowy
Opis:
The aim of the paper was to develop the concept of retail display space allocation as a system and to assess the quality of very slow-moving products demand forecasting models (that have not yet been used by retail companies in Poland) as its key subsystem. Forecasts were made using the example of a clothing company. The quality of these models was assessed using the Weighted Mean Absolute Percentage Error. The first step was to build the individual models. Later, the authors built separate models for brick-and-mortar and online stores as well as brands, creating a set of six models. The findings show that the classification approach for very slow movers provides as precise results as the regression approach. No single model or set of models (built with a particular machine learning method) could be identified that made the best demand forecasts for brick-and-mortar stores, as statistical tests generally did not confirm the significance of the differences between the median forecasts.
Celem artykułu jest opracowanie koncepcji zapełnienia ekspozycji sklepowych jako sys- temu oraz ocena jakości modeli prognozowania popytu (które w Polsce nie są jeszcze wykorzystywane przez sieci handlowe) bardzo wolno rotujących produktów jako jego kluczowego podsystemu. Jakość modeli oceniono za pomocą miary Weighted Mean Absolute Percentage Error na różnych poziomach szczegółowości: dla całej sieci sprzedaży i określonego miesiąca oraz na „na przecięciu” sklepu, produk- tu i rozmiaru produktu. Najpierw zbudowano pojedyncze modele, następnie zaś odrębne modele dla sklepów stacjonarnych i internetowych, jak również marek, tworząc zespół sześciu modeli. Poprawę dopasowania modeli osiągnięto tylko dla sklepów internetowych. Wyniki pracy wskazują, że podejście klasyfikacyjne dla bardzo wolno rotujących produktów charakteryzują równie precyzyjne wyniki pro- gnoz jak podejście regresyjne. Nie można wskazać jednego modelu lub zespołu modeli (zbudowanego określoną metodą uczenia maszynowego), który wykonał najlepsze prognozy popytu dla sklepów sta- cjonarnych, gdyż istotności różnic median prognoz na ogół nie potwierdzono testami statystycznymi.
Źródło:
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu; 2023, 67, 2; 96-106
1899-3192
Pojawia się w:
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An anomaly detection method based on random convolutional kernel and isolation forest for equipment state monitoring
Autorzy:
Shu, Xinhao
Zhang, Shigang
Li, Yue
Chen, Mengqiao
Powiązania:
https://bibliotekanauki.pl/articles/2200934.pdf
Data publikacji:
2022
Wydawca:
Polska Akademia Nauk. Polskie Naukowo-Techniczne Towarzystwo Eksploatacyjne PAN
Tematy:
anomaly detection
random convolutional kernel
isolation forest
multi-dimensional time
series
equipment state monitoring
Opis:
Anomaly detection plays an essential role in health monitoring and reliability assurance of complex system. However, previous researches suffer from distraction by outliers in training and extensively relying on empiric-based feature engineering, leading to many limitations in the practical application of detection methods. In this paper, we propose an unsupervised anomaly detection method that combines random convolution kernels with isolation forest to tackle the above problems in equipment state monitoring. The random convolution kernels are applied to generate cross-dimensional and multi-scale features for multi-dimensional time series, with combining the time series decomposing method to select abnormally sensitive features for automatic feature extraction. Then, anomaly detection is performed on the obtained features using isolation forests with low requirements for purity of training sample. The verification and comparison on different types of datasets show the performance of the proposed method surpass the traditional methods in accuracy and applicability.
Źródło:
Eksploatacja i Niezawodność; 2022, 24, 4; 758--770
1507-2711
Pojawia się w:
Eksploatacja i Niezawodność
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An Approach to License Plate Recognition in Real Time Using Multi-stage Computational Intelligence Classifier
Autorzy:
Kekez, Michał
Powiązania:
https://bibliotekanauki.pl/articles/27311914.pdf
Data publikacji:
2023
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
car license plates
LPR
ANPR
OCR
image processing
neural network
Random Forest
Opis:
Automatic car license plate recognition (LPR) is widely used nowadays. It involves plate localization in the image, character segmentation and optical character recognition. In this paper, a set of descriptors of image segments (characters) was proposed as well as a technique of multi-stage classification of letters and digits using cascade of neural network and several parallel Random Forest or classification tree or rule list classifiers. The proposed solution was applied to automated recognition of number plates which are composed of capital Latin letters and Arabic numerals. The paper presents an analysis of the accuracy of the obtained classifiers. The time needed to build the classifier and the time needed to classify characters using it are also presented.
Źródło:
International Journal of Electronics and Telecommunications; 2023, 69, 2; 275--280
2300-1933
Pojawia się w:
International Journal of Electronics and Telecommunications
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An assessment of machine learning and data balancing techniques for evaluating downgrade truck crash severity prediction in Wyoming
Autorzy:
Ampadu, Vincent-Michael Kwesi
Haq, Muhammad Tahmidul
Ksaibati, Khaled
Powiązania:
https://bibliotekanauki.pl/articles/2176018.pdf
Data publikacji:
2022
Wydawca:
Fundacja Centrum Badań Socjologicznych
Tematy:
crash severity
performance
extreme gradient boosting tree
adaptive boosting tree
random forest
gradient boost decision tree
adaptive synthetic algorithm
Opis:
This study involved the investigation of various machine learning methods, including four classification tree-based ML models, namely the Adaptive Boosting tree, Random Forest, Gradient Boost Decision Tree, Extreme Gradient Boosting tree, and three non-tree-based ML models, namely Support Vector Machines, Multi-layer Perceptron and k-Nearest Neighbors for predicting the level of severity of large truck crashes on Wyoming road networks. The accuracy of these seven methods was then compared. The Final ROC AUC score for the optimized random forest model is 95.296 %. The next highest performing model was the k-NN with 92.780 %, M.L.P. with 87.817 %, XGBoost with 86.542 %, Gradboost with 74.824 %, SVM with 72.648 % and AdaBoost with 67.232 %. Based on the analysis, the top 10 predictors of severity were obtained from the feature importance plot. These may be classified into whether safety equipment was used, whether airbags were deployed, the gender of the driver and whether alcohol was involved.
Źródło:
Journal of Sustainable Development of Transport and Logistics; 2022, 7, 2; 6--24
2520-2979
Pojawia się w:
Journal of Sustainable Development of Transport and Logistics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An intelligent multimodal framework for identifying children with autism spectrum disorder
Autorzy:
Chen, Jingying
Liao, Mengyi
Wang, Guangshuai
Chen, Chang
Powiązania:
https://bibliotekanauki.pl/articles/331151.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Zielonogórski. Oficyna Wydawnicza
Tematy:
autism spectrum disorder
eye fixation
facial expression
cognitive level
improved random forest
spektrum zaburzeń autystycznych
wyraz twarzy
poziom poznawczy
las losowy
Opis:
Early identification can significantly improve the prognosis of children with autism spectrum disorder (ASD). Yet existing identification methods are costly, time consuming, and dependent on the manual judgment of specialists. In this study, we present a multimodal framework that fuses data on a child’s eye fixation, facial expression, and cognitive level to automatically identify children with ASD, to improve the identification efficiency and reduce costs. The proposed methodology uses an optimized random forest (RF) algorithm to improve classification accuracy and then applies a hybrid fusion method based on the data source and time synchronization to ensure the reliability of the classification results. The classification accuracy of the framework was 91%, which is higher than that of the RF, support vector machine, and discriminant analysis methods. The results suggest that data on a child’s eye fixation, facial expression, and cognitive level are useful for identifying children with ASD. Because the proposed framework can separate ASD children from typically developing (TD) children, it can facilitate the early identification of ASD and may improve intervention programs for children with ASD.
Źródło:
International Journal of Applied Mathematics and Computer Science; 2020, 30, 3; 435-448
1641-876X
2083-8492
Pojawia się w:
International Journal of Applied Mathematics and Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of machine learning algorithms to predict permeability in tight sandstone formations
Zastosowanie metod uczenia maszynowego do przewidywania przepuszczalności w formacjach zwięzłych piaskowców typu tight gas
Autorzy:
Topór, Tomasz
Powiązania:
https://bibliotekanauki.pl/articles/2143653.pdf
Data publikacji:
2021
Wydawca:
Instytut Nafty i Gazu - Państwowy Instytut Badawczy
Tematy:
machine learning
random forest
permeability
prediction
uczenie maszynowe
lasy losowe
predykcja
przepuszczalność
Opis:
The application of machine learning algorithms in petroleum geology has opened a new chapter in oil and gas exploration. Machine learning algorithms have been successfully used to predict crucial petrophysical properties when characterizing reservoirs. This study utilizes the concept of machine learning to predict permeability under confining stress conditions for samples from tight sandstone formations. The models were constructed using two machine learning algorithms of varying complexity (multiple linear regression [MLR] and random forests [RF]) and trained on a dataset that combined basic well information, basic petrophysical data, and rock type from a visual inspection of the core material. The RF algorithm underwent feature engineering to increase the number of predictors in the models. In order to check the training models’ robustness, 10-fold cross-validation was performed. The MLR and RF applications demonstrated that both algorithms can accurately predict permeability under constant confining pressure (R2 0.800 vs. 0.834). The RF accuracy was about 3% better than that of the MLR and about 6% better than the linear reference regression (LR) that utilized only porosity. Porosity was the most influential feature of the models’ performance. In the case of RF, the depth was also significant in the permeability predictions, which could be evidence of hidden interactions between the variables of porosity and depth. The local interpretation revealed the common features among outliers. Both the training and testing sets had moderate-low porosity (3–10%) and a lack of fractures. In the test set, calcite or quartz cementation also led to poor permeability predictions. The workflow that utilizes the tidymodels concept will be further applied in more complex examples to predict spatial petrophysical features from seismic attributes using various machine learning algorithms.
Zastosowanie algorytmów uczenia maszynowego w geologii naftowej otworzyło nowy rozdział w poszukiwaniu złóż ropy i gazu. Algorytmy uczenia maszynowego zostały z powodzeniem wykorzystane do przewidywania kluczowych właściwości petrofizycznych charakteryzujących złoże. W pracy zastosowano metody uczenia maszynowego do przewidywania przepuszczalności w warunkach ustalonego ciśnienia złożowego dla formacji zwięzłych piaskowców typu tight gas. Modele zostały skonstruowane przy użyciu algorytmów o różnym stopniu komplikacji (wielowymiarowa regresja liniowa – MLR i lasy losowe – RF), a następnie poddano je procesowi uczenia na danych zawierających podstawowe informacje o otworze, podstawowe parametry petrofizyczne oraz typ skał pochodzący z makroskopowego i mikroskopowego opisu próbek rdzeni. Typ skał został rozkodowany i poddany procesowi inżynierii cech, aby wydobyć dodatkowe zmienne do modelu. Proces uczenia na zbiorze treningowym został przeprowadzony z wykorzystaniem 10-krotnej kroswalidacji. Uzyskane wyniki pokazują, że oba algorytmy mogą przewidywać przepuszczalność z dużą dokładnością (R2 = 0,800 dla MLR vs R2 = 0,834 dla RF). Dokładność modelu RF jest około 3% lepsza niż MLR i około 6% lepsza w porównaniu do modelu referencyjnego (model regresji liniowej z jedną zmienną – porowatością). W przypadku obu modeli porowatość była najistotniejszym parametrem przy przewidywaniu przepuszczalności. Dodatkowo w modelu wykorzystującym lasy losowe istotną cechą okazała się głębokość próbki, co może świadczyć o dodatkowych interakcjach pomiędzy zmiennymi. Cechą wspólną próbek w zbiorze treningowym i testowym, dla których modele zadziałały ze słabą skutecznością, były porowatość od 3% do 10% i brak spękań. Dodatkowo w zbiorze testowym niska dokładność przewidywań przepuszczalności była związana z obecnością cementacji kalcytem i kwarcem. Workflow wykorzystujący stan wiedzy dotyczącej modelowania, którego trzon stanowi pakiet tidymodels, będzie dalej stosowany do prognozowania przestrzennych właściwości petrofizycznych na podstawie atrybutów sejsmicznych.
Źródło:
Nafta-Gaz; 2021, 77, 5; 283-292
0867-8871
Pojawia się w:
Nafta-Gaz
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of machine learning tools for seismic reservoir characterization study of porosity and saturation type
Zastosowanie metod uczenia maszynowego do charakterystyki porowatości i typu nasycenia przy użyciu atrybutów sejsmicznych
Autorzy:
Topór, Tomasz
Sowiżdżał, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/2143329.pdf
Data publikacji:
2022
Wydawca:
Instytut Nafty i Gazu - Państwowy Instytut Badawczy
Tematy:
machine learning
random forest
XGBoost
seismic attributes
reservoir properties prediction
uczenie maszynowe
lasy losowe
drzewa wzmocnione gradientowo
atrybuty sejsmiczne
predykcja własności zbiornikowych
Opis:
The application of machine learning (ML) tools and data-driven modeling became a standard approach for solving many problems in exploration geology and contributed to the discovery of new reservoirs. This study explores an application of machine learning ensemble methods – random forest (RF) and extreme gradient boosting (XGBoost) to derive porosity and saturation type (gas/water) in multihorizon sandstone formations from Miocene deposits of the Carpathian Foredeep. The training of ML algorithms was divided into two stages. First, the RF algorithm was used to compute porosity based on seismic attributes and well location coordinates. The obtained results were used as an extra feature to saturation type modeling using the XGBoost algorithm. The XGBoost was run with and without well location coordinates to evaluate the influence of the spatial information for the modeling performance. The hyperparameters for each model were tuned using the Bayesian optimization algorithm. To check the training models' robustness, 10-fold cross-validation was performed. The results were evaluated using standard metrics, for regression and classification, on training and testing sets. The residual mean standard error (RMSE) for porosity prediction with RF for training and testing was close to 0.053, providing no evidence of overfitting. Feature importance analysis revealed that the most influential variables for porosity prediction were spatial coordinates and seismic attributes sweetness. The results of XGBoost modeling (variant 1) demonstrated that the algorithm could accurately predict saturation type despite the class imbalance issue. The sensitivity for XGBoost on training and testing data was high and equaled 0.862 and 0.920, respectively. The XGBoost model relied on computed porosity and spatial coordinates. The obtained sensitivity results for both training and testing sets dropped significantly by about 10% when well location coordinates were removed (variant 2). In this case, the three most influential features were computed porosity, seismic amplitude contrast, and iso-frequency component (15 Hz) attribute. The obtained results were imported to Petrel software to present the spatial distribution of porosity and saturation type. The latter parameter was given with probability distribution, which allows for identifying potential target zones enriched in gas.
Metody uczenia maszynowego stanowią obecnie rutynowe narzędzie wykorzystywane przy rozwiązywaniu wielu problemów w geologii poszukiwawczej i przyczyniają się do odkrycia nowych złóż. Prezentowana praca pokazuje zastosowanie dwóch algorytmów uczenia maszynowego – lasów losowych (RF) i drzew wzmocnionych gradientowo (XGBoost) do wyznaczenia porowatości i typu nasycenia (gaz/woda) w formacjach piaskowców będących potencjalnymi horyzontami gazonośnymi w mioceńskich osadach zapadliska przedkarpackiego. Proces uczenia maszynowego został podzielony na dwa etapy. W pierwszym etapie użyto RF do obliczenia porowatości na podstawie danych pochodzących z atrybutów sejsmicznych oraz współrzędnych lokalizacji otworów. Uzyskane wyniki zostały wykorzystane jako dodatkowa cecha przy modelowaniu typu nasycenia z zastosowaniem algorytmu XGBoost. Modelowanie za pomocą XGBoost został przeprowadzone w dwóch wariantach – z wykorzystaniem lokalizacji otworów oraz bez nich w celu oceny wpływu informacji przestrzennych na wydajność modelowania. Proces strojenia hiperparametrów dla poszczególnych modeli został przeprowadzony z wykorzystaniem optymalizacji Bayesa. Wyniki procesu modelowania zostały ocenione na zbiorach treningowym i testowym przy użyciu standardowych metryk wykorzystywanych do rozwiązywania problemów regresyjnych i klasyfikacyjnych. Dodatkowo, aby wzmocnić wiarygodność modeli treningowych, przeprowadzona została 10-krotna kroswalidacja. Pierwiastek błędu średniokwadratowego (RMSE) dla wymodelowanej porowatości na zbiorach treningowym i testowym był bliski 0,053 co wskazuje na brak nadmiernego dopasowania modelu (ang. overfitting). Analiza istotności cech ujawniła, że zmienną najbardziej wpływającą na prognozowanie porowatości były współrzędne lokalizacji otworów oraz atrybut sejsmiczny sweetness. Wyniki modelowania XGBoost (wariant 1) wykazały, że algorytm jest w stanie dokładnie przewidywać typ nasycenia pomimo problemu z nierównowagą klas. Czułość wykrywania potencjalnych stref gazowych w przypadku modelu XGBoost była wysoka zarówno dla zbioru treningowego, jak i testowego (0,862 i 0,920). W swoich predykcjach model opierał się głównie na wyliczonej porowatości oraz współrzędnych otworów. Czułość dla uzyskanych wyników na zbiorze treningowym i testowym spadła o około 10%, gdy usunięto współrzędne lokalizacji otworów (wariant 2 XGBoost). W tym przypadku trzema najważniejszymi cechami były obliczona porowatość oraz atrybut sejsmiczny amplitude contrast i atrybut iso-frequency component (15 Hz). Uzyskane wyniki zostały zaimportowane do programu Petrel, aby przedstawić przestrzenny rozkład porowatości i typu nasycenia. Ten ostatni parametr został przedstawiony wraz z rozkładem prawdopodobieństwa, co dało wgląd w strefy o najwyższym potencjale gazowym.
Źródło:
Nafta-Gaz; 2022, 78, 3; 165-175
0867-8871
Pojawia się w:
Nafta-Gaz
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of selected data mining techniques in unintentional accounting error detection
Autorzy:
Papík, Mário
Papíková, Lenka
Powiązania:
https://bibliotekanauki.pl/articles/22444352.pdf
Data publikacji:
2021
Wydawca:
Instytut Badań Gospodarczych
Tematy:
financial fraud
unintentional accounting errors
financial restatements
decision tree
classification and regression tree
random forest
Opis:
Research background: Even though unintentional accounting errors leading to financial restatements look like less serious distortion of publicly available information, it has been shown that financial restatements impacts on financial markets are similar to intentional fraudulent activities. Unintentional accounting errors leading to financial restatements then affect value of company shares in the short run which negatively impacts all shareholders. Purpose of the article: The aim of this manuscript is to predict unintentional accounting errors leading to financial restatements based on information from financial statements of companies. The manuscript analysis if financial statements include sufficient information which would allow detection of unintentional accounting errors. Methods: Method of classification and regression trees (decision tree) and random forest have been used in this manuscript to fulfill the aim of this manuscript. Data sample has consisted of 400 items from financial statements of 80 selected international companies. The results of developed prediction models have been compared and explained based on their accuracy, sensitivity, specificity, precision and F1 score. Statistical relationship among variables has been tested by correlation analysis. Differences between the group of companies with and without unintentional accounting error have been tested by means of Kruskal-Wallis test. Differences among the models have been tested by Levene and T-tests. Findings & value added: The results of the analysis have provided evidence that it is possible to detect unintentional accounting errors with high levels of accuracy based on financial ratios (rather than the Beneish variables) and by application of random forest method (rather than classification and regression tree method).
Źródło:
Equilibrium. Quarterly Journal of Economics and Economic Policy; 2021, 16, 1; 185-201
1689-765X
2353-3293
Pojawia się w:
Equilibrium. Quarterly Journal of Economics and Economic Policy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of the Random Forest Model to Predict the Plasticity State of Vertisols
Autorzy:
Al Masmoudi, Yassine
Bouslihim, Yassine
Doumali, Kaoutar
El Aissaoui, Abdellah
Namr, Khalid Ibno
Powiązania:
https://bibliotekanauki.pl/articles/1839081.pdf
Data publikacji:
2021
Wydawca:
Polskie Towarzystwo Inżynierii Ekologicznej
Tematy:
soil plasticity
random forest
moroccan vertisol
soil degradation
Opis:
Vertisol plasticity is related to moisture content, and it requires an in-depth physicochemical characterization. This information allows us to use the land under the most adequate conditions and avoid soil physical degradation, especially its compaction. The objective of this study was to characterize the Vertisol in the Moroccan region of Doukkala-Abda and to predict soil plasticity based on the physicochemical parameters of soil, such as texture, electrical conductivity, Soil Organic Matter (SOM) and other chemical parameters for 120 samples. Determination of soil plasticity using Atterberg limits is a challenging and time-consuming method. Thus, this study aimed to develop a new model that can predict soil plasticity using the Random Forest algorithm. The soils presented homogeneity in the majority of physicochemical parameters, except a significant difference observed in the SOM and the electrical conductivity, which in turn influenced the soil plasticity state. The results showed significant and positive correlations between SOM, Soil Clay Content (SCC), Electrical Conductivity (EC), and plasticity in the Vertisol fields of the region. For the training phase, the model gave excellent results with a coefficient of determination of 0.995 and an RMSE of 0.164. Almost the same results were observed in the validation phase with a coefficient of determination of 0.974 and an RMSE of 0.361, which shows that the model succeeded in predicting plasticity in both phases. On the basis of these results, this model can be used for the plasticity prediction using other physicochemical parameters and the Random Forest Model. The prediction of soil plasticity is an important parameter to respect the timing of introducing machines/tools in the fields and avoid Vertisol degradation.
Źródło:
Journal of Ecological Engineering; 2021, 22, 2; 36-46
2299-8993
Pojawia się w:
Journal of Ecological Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies