Analysis of the distribution of statistical concentrations of pollutants in samples of treated wastewater from small sewage treatment plants
Kaczor, Grzegorz B.
Instytut Technologiczno-Przyrodniczy
sewer system
significance test
statistical distribution
treatment plant
The aim of the research was to show which theoretical statistical distribution best reflects and describes the variability of pollutant concentrations in treated sewage, discharged from small sewage treatment plants, characterised by a value below 2000 PE. The statistical analysis additionally takes into account the influence of the number of measuring sequence data on the shape and level of the distribution fit. The data for the research were obtained from three small sewage treatment plants, operating in the Lesser Poland, 10, 11 and 14 km from Kraków. Due to their size, these facilities are included in the group of treatment plants below 2000 PE. The research was conducted for 10 years. In the statistical analysis, 20-, 40-, 60- and 80-element data series were used, including the values of biochemical oxygen demand (BOD5), chemical oxygen demand (CODCr) and total suspended solids (TSS), determined in samples of treated wastewater. Two commonly used tests, Kolmogorov-Smirnov λ and Pearson’s χ2 test were used to assess the fit of the theoretical statistical distribution to the empirical data distribution. Statistical analysis showed that the studied communities were characterised by an asymmetric, right-oblique distribution. Most often, the empirical distribution of the analysed measurement sequences was consistent with the Fisher-Tippett distribution. On the basis of the χ2 test, this distribution was described by a total of 31 out of 36 analysed groups at the significance level of a = 0.05. Other distributions that often describe the analysed empirical data are: Gamma, log-normal, Chi-square, and Weibull. The common feature of these distributions is usually asymmetry, right oblique. The skewness value ranges from 0.15 to 1.69.
Journal of Water and Land Development; 2022, 55; 115--124
Journal of Water and Land Development
Interpretacja statystyk w ar tykułach naukowych – wskazówki dla praktyków
the interpretation of the statistical data in scientific papers – advices for practitioners
Budzicz, Łukasz
Uniwersytet Zielonogórski. Oficyna Wydawnicza
wielkość efektu
istotność statystyczna
przedziały ufności
interpretowanie danych statystycznych.
effect size
statistical significance
confidence interval
interpretation of statistical data.
Artykuł zawiera informacje o tym, jak interpretować podstawowe dane statystyczne: wskaźniki istotności statystycznej, wielkości efektu i przedziały ufności. Pokazano kilka heurystyk użytecznych przy interpretacji wielkości efektów korelacji r Pearsona, statystyki d Cohena oraz relatywnego ryzyka. Olbrzymia większość pozostałych efektów jest pochodną wyżej wymienionych. Dodatkowo wskazano również, jakie są ograniczenia wybranych wskaźników, szczególnie istotności statystycznej. Artykuł jest pomyślany jako pomoc szczególnie dla psychologów praktyków.
The article contains information how to interpret statistical data: statistical significance, effect size and confidence intervals. Several heuristics are given how to usefully interpret the magnitude of the correlation Pearson’s r, Cohen’s d and relative risk. The vast majority of other effects is a derivative of the aforementioned. In addition, I also show the limitations of selected indicators, especially statistical significance. This article is intended as an aid especially for psychologists practitioners.
Psychologiczne Zeszyty Naukowe; 2017, 1; 143-158
Psychologiczne Zeszyty Naukowe
Istotność statystyczna w czasach big data
Statistical significance in the era of big data
Szreder, Mirosław
Główny Urząd Statystyczny
wnioskowanie statystyczne
testowanie hipotez
istotność staty-styczna
wskaźnik p-value
big data
podejście bayesowskie
statistical inference
hypothesis testing
statistical significance
bayesian approach
Rozwój nowych technologii wpływa zarówno na realizację badań statystycznych, jak i na postrzeganie ich wyników w świetle innych źródeł informacji. W tym kontekście powraca w środowisku naukowym temat roli testowania hipotez statystycznych oraz interpretowania i przedstawiania jego wyników, w tym stosowania kategorii istotności statystycznej oraz wskaźnika p-value. Inspiracją do powstania tego opracowania stała się fala dyskusji wokół tego zagadnienia toczących się na forum czasopism „Nature” i „The American Statistician” na początku 2019 r. Celem artykułu jest ukazanie szans i zagrożeń, jakie big data stwarza dla weryfikacji hipotez i wnioskowania statystycznego, zarówno w ujęciu klasycznym, jak i w podejściu bayesowskim. Autor uzasadnia konieczność zaniechania zbyt daleko posuniętych uproszczeń w realizacji procesu wnioskowania statystycznego oraz prezentowaniu wyników weryfikacji hipotez. Chodzi zarówno o postulat uwzględnienia jakości danych próbkowych, zwłaszcza typu big data, jak i o podawanie pełnej informacji o modelu statystycznym, na podstawie którego przeprowadza się wnioskowanie.
The development of new technologies has affected both the procedures of traditional statistical surveys and the perception of their results in the light of other available sources of information. In this connection, the role of the verification of statistical hypotheses and of the interpretation and presentation of its results, including the use of statistical significance and p-value, has recently returned as a frequent topic for discussion among the scientific community. The author was inspired to write this paper by a wave of discussion regarding this matter held at the beginning of 2019 in the Nature and The American Statistician journals. The aim of the paper is to present the opportunities provided and challenges posed by the use of big data to the hypothesis verification process and to statistical inference, both in the traditional and Bayesian approaches. The author explains the necessity of discontinuing adopting excessive simplifications while performing statistical inference and presenting the results of the verification of hypotheses. This involves both the postulate to pay greater attention to the quality of sampling data, especially in the case of data originating from big data sets, as well as the postulate to provide full information about the statistical model on the basis of which the inference is being performed.
Wiadomości Statystyczne. The Polish Statistician; 2019, 64, 11; 42-57
Wiadomości Statystyczne. The Polish Statistician
Przykłady zastosowań metod planowania i oceny eksperymentu w tomografii impedancyjnej i mikroskopii elektronowej
Selected applications of experiment planning and evaluation in the area of impedance tomography and electron microscopy
Oskwarek, Ł.
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
planowanie i ocena eksperymentu
hipotezy statystyczne
istotność wpływu czynnika
równanie regresji
experiment planning and evaluation
statistical hypotheses
significance of the impact factor
regression equation
Przedmiotem artykułu są wybrane zagadnienia z teorii eksperymentu, takie jak: testowanie hipotez statystycznych, ocena istotności wpływu czynników oraz ocena postaci równania regresji. Wiedza z tego zakresu została wykorzystana do oceny wyników pomiarów wykonanych na potrzeby impedancyjnej tomografii komputerowej (ocena krzywych poprawek, ocena wpływu czynników związanych z układem pomiarowym) oraz skaningowej mikroskopii elektronowej (ocena równania opisującego zniekształcenia obrazów pod wpływem zewnętrznego pola zakłócającego).
In the paper selected problems of the theory of experiment like: statistical hypotheses testing, assessment of the significance of impact factors and evaluation of a regression equation [1, 2, 3, 4, 5, 6] are presented. Knowledge of this area may be useful for engineers when assessing the method of measurement and operation of a developed system. From the analysis performed for impedance tomography [7, 8, 9], using planning and evaluation of experiment methods, one can draw the following conclusions: although it is necessary to introduce corrections to the raw measurements, their values can be approximated by a linear regression curve, it is possible to follow the same correction curves (Fig.1) and the associated uncertainty for measurement results obtained by excitation of different pairs of electrodes, most of parameters relating to the measurement system, in the examined range of variation, had no significant effect on the obtained results - thanks to that, conclusions presented in the paper are more universal. In turn, the calculations performed for microscopic research [10, 11] showed that the derived forms of the regression equation (Fig. 2) describe correctly the empirical data, and the reproducibility of performed experiments was satisfactory. This improves reliability of the results concerning evaluation of the impact of the external magnetic field on the distortion level of observed images.
Pomiary Automatyka Kontrola; 2011, R. 57, nr 11, 11; 1289-1292
Pomiary Automatyka Kontrola
Selected aspects of statistical analyses in sport with the use of statistica software
Jascaniene, Nijole
Nowak, Robert
Kostrzewa-Nowak, Dorota
Kolbowicz, Marek
Uniwersytet Szczeciński. Wydawnictwo Naukowe Uniwersytetu Szczecińskiego
data distribution
physical effort
repeated measures
statistical analysis
statistical significance
Statistical analysis is a crucial step in all experimental studies, including sport sciences, because inappropriate analysis can lead to erroneous assumptions of performed experiments. Statistical analyses of the training-related data are required to make the training process more efficient. The analyses of various parameters are performed in repeated cycles, requiring appropriate statistical tests. STATISTICA software (version 10) offers a Friedman test for non-parametric analyses of more than 2 groups of repeated measures (which often takes place). Unfortunately, there is no post hoc test to verify which groups decide of the statistical significance of the results. The solution to this problem may lie in the normalization of the data with one of the most popular logarithmic transformations. It allows performing multiple comparisons for the 1-way ANOVA with repeated measures, as well as appropriate post hoc test to precisely determine which group of data is responsible for the statistical significance of the differences.
Central European Journal of Sport Sciences and Medicine; 2013, 3, 3; 3-11
Central European Journal of Sport Sciences and Medicine
Szanse i iluzje dotyczące korzystania z dużych prób we wnioskowaniu statystycznym
Opportunities and illusions of using large samples in statistical inference
Szreder, Mirosław
Główny Urząd Statystyczny
wnioskowanie statystyczne
błąd próbkowania
błąd losowy
liczebność próby
istotność statystyczna
statistical inference
sampling error
random error
sample size
statistical significance
Teoria wnioskowania statystycznego jasno określa korzyści związane z dużą liczebnością próby badawczej. Wraz ze wzrostem wielkości próby maleje ilość błędów ocen szacowanych parametrów populacji (zwiększa się precyzja estymacji), a także rosną wartości mocy testów wykorzystywanych do weryfikacji hipotez statystycznych. Współczesne możliwości łatwego dotarcia do dużych prób badawczych (np. paneli internetowych), a także korzystania z coraz bardziej zaawansowanego i przyjaznego dla użytkownika oprogramowania statystycznego sprzyjają niedostrzeganiu zagrożeń dla wnioskowania statystycznego, jakie wiążą się z dużymi liczebnie próbami. Część badaczy ulega iluzji, że duża próba jest w stanie zniwelować i rozproszyć nie tylko błąd losowy, charakterystyczny dla każdej techniki losowania próby, lecz także błędy nielosowe. Znaczenie dużej liczebności próby jest ponadto jednym z ważnych aspektów toczącej się od kilkunastu lat dyskusji na temat istotności statystycznej (p-value) oraz problemów z jej rozstrzyganiem i interpretowaniem. Celem opracowania jest wskazanie i omówienie konsekwencji dostrzegania w dużych próbach statystycznych jedynie szans, a pomijanie wyzwań i zagrożeń wynikających z ich stosowania. W artykule pokazano, że duża liczebność próby, której doboru dokonano za pomocą techniki nieprobabilistycznej, nie może stanowić alternatywy dla wyboru losowego. W szczególności dotyczy to internetowych paneli wolontariuszy deklarujących chęć udziału w badaniu. Wskazano ponadto na znaczenie komponentu nielosowego w błędzie próbkowania, który nie jest malejącą funkcją liczebności próby. W odniesieniu zaś do współczesnych problemów weryfikacji hipotez nakreślono i zilustrowano przykładem naukowy i etyczny wymiar podążania za istotnością statystyczną z wykorzystaniem dużych liczebnie prób lub wielokrotnego próbkowania.
The theory of statistical inference clearly describes the benefits of large samples. The larger the sample size, the fewer standard errors of the estimated population parameters (the precision of the estimation improves) and the values of the power of statistical tests in hypothesis testing increase. Today’s easy access not only to large samples (e.g. web panels) but also to more advanced and user-friendly statistical software may obscure the potential threats faced by statistical inference based on large samples. Some researchers seem to be under the illusion that large samples can reduce both random errors, typical for any sampling technique, as well as non-random errors. Additionally, the role of a large sample size is an important aspect of the much discussed in the recent years issue of statistical significance (p-value) and the problems related to its determination and interpretation. The aim of the paper is to present and discuss the consequences of focusing solely on the advantages of large samples and ignoring any threats and challenges they pose to statistical inference. The study shows that a large-size sample collected using one of the non-random sampling techniques cannot be an alternative to random sampling. This particularly applies to online panels of volunteers willing to participate in a survey. The paper also shows that the sampling error may contain a non-random component which should not be regarded as a function of the sample size. As for the contemporary challenges related to testing hypotheses, the study discusses and exemplifies the scientific and ethical aspects of searching for statistical significance using large samples or multiple sampling.
Wiadomości Statystyczne. The Polish Statistician; 2022, 67, 8; 1-16
Wiadomości Statystyczne. The Polish Statistician
Testy ANOVA jako narzędzie wspomagające weryfikację hipotez statystycznych
ANOVA Tests as a Tool to Assist in Verifying Statistical Hypothesis
Malska, Wiesława
Twaróg, Bogusław
Wyższa Szkoła Biznesu i Przedsiębiorczości w Ostrowcu Świętokrzyskim
hipoteza statystyczna
współczynnik zawartości harmonicznych
test istotności
wartość średnia
statistical hypothesis
total harmonic distortion
significance test
mean value
W artykule przedstawiono wykorzystanie testów istotności, które wspomagają weryfikację hipotez statystycznych. Weryfikacja hipotez statystycznych opiera się na przyjęciu lub odrzuceniu hipotezy zerowej z góry przyjętym poziomem prawdo-podobieństwa α. Decyzja ta podejmowana jest jedynie na podstawie wyników próby losowej, bez badań całej zbiorowości statystycznej. Testy istotności są przydatne zwłaszcza w zastosowaniach technicznych, gdzie wyniki uzyskane z małej lub dużej próby losowej są uogólniane na całą zbiorowość statystyczną. W artykule wykorzystano wybrane testy, które dostępne są w programie komputerowym STATISTICA. Testy te oparte są na wybranych rozkładach zmiennych losowych. Zaprezentowano przykład związany z wykorzystaniem weryfikacji hipotezy o równości wartości średnich w odniesieniu do zagadnień związanych z jakością energii elektrycznej w obwodach napięć zasilających. Wyniki badań z prób losowych są uogólnione z prawdopodobieństwem równym współczynnikowi istotności.
The article presents the use of significance tests that support the verification of statistical hypothesis. Verification of statistical hypothesis is based on accepting or rejecting the null hypothesis of a predetermined level of probability α. This decision is made only on the basis of the results of the trial, without the study of the whole statistical population. Materiality tests are particularly useful in applied techniques, where results from a small or large random sample are generalized to the whole statistical population. This article uses selected tests that are available in the STATISTICA computer program. These tests are based on random distributions of random variables. An example of the use of the verification of the equality of mean values α for the issues related to the quality of electricity in the supply voltage circuits is presented. The results of random sampling are generalized with a probability equal to the significance factor.
Acta Scientifica Academiae Ostroviensis. Sectio A, Nauki Humanistyczne, Społeczne i Techniczne; 2017, 10(2)/2017; 148-159
Acta Scientifica Academiae Ostroviensis. Sectio A, Nauki Humanistyczne, Społeczne i Techniczne
Wybrane aspekty wnioskowania statystycznego
Selected Aspects of the Statistical Inference
Uniwersytet Rzeszowski
hipoteza statystyczna
współczynnik ufności
współczynnik istotności
statistical hypothesis
confidence factor
significance factor
Często w zastosowaniach technicznych wykorzystuje się działy statystyki matematycznej do analizy danych. W statystyce matematycznej korzysta się z rozkładów teoretycznych zmiennych losowych. W dziale wnioskowania statystycznego, które obejmuje zagadnienia estymacji i weryfikacji hipotez, rozkłady teoretyczne pozwalają na podstawie opracowania wyników uzyskanych jedynie z prób losowych na uogólnienie dla całej populacji generalnej. W przypadku estymacji szacowanie wartości parametrów odbywa się z prawdopodobieństwem równym współczynnikowi ufności. W weryfikacji hipotez podejmowane są decyzje o prawdziwości lub fałszywości hipotezy zerowej z prawdopodobieństwem równym współczynnikowi istotności. W artykule zawarto wybrane aspekty dotyczące wykorzystania wnioskowania statystycznego w analizie danych.
Often in technical applications mathematical statistics are used to analyze data. Mathematical statistics use theoretical distributions of random variables. In the section of statistical inference, which includes issues of estimation and verification of hypotheses, theoretical distributions allow the development of results on the basis of only the results of random sampling on the generalization of the entire population. In the case of estimation, the estimation of the parameter values takes place with a probability equal to the confidence coefficient. Verification of hypotheses makes decisions about the truth or falsity of the null hypothesis with a probability equal to the significance factor. The article includes selected aspects of the use of statistical inference in data analysis.
Edukacja-Technika-Informatyka; 2017, 8, 3; 93-99
Wykorzystanie testu Levene’a i testu Browna-Forsythe’a w badaniach jednorodności wariancji
The use of Levene test and Brown-Forsythe test in the analysis of homogeneity of variance
MALSKA, Wiesława
Uniwersytet Rzeszowski
hipoteza statystyczna
test istotności
test Levene’a
test Browna-Forsythe’a
poziom istotności
weryfikacja hipotez statystycznych
statistical hypothesis
Levene tests
Brown-Forsythe tests
the level of significance
verification of statistical hypotheses
W artykule przedstawiono analizę możliwości zastosowania testu Levene’a i testu Browna-Forsythe’a do weryfikacji hipotezy o jednorodności wariancji dla dwóch lub więcej populacji, dostępne w programie STATISTICA. Wybierając odpowiedni test, należy zwrócić uwagę na liczebności prób losowych. Dla współczynnika istotności α podjęcie decyzji weryfikującej sprowadza się do interpretacji wartości prawdopodobieństwa testowego p, jaki otrzymuje się w wynikach odpowiednich testów. Wybór właściwego testu jest podstawowym wymogiem prawidłowego przebiegu procesu weryfikacji hipotezy o jednorodności wariancji dla dwóch lub więcej populacji. Słowa kluczowe: hipoteza statystyczna, test istotności, test Levene’a, test Browna-Forsythe’a, poziom istotności, weryfikacja hipotez statystycznych.
The paper presents an analysis of the applicability of the test Levene and Brown-Forsythe test to verify the hypothesis of homogeneity variance for two or more populations, which are available in STATISTICA. Choosing the right test, it is necessary to note the number of random samples. For the factor of significance α decision verifying boils down to the interpretation of probability test p, which receive the results of relevant tests. Choosing the correct test is a basic requirement for the proper conduct of the verification process statistical hypothesis of homogeneity of variance for two or more of the population.
Edukacja-Technika-Informatyka; 2016, 7, 4; 365-369
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
The Use of t-Test for a Single Study at Statistical Inference
MALSKA, Wiesława
Uniwersytet Rzeszowski
hipoteza statystyczna
test istotności
rozkład t-Studenta
poziom istotności
weryfikacja hipotez statystycznych
statistical hypothesis
test of significance
Student-t distribution
the level of significance
verification of statistical hypotheses
W artykule przedstawiono analizę możliwości zastosowania testu t do weryfikacji hipotezy, że wartość średnia cechy statystycznej (ilościowej) populacji generalnej jest równa pewnej wartości hipotetycznej. W tym celu wykorzystano Test t dla pojedynczej próby dostępny w programie STATISTICA. W teście dla wartości przeciętnej wykorzystuje się dwie statystyki testowe, wybór których uzależniony jest od wielkości (liczebności) próby losowej, którą dysponujemy. Zaprezentowano przykładowe obliczenia z wykorzystaniem testu istotności w module Test t dla pojedynczej próby. Wybór właściwego testu jest podstawowym wymogiem prawidłowego przebiegu procesu weryfikacji hipotezy statystycznej.
The paper presents an analysis of the applicability of the t-test to verify the hypothesis that the value of the average statistical features (quantitative) of the general population is equal to a certain hypothetical value. For this purpose, there was used the t-test for a single sample available in STATISTICA. In the test for the value of the average there are used two test statistics, the choice of which depends on the size (number of) a random sample that we have. There are shown in the paper exemplary calculations using the significance test in t-test module for a single sample. Choosing of the right test is a basic requirement of proper conduct of statistical hypothesis verification process.
Edukacja-Technika-Informatyka; 2015, 6, 3; 323-327
