Narzędzie webowe do planowania liczebności próby dla badań porównujących różnice między dwiema grupami lub między dwoma pomiarami tej samej grupy. Aplikacja została przygotowana jako praktyczny kalkulator analizy mocy dla testów parametrycznych i nieparametrycznych, ze szczególnym naciskiem na sytuację, w której rozkład danych nie jest znany na etapie planowania badania.
Program odpowiada na pytanie:
Jaką trzeba mieć liczebność próby, aby analiza statystyczna porównująca różnice była wiarygodna?
W języku metodologicznym chodzi o wyznaczenie minimalnej liczebności próby zapewniającej zadaną:
- istotność statystyczną (
α, poziom błędu I rodzaju), - moc testu (
1 − β, zdolność wykrycia efektu), - czułość na określoną wielkość efektu,
- zgodność z planowanym schematem badania (próby niezależne lub zależne).
Program ma charakter a priori power analysis, czyli służy do planowania badania przed zebraniem danych.
Aktualna wersja aplikacji obsługuje dwa schematy badawcze:
- Dwie grupy niezależne
- Pomiary zależne (parowane)
W ramach tych schematów udostępnione są cztery testy:
- Test t-Studenta dla prób niezależnych
Parametryczny test różnicy średnich, stosowany przy założeniu normalności i homogeniczności wariancji. - Test Manna-Whitneya (U)
Nieparametryczny odpowiednik dla dwóch grup niezależnych, stosowany wtedy, gdy rozkład jest nieznany, dane są skośne albo zawierają wartości odstające.
- Test t-Studenta dla prób zależnych
Parametryczny test średniej różnicy między dwoma pomiarami. - Test Wilcoxona (znaków rangowanych)
Nieparametryczny odpowiednik dla danych sparowanych.
Użytkownik wybiera, czy analizuje:
- dwie niezależne grupy,
- czy dwa pomiary tych samych osób / obiektów.
Od tego zależy interpretacja liczebności:
- dla prób niezależnych wynik oznacza liczbę obserwacji na grupę,
- dla prób zależnych wynik oznacza liczbę par / osób mierzonych dwukrotnie.
Aplikacja umożliwia wybór spośród kilku standardowych wartości poziomu istotności:
- 0.001
- 0.005
- 0.01
- 0.025
- 0.05
- 0.10
Interpretacja:
αto prawdopodobieństwo popełnienia błędu I rodzaju,- czyli odrzucenia hipotezy zerowej
H₀, mimo że jest prawdziwa.
W badaniach empirycznych najczęściej stosuje się α = 0.05.
Użytkownik może wybrać żądaną moc testu z przedziału od 0.70 do 0.95.
Interpretacja:
- moc testu to prawdopodobieństwo wykrycia efektu, jeśli efekt rzeczywiście istnieje,
βoznacza błąd II rodzaju, czyli niewykrycie istniejącego efektu.
Najczęściej przyjmowaną wartością jest 0.80.
Aplikacja wspiera dwa tryby testowania:
- hipoteza dwustronna – badacz sprawdza, czy istnieje różnica w dowolnym kierunku,
- hipoteza jednostronna – badacz testuje różnicę tylko w jednym, wcześniej określonym kierunku.
Hipoteza jednostronna wymaga silnego uzasadnienia metodologicznego i powinna być wybierana wyłącznie wtedy, gdy kierunek efektu został określony przed rozpoczęciem badania.
Aplikacja umożliwia zdefiniowanie efektu na trzy sposoby:
Predefiniowane wartości:
d = 0.2– mały efektd = 0.5– średni efektd = 0.8– duży efekt
Użytkownik może wprowadzić własną wartość standaryzowanej wielkości efektu.
Aplikacja może policzyć:
d = Δ / σ
gdzie:
Δ– minimalna różnica, którą badacz chce wykryć,σ– odchylenie standardowe.
Dla prób zależnych σ oznacza odchylenie standardowe różnic, a nie surowych wyników.
Kalkulator pozwala dodać zapas na:
- brakujące dane,
- wykluczenia,
- rezygnacje uczestników,
- odpadnięcia w badaniach podłużnych.
Wynik prezentowany jest:
- jako liczebność bazowa,
- oraz jako liczebność powiększona o zadany bufor.
Dla każdego scenariusza aplikacja pokazuje:
- wynik dla testu parametrycznego,
- wynik dla testu nieparametrycznego.
To pozwala użytkownikowi zdecydować, czy planować badanie:
- pod kątem scenariusza bardziej optymistycznego (parametrycznego),
- czy bardziej konserwatywnego (nieparametrycznego).
Jeżeli użytkownik deklaruje, że:
- nie zna rozkładu,
to aplikacja rekomenduje przyjęcie wyniku dla testu nieparametrycznego jako bezpieczniejszej podstawy planowania.
Aplikacja generuje wykres zależności:
- liczebność próby → moc testu
osobno dla:
- testu parametrycznego,
- testu nieparametrycznego.
To pozwala zobaczyć:
- gdzie przebiega punkt osiągnięcia żądanej mocy,
- jak szybko rośnie moc wraz ze wzrostem próby,
- i gdzie zaczyna się obszar malejących korzyści.
Program buduje tabelę wymagań liczebności dla różnych:
- wielkości efektu (
d), - poziomów mocy.
To ułatwia analizę typu:
- „co się stanie z wymaganą próbą, jeśli efekt okaże się mniejszy, niż zakładam?”
Aplikacja zawiera sekcję objaśniającą:
- czym jest
α, - czym jest moc testu,
- czym jest
d, - skąd pochodzą wzory,
- i w jaki sposób liczona jest korekta dla testów nieparametrycznych.
Podstawą działania programu jest klasyczna analiza mocy statystycznej (statistical power analysis), rozwinięta systematycznie przez Jacoba Cohena.
Analiza mocy opisuje zależność między czterema wielkościami:
- liczebnością próby
n, - poziomem istotności
α, - mocą testu
1 − β, - wielkością efektu
ES(effect size).
W każdym konkretnym modelu statystycznym jedna z tych wielkości jest funkcją pozostałych trzech. W planowaniu badania interesuje nas najczęściej:
jakie n jest potrzebne, aby przy zadanym α i założonym efekcie osiągnąć żądaną moc?
W przypadku porównania różnic między dwiema średnimi najczęściej stosowaną miarą jest Cohen’s d:
d = Δ / σ
gdzie:
Δto różnica, którą chcemy wykryć,σto odchylenie standardowe.
Wartości konwencyjne zaproponowane przez Cohena:
0.2– mały efekt,0.5– średni efekt,0.8– duży efekt.
Wartość d = 0.5 nie jest wyprowadzona z jednego twierdzenia matematycznego ani z jednej uniwersalnej funkcji. Jest to konwencja empiryczna, zaproponowana przez Cohena jako rozsądny punkt startowy wtedy, gdy badacz nie ma wiarygodnych danych pilotażowych ani wcześniejszych estymacji efektu.
Aktualna implementacja nie opiera się wyłącznie na szkolnym przybliżeniu opartym na rozkładzie normalnym.
Program działa dwuetapowo:
- wyznacza przybliżone
nz klasycznego wzoru, - następnie szuka najmniejszego
n, dla którego dokładna moc testu t osiąga zadany poziom.
n ≈ 2 * (z_crit + z_power)^2 / d^2
gdzie:
n– liczba obserwacji na grupę,z_crit– wartość krytyczna dla zadanegoα,z_power– kwantyl odpowiadający żądanej mocy,d– Cohen’s d.
n ≈ (z_crit + z_power)^2 / d^2
Dla:
α = 0.05,- testu dwustronnego,
- mocy
0.80,
otrzymujemy:
n ≈ 16 / d^2 (dla dwóch grup niezależnych)
n ≈ 8 / d^2 (dla prób parowanych)
To uproszczenie zostało opisane przez Lehra (1992) jako praktyczna reguła pamięciowa.
Po wyznaczeniu przybliżonego punktu startowego aplikacja liczy moc testu t z wykorzystaniem niecentralnego rozkładu t.
Dla prób niezależnych:
- liczba stopni swobody:
df = 2 * (n - 1) - parametr niecentralności:
δ = d * sqrt(n / 2)
Dla prób zależnych:
- liczba stopni swobody:
df = n - 1 - parametr niecentralności:
δ = d * sqrt(n)
Dla kolejnych kandydatów n liczona jest moc:
Power = P(|T| > t_crit | df, δ)
Wyniki parametryczne prezentowane w aplikacji są więc dokładniejsze niż samo przybliżenie z wzoru z.
W przypadku testów nieparametrycznych sytuacja jest metodologicznie bardziej złożona.
Testy takie jak:
- Mann-Whitney,
- Wilcoxon signed-rank,
nie są w ogólności prostymi „testami median”.
Test Manna-Whitneya nie testuje automatycznie różnicy median.
Formalnie test ten dotyczy różnicy między rozkładami lub prawdopodobieństwa przewagi jednej obserwacji nad drugą:
P(X > Y)
Interpretacja jako testu median jest poprawna dopiero przy dodatkowych założeniach, np. gdy oba rozkłady mają podobny kształt i różnią się głównie położeniem.
Analogicznie:
- test Wilcoxona signed-rank jest ściśle związany z rozkładem różnic i najczyściej interpretuje się go jako test przesunięcia lokalizacji przy odpowiednich założeniach o symetrii różnic.
Aktualna wersja programu stosuje podejście konserwatywne i intuicyjne:
- najpierw wyznacza liczebność dla odpowiadającego testu t,
- następnie koryguje tę liczebność przez asymptotyczną względną efektywność (Asymptotic Relative Efficiency, ARE).
Dla porównania testu rangowego z testem t przy rozkładzie normalnym przyjmuje się klasyczną wartość:
ARE = 3 / π ≈ 0.9549
Stąd:
n_nonparam = ceil(n_param / ARE)
czyli praktycznie:
- test nieparametryczny potrzebuje około 4.7% więcej obserwacji niż test parametryczny.
To podejście ma kilka zalet:
- jest proste i intuicyjne,
- dobrze nadaje się do planowania przy nieznanym rozkładzie,
- daje wynik konserwatywny,
- pozostaje zgodne z klasyczną teorią asymptotyczną.
Należy jasno podkreślić:
- wyniki dla testów t są w tej aplikacji dokładne w sensie modelu niecentralnego rozkładu t,
- wyniki dla testów nieparametrycznych są przybliżeniem naukowo uzasadnionym, ale nie są dokładnym wyznaczeniem mocy dla dowolnego rozkładu.
W bardziej zaawansowanych analizach dla testów nieparametrycznych można stosować:
- podejście Noethera (1987),
- dokładniejsze przybliżenia Shieh, Jan i Randles (2006, 2007),
- symulację Monte Carlo dla konkretnego modelu danych.
Aktualna aplikacja świadomie wybiera prostsze i bardziej intuicyjne rozwiązanie, aby zachować użyteczność dla badacza planującego badanie bez pełnej wiedzy o rozkładzie.
W klasycznym scenariuszu:
d = 0.5α = 0.05- moc =
0.80 - test dwustronny
aplikacja zwraca dla dwóch grup niezależnych:
- test t:
n = 64na grupę - Mann-Whitney:
n = 68na grupę
To jest zgodne z klasycznymi tabelami Cohena oraz z ogólną relacją wynikającą z korekty ARE.
Wynik oznacza minimalną liczbę obserwacji potrzebną do wykrycia różnicy o zadanej wielkości d przy:
- ustalonym
α, - zadanej mocy,
- zadanym typie hipotezy,
- założeniu odpowiedniego modelu testu t.
Wynik oznacza konserwatywną estymację liczebności potrzebnej do uzyskania podobnej czułości analitycznej bez konieczności przyjmowania normalności.
Poniższe punkty są kluczowe dla poprawnej interpretacji programu:
Aktualna wersja nie implementuje:
- ANOVA,
- Kruskala-Wallisa,
- Welch t-test,
- projektów wielopoziomowych,
- modeli mieszanych,
- analiz z nierównym przydziałem do grup.
Dla prób niezależnych liczebności grup są równe (n1 = n2).
To przybliżenie przez ARE, a nie pełny model oparty na:
- prawdopodobieństwie przewagi,
- dokładnym efekcie rangowym,
- liczbie wiązań,
- konkretnym rozkładzie alternatywnym.
Nie należy używać go do uzasadniania już zebranej próby po obejrzeniu wyników. Narzędzie jest przeznaczone do planowania badania przed zebraniem danych.
Jeśli użytkownik chce mówić ściśle o medianach, musi pamiętać, że:
- Mann-Whitney nie jest w pełni równoważny testowi median bez dodatkowych założeń o kształcie rozkładu,
- Wilcoxon signed-rank wymaga odpowiednich warunków interpretacyjnych dotyczących rozkładu różnic.
Program jest szczególnie przydatny, gdy:
- badacz chce zaplanować badanie porównawcze,
- nie ma jeszcze danych,
- zna
α, moc i przybliżoną wielkość efektu, - nie zna rozkładu i chce przyjąć ostrożny wariant planowania,
- chce szybko porównać wariant parametryczny i nieparametryczny.
Wymagane biblioteki:
streamlitscipynumpypandasmatplotlib
Instalacja przez pip:
pip install streamlit scipy numpy pandas matplotlibInstalacja przez conda:
conda install streamlit scipy numpy pandas matplotlibZ katalogu projektu:
streamlit run app.pyInterfejs zawiera cztery główne zakładki:
-
Wynik główny
Podstawowy wynik liczebności dla wariantu parametrycznego i nieparametrycznego. -
Krzywa mocy
Wykres relacji liczebność–moc. -
Analiza czułości
Tabela wymaganych prób dla różnychdi różnych poziomów mocy. -
Metodologia i referencje
Skrócony opis podstaw teoretycznych bezpośrednio w aplikacji.
Program nie zastępuje pełnej konsultacji biostatystycznej, ale stanowi:
- rzetelne narzędzie do wstępnego planowania,
- intuicyjny kalkulator dla badaczy,
- naukowo uzasadniony kompromis między prostotą a poprawnością metodologiczną.
W praktyce oznacza to, że użytkownik może:
- zaplanować konserwatywną próbę przy nieznanym rozkładzie,
- szybko ocenić koszt badania przy różnych założeniach,
- uzyskać wynik zgodny z klasyczną analizą mocy i literaturą metodyczną.
-
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates.
-
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155–159. https://doi.org/10.1037/0033-2909.112.1.155
-
Lehr, R. (1992). Sixteen S-squared over D-squared: A relation for crude sample size estimates. Statistics in Medicine, 11(8), 1099–1102. https://doi.org/10.1002/sim.4780110811
-
Noether, G. E. (1987). Sample size determination for some common nonparametric tests. Journal of the American Statistical Association, 82(398), 645–647. https://doi.org/10.1080/01621459.1987.10478478
-
Lehmann, E. L. (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden-Day.
-
Shieh, G., Jan, S.-L., & Randles, R. H. (2006). On power and sample size determinations for the Wilcoxon-Mann-Whitney test. Journal of Nonparametric Statistics, 18(1), 33–43. https://doi.org/10.1080/10485250500473099
-
Shieh, G., Jan, S.-L., & Randles, R. H. (2007). Power and sample size determinations for the Wilcoxon signed-rank test. Journal of Statistical Computation and Simulation, 77(8), 717–724. https://doi.org/10.1080/10629360600635245
-
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39(2), 175–191. https://doi.org/10.3758/BF03193146
-
Hoenig, J. M., & Heisey, D. M. (2001). The abuse of power: The pervasive fallacy of power calculations for data analysis. The American Statistician, 55(1), 19–24. https://doi.org/10.1198/000313001300339897
Uwaga końcowa:
Aktualna wersja programu jest naukowo poprawnym narzędziem do planowania liczebności próby dla porównań dwugrupowych, ale jego część nieparametryczna ma charakter przybliżony i konserwatywny. Jeżeli projekt badania ma wysoką wagę kliniczną, regulacyjną lub rejestracyjną, zalecane jest potwierdzenie liczebności przez dedykowane oprogramowanie lub symulację Monte Carlo.