Ein Service des Deutschen Diabetes-Zentrums DDZ Düsseldorf
zurück

Was bedeutet „statistisch signifikant“ und was ist ein p-Wert?

(18.06.2009) Startet man eine Web-Suche zum Begriff "statistisch signifikant", so erhält man um die 80.000 Treffer. Die Suchergebnisse beziehen sich meist auf Artikel, in denen über Studienergebnisse wissenschaftlicher Forschung berichtet wird. Sieht man sich die Studienergebnisse genauer an, so findet man beispielsweise Redewendungen wie "Medikament X zeigte eine statistisch signifikante Senkung des HbA1c-Wertes", "Es konnte eine signifikante Senkung der Nüchternglukose erreicht werden", oder "Der HbA1c-Wert der intensiver therapierten Patienten unterschied sich signifikant vom Wert der Gruppe mit konventioneller Therapie (p < 0,0001)".




Was aber bedeutet "statistisch signifikant" und was steckt hinter dem Kürzel "(p < 0,0001)"?

Etwas salopp kann man sagen, dass ein Studienergebnis "statistisch signifikant" ist, falls dieses oder noch extremere Ergebnisse nur mit geringer Wahrscheinlichkeit durch bloßen Zufall zu erklären sind.

Nehmen wir als Beispiel eine Studie zu übergewichtigen Geschwistern, von der Gunilla Erdmann hier (Gestörte Glukosetoleranz bei übergewichtigen Geschwistern von Kindern mit Typ 2 Diabetes) auf Diabetes-heute berichtet. Die Studie sollte dazu beitragen, die Frage zu beantworten, ob übergewichtige Geschwister von Kindern mit einem Typ 2 Diabetes häufiger eine gestörte Glukosetoleranz aufweisen als übergewichtige Kinder ohne diabetische Geschwister. Hierzu wurden insgesamt 62 übergewichtige Kinder untersucht, 20 von diesen hatten Geschwister mit einem Typ 2 Diabetes. Von diesen hatten 8 Kinder, also 40 % eine gestörte Glukosetoleranz, wohingegen unter den restlichen 42 Kindern ohne diabetische Geschwister nur 6, also 14,3 % eine gestörte Glukosetoleranz aufzeigten.

Die Häufigkeiten der Glukoseintoleranz von 40 % und 14,3 % in den beiden Gruppen von Kindern sind auffallend, man könnte auch sagen signifikant verschieden, aber ist dieser Unterschied auch "statistisch signifikant", kann er also nur mit geringer Wahrscheinlichkeit durch bloßen Zufall erklärt werden?
 
Nehmen wir an, dass es in der Gesamtbevölkerung aller übergewichtigen Kinder keinen Unterschied in der Glukosetoleranz zwischen Kindern mit und ohne Typ 2 diabetischen Geschwistern gäbe. In diesem Fall hätte man auch 6 + 8 = 14 Kinder zufällig aus den insgesamt 62 auswählen und als glukoseintolerant einstufen können. Die Wahrscheinlichkeit, dass von diesen zufällig ausgewählten 14 Kindern genau 8 diabetische und 6 nur nicht-diabetische Geschwister haben, beträgt 2,27 %. Rechnet man alle Wahrscheinlichkeiten von extremeren Studienergebnissen - also Ergebnissen, die mit noch kleineren Wahrscheinlichkeiten auftreten können - hinzu, so erhält man die Zahl 4,78 %. Im Allgemeinen wird eine so berechnete Zahl, die also angibt, wie hoch die Wahrscheinlichkeit für das beobachtete oder noch extremere Studienergebnisse ist, falls nur der Zufall seine Hand im Spiel hatte, als p-Wert bezeichnet. Genau dieser Zahlenwert ist es, der in wissenschaftlichen Publikationen, oft in Klammer stehend, mit "p" bezeichnet wird. Die konkrete Berechnung des p-Wertes kann jedoch je nach Fragestellung und der zu vergleichenden Messgrößen variieren.

Auf den meisten Gebieten der empirischen Forschung hat es sich eingebürgert ein Studienergebnis statistisch signifikant zu nennen, falls der zugehörige p-Wert kleiner oder gleich 5 % ist. "Statistisch signifikant" ist also gleichbedeutend mit "p ≤ 0,05". Da in unserem Beispiel p = 4.78 % kleiner oder gleich 5 % ist, kann also der Unterschied der Glukoseintoleranz-Häufigkeiten in den beiden Kindergruppen als statistisch signifikant angesehen werden.

Das Prädikat "statistisch signifikant" ist mit Vorsicht zu genießen. Immerhin kann im Schnitt (schlimmstenfalls) noch eines von zwanzig statistisch signifikanten Studienergebnissen auf reinem Zufall beruhen. Darüberhinaus ist zu beachten, dass der Zusatz "statistisch signifikant" nichts über die Relevanz des zugrundeliegenden Unterschiedes zwischen den Vergleichsgruppen aussagt. Sind die Fallzahlen in den Gruppen groß, so können auch kleine, für die Praxis irrelevante Unterschiede zwischen den Gruppen noch als statistisch signifikant nachgewiesen werden.

Abschließend sei davor gewarnt, aus einem „statistisch nicht signifikanten“ Studienergebnis den Rückschluss zu ziehen, dass der untersuchte Unterschied nicht vorhanden ist. Auch bei zugrundeliegenden großen Unterschieden kann ein Studienergebnis statistisch nicht signifikant sein, falls beispielsweise die Fallzahlen sehr klein sind.

Dr. rer. nat. Klaus Straßburger, Deutsches Diabetes-Zentrum an der Heinrich-Heine-Universität Düsseldorf, Leibniz-Zentrum für Diabetes-Forschung

zurück