Der p-Wert (probability value) ist ein zentrales Konzept der inferenzstatistischen Auswertung klinischer Studien. Er gibt an, mit welcher Wahrscheinlichkeit die beobachteten Daten oder noch extremere Ergebnisse auftreten würden, wenn die Nullhypothese wahr wäre. Der p-Wert ist damit kein Maß für die Wahrscheinlichkeit, dass die Nullhypothese zutrifft, und auch kein Maß für die klinische Bedeutsamkeit eines Effekts. Diese Missverständnisse sind in der klinischen Forschung weit verbreitet und können zu fehlerhaften Schlussfolgerungen führen. Ein niedriger p-Wert zeigt an, dass die beobachteten Daten unter der Nullhypothese unwahrscheinlich sind. Der p-Wert ist kein direktes Maß für die Stärke eines Effekts und sagt nichts darüber aus, ob ein Befund praktisch relevant ist. Diese Einschränkungen sind fundamental und müssen bei jeder Interpretation beachtet werden.
Definition und Interpretation
In der klassischen frequentistischen Statistik wird der p-Wert im Rahmen eines Signifikanztests berechnet. Als Signifikanzniveau wird in der klinischen Forschung in der Regel ein Schwellenwert von 0,05 verwendet. Liegt der p-Wert unterhalb dieses Schwellenwerts, gilt das Ergebnis als statistisch signifikant, und die Nullhypothese wird verworfen. Liegt er darüber, kann die Nullhypothese nicht verworfen werden. Ein p-Wert von beispielsweise 0,03 bedeutet: Wenn die Nullhypothese wahr wäre, würden Daten wie die beobachteten in 3 von 100 zufälligen Stichproben auftreten.
Entscheidend ist, dass statistische Signifikanz nicht gleichbedeutend mit klinischer Relevanz ist. Eine Studie mit sehr großer Stichprobe kann statistisch signifikante Ergebnisse liefern, obwohl der beobachtete Effekt klinisch bedeutungslos ist. Umgekehrt kann eine klinisch wichtige Differenz statistisch nicht signifikant sein, wenn die Studie zu gering dimensioniert ist. Deshalb sollte der p-Wert immer gemeinsam mit dem Konfidenzintervall und dem klinischen Kontext interpretiert werden.
p-Wert und Konfidenzintervall
Konfidenzintervalle liefern mehr Information als der p-Wert allein, da sie die Präzision einer Schätzung sichtbar machen. Ein 95-%-Konfidenzintervall, das den Nullwert nicht einschließt, entspricht einem zweiseitigen p-Wert unter 0,05. Regulatoren und wissenschaftliche Gutachter erwarten in der Regel die Angabe beider Größen. Die ICH-E9-Leitlinie zur statistischen Auswertung klinischer Studien betont ausdrücklich, dass Konfidenzintervalle bevorzugt neben oder anstelle von p-Werten berichtet werden sollen.
In jüngerer Zeit wird in der wissenschaftlichen Literatur zunehmend kritisch über den alleinigen Einsatz des p-Werts als Entscheidungskriterium diskutiert. Die American Statistical Association hat 2016 und 2019 Stellungnahmen veröffentlicht, die zur vorsichtigen Interpretation des p-Werts aufrufen und empfehlen, statistische Signifikanz nicht als einziges Kriterium für wissenschaftliche Ergebnisse zu nutzen. Diese Diskussion hat auch Eingang in regulatorische Leitlinien gefunden.
Multiple Testproblematik
Wenn in einer Studie mehrere Hypothesen gleichzeitig getestet werden, steigt die Wahrscheinlichkeit, mindestens einmal ein falsch-positives Ergebnis zu erhalten (Alpha-Fehler-Inflation). Dieses Problem tritt in klinischen Studien mit mehreren primären Endpunkten, mehreren Behandlungsarmen oder Subgruppenanalysen auf. Um die Alpha-Fehler-Inflation zu kontrollieren, werden Korrekturverfahren wie die Bonferroni-Korrektur, die Holm-Methode oder hierarchische Testprozeduren eingesetzt.
Regulatoren verlangen, dass der Umgang mit multiplen Tests prospektiv im statistischen Analyseplan festgelegt wird. Diese Anforderung gilt sowohl für Zulassungsstudien als auch für Studien zur Nutzenbewertung nach Marktzulassung. Nachträgliche Anpassungen des Signifikanzniveaus oder der Testprozedur gelten als schwerwiegender methodischer Mangel und können zur Ablehnung eines Zulassungsantrags führen. Full-Service-CROs wie mediconomics unterstützen Sponsoren bei der statistischen Studienplanung, der Ausarbeitung des statistischen Analyseplans und der regulatorischen Kommunikation zur Testprozedur.
p-Wert in der regulatorischen Bewertung
In Zulassungsverfahren ist der p-Wert des primären Endpunkts das zentrale Kriterium für den Wirksamkeitsnachweis. EMA und FDA verlangen einen vorab definierten primären Endpunkt, ein vorab festgelegtes Signifikanzniveau und eine konfirmatorische Auswertung gemäß dem statistischen Analyseplan. Exploratorische Analysen und Subgruppenauswertungen liefern zwar wertvolle Hypothesen für zukünftige Studien, gelten aber nicht als Wirksamkeitsnachweis. Die klare Trennung zwischen konfirmatorischen und explorativen Analysen ist eine Grundvoraussetzung für die regulatorische Akzeptanz von Studienergebnissen.
In der Praxis ist es wichtig, den p-Wert nicht isoliert zu betrachten. Er liefert nur dann eine sinnvolle Aussage, wenn die Studie korrekt geplant und durchgeführt wurde, die Stichprobengröße angemessen war und die vorab definierte Fragestellung ohne nachträgliche Anpassungen ausgewertet wurde. Studien, die allein auf der Suche nach einem signifikanten p-Wert durchgeführt werden (sogenanntes p-Hacking), liefern keine verlässlichen Ergebnisse. Reproduzierbarkeit und Transparenz in der Datenauswertung sind daher unverzichtbare Voraussetzungen für eine valide Interpretation des p-Werts. Präregistrierung von Studien und Analyseplänen in öffentlichen Datenbanken ist ein wichtiger Schritt, um das Vertrauen in wissenschaftliche Ergebnisse zu stärken und die Integrität der klinischen Forschung zu sichern.
Häufig gestellte Fragen (FAQ)
Was bedeutet p < 0,05 konkret?
Ein p-Wert unter 0,05 bedeutet, dass die beobachteten Daten unter der Annahme einer wahren Nullhypothese mit einer Wahrscheinlichkeit von weniger als 5 % auftreten würden. Es bedeutet nicht, dass die Alternativhypothese mit 95 % Wahrscheinlichkeit wahr ist, und auch nicht, dass der Effekt klinisch bedeutsam ist. Die Interpretation erfordert immer den klinischen Kontext und die Angabe von Effektgröße und Konfidenzintervall.
Kann ein nicht-signifikanter p-Wert bedeuten, dass kein Effekt vorhanden ist?
Nein. Ein p-Wert über 0,05 bedeutet lediglich, dass die Daten nicht ausreichen, um die Nullhypothese zu verwerfen. Es kann ein echter Effekt vorhanden sein, der aufgrund einer zu kleinen Stichprobe (mangelnde Power) nicht nachgewiesen werden konnte. Fehlende statistische Signifikanz ist kein Beweis für die Abwesenheit eines Effekts.