Konfidenzintervall - mediconomics.com

Ein Konfidenzintervall (KI) beschreibt den Wertebereich, in dem ein unbekannter Parameter der Grundgesamtheit – zum Beispiel eine mittlere Blutdrucksenkung oder eine Hazard Ratio – mit einer vorab festgelegten Sicherheit liegen kann. In klinischen Studien wird das KI typischerweise zusammen mit einem Punktschätzer berichtet, weil es sowohl die Richtung als auch die Präzision einer Effektschätzung sichtbar macht. Für Sponsor:innen, CROs und Bewertungsstellen ist das Konfidenzintervall damit oft aussagekräftiger als ein isolierter p-Wert.

Was ein Konfidenzintervall in klinischen Studien aussagt

Ein 95 %-KI wird so konstruiert, dass bei sehr vielen gedanklich wiederholten Studien mit identischem Design in etwa 95 % dieser Studien das berechnete Intervall den wahren Parameterwert überdecken würde. Wichtig ist: Das bedeutet nicht, dass der wahre Wert „mit 95 % Wahrscheinlichkeit“ in genau diesem einen Intervall liegt; der Parameter wird in der klassischen Frequentistik als fix betrachtet, während das Intervall zufällig ist. In der Praxis wird das KI dennoch als Maß für Unsicherheit genutzt und dient der Interpretation klinischer Relevanz.

Bei relativen Maßen wie Odds Ratio oder Hazard Ratio wird das KI häufig auf der Log-Skala berechnet und anschließend zurücktransformiert. Dadurch sind die Intervalle meist asymmetrisch. Bei kontinuierlichen Endpunkten (z. B. Änderung eines Scores) sind KIs oft annähernd symmetrisch, wenn Normalitätsannahmen plausibel sind oder große Stichproben vorliegen.

Zusammenhang zu p-Wert und Signifikanz

Für viele Standardtests gilt: Enthält ein zweiseitiges 95 %-Konfidenzintervall den Nullwert nicht (z. B. Differenz = 0 oder Verhältnis = 1), entspricht das einem p-Wert kleiner 0,05. Das KI liefert aber zusätzlich, wie groß der Effekt plausibel sein kann: Ein schmales KI spricht für eine präzise Schätzung; ein breites KI für hohe Unsicherheit, etwa bei kleiner Stichprobe, hoher Variabilität oder seltenen Ereignissen. Gerade bei Sicherheitsendpunkten sind breite KIs häufig und müssen in der Nutzen-Risiko-Abwägung transparent adressiert werden.

In Zulassungsdossiers und Clinical-Study-Reports wird daher häufig sowohl der p-Wert als auch das KI tabelliert. Für interne Entscheidungsprozesse (Go/No-Go, Dosiswahl, Studienfortführung) sind KIs besonders hilfreich, weil sie die Bandbreite potenzieller Effekte abbilden.

Typische Anwendungen in Überlegenheits-, Nichtunterlegenheits- und Äquivalenzstudien

In Überlegenheitsstudien wird das KI genutzt, um zu beurteilen, ob die Daten mit einem klinisch relevanten Vorteil vereinbar sind. In Nichtunterlegenheitsstudien steht der Vergleich mit der Nichtunterlegenheitsmarge im Vordergrund: Entscheidend ist, dass die „schlechteste“ plausible Wirkung (je nach Effektmaß die untere oder obere KI-Grenze) die Marge nicht überschreitet. Äquivalenzstudien verlangen typischerweise, dass das gesamte KI innerhalb eines vordefinierten Äquivalenzbereichs liegt.

Diese Logik ist eng mit dem statistischen Prüfplan verknüpft (Festlegung von Alpha, ein- oder zweiseitige Betrachtung, Hierarchien). Änderungen an Auswertungsfenstern, Populationen (ITT/FAS vs. PP) oder Modellannahmen können KIs verändern und sollten im Statistical-Analysis-Plan und im CSR konsistent dokumentiert werden.

Interpretationsfallen und praktische Hinweise

Eine häufige Fehlinterpretation ist die Gleichsetzung „nicht signifikant“ mit „kein Effekt“. Ein KI, das den Nullwert einschließt, kann trotzdem einen klinisch relevanten Effekt nicht ausschließen, wenn es breit ist. Umgekehrt kann ein sehr schmales KI zwar statistisch signifikant sein, aber nur einen kleinen, klinisch wenig relevanten Unterschied zulassen. Deshalb sollten KIs immer im Kontext von Minimal Clinically Important Difference, Endpunktdefinition und Messgenauigkeit diskutiert werden.

Weitere Fallstricke sind Mehrfachvergleiche und datengetriebene Subgruppen. Ohne geeignete Adjustierung können berichtete KIs ein zu optimistisches Bild der Präzision vermitteln. In der Praxis werden daher Sensitivitätsanalysen und robuste Varianzschätzer eingesetzt, um die Stabilität der KIs zu prüfen.

Für Projektteams ist außerdem relevant, wie Konfidenzintervalle im Zusammenspiel mit Protokollabweichungen und Missing Data interpretiert werden. Wenn zum Beispiel ein Modell eine Annahme zur fehlenden Nachbeobachtung trifft, kann das KI deutlich enger oder weiter werden, ohne dass sich der Punktschätzer stark verändert. Deshalb sollten Sponsor:innen im SAP festlegen, welche Imputations- oder Modellierungsansätze primär sind und welche als Sensitivitätsanalyse dienen.

Ein praktischer Tipp für Medical Writing: Beschreiben Sie nicht nur, ob das KI den Nullwert überschreitet, sondern erläutern Sie, welche Effektgrößen durch die Daten plausibel gestützt oder ausgeschlossen werden. Das erleichtert die Diskussion klinischer Relevanz, insbesondere wenn die Studie auf eine bestimmte Minimaldifferenz ausgelegt war.

Bei adaptiven Designs oder Interim-Analysen werden Konfidenzintervalle häufig an die Alpha-Spending-Strategie angepasst. Dann können 95 %-KIs durch andere Konfidenzniveaus ersetzt werden, um die übergreifende Fehlerwahrscheinlichkeit zu kontrollieren. Diese Details sollten im Prüfplan und im CSR konsistent dargestellt werden, damit die Nachvollziehbarkeit für Behörden erhalten bleibt.

Regulatorischer Kontext und Berichtspraxis

Behörden und Benannte Stellen erwarten eine nachvollziehbare Darstellung von Effektgrößen und Unsicherheiten. Das betrifft sowohl Arzneimittelstudien unter der Verordnung (EU) Nr. 536/2014 als auch klinische Prüfungen von Medizinprodukten unter MDR 2017/745. Im Rahmen von ICH E9 (statistische Prinzipien) und ICH E6(R3) (GCP-Modernisierung) sind transparente Auswertungs- und Berichtsketten zentral, einschließlich der Frage, welche Konfidenzniveaus genutzt werden und wie Sensitivitätsanalysen die Unsicherheit adressieren.

FAQ

Warum wird meist ein 95 %-Konfidenzintervall verwendet?

95 % ist ein historisch etabliertes Konventionsniveau, das gut mit einem zweiseitigen Alpha von 0,05 zusammenpasst. Je nach Kontext (z. B. interimistische Analysen oder multiple Endpunkte) können andere Niveaus sinnvoll sein.

Kann ein Konfidenzintervall „falsch“ sein?

Das Intervall folgt aus Modellannahmen. Wenn diese verletzt sind (z. B. starke Abweichung von Verteilungsannahmen, informative Zensierung), kann das KI die Unsicherheit unterschätzen. Dann sind alternative Modelle oder robuste Verfahren angezeigt.

Wie nutzt man KIs für klinische Relevanz?

Man vergleicht die KI-Grenzen mit vordefinierten Schwellen (z. B. Nichtunterlegenheitsmarge oder klinisch relevante Differenz). So wird sichtbar, welche Effektgrößen mit den Daten vereinbar sind.

Regulatorische Referenzen: ICH E9 (Statistical Principles for Clinical Trials), ICH E6(R3) Guideline for Good Clinical Practice, Verordnung (EU) Nr. 536/2014 (Clinical Trials Regulation), Verordnung (EU) 2017/745 (MDR).