Sample Size - mediconomics.com

Sample Size (Stichprobengröße) bezeichnet die geplante Anzahl an Studienteilnehmenden, die in eine klinische Studie eingeschlossen werden soll, um eine wissenschaftlich und regulatorisch belastbare Aussage zu ermöglichen. Eine angemessene Sample Size ist entscheidend, damit eine Studie mit hoher Wahrscheinlichkeit einen relevanten Effekt nachweisen kann, ohne unnötig viele Personen einem Risiko auszusetzen oder Ressourcen zu verschwenden. Die Stichprobengrößenplanung ist daher ein zentraler Bestandteil von Protokoll, statistischem Analyseplan und ethischer Bewertung.

In der Praxis wird die Sample Size selten „einmal berechnet und dann nie wieder angefasst“. Neue Erkenntnisse aus Feasibility, Änderungen im Standard of Care oder Rekrutierungsrealitäten können dazu führen, dass Annahmen aktualisiert und die Planung im Team neu abgestimmt werden muss. Wichtig ist dabei die Governance: Anpassungen dürfen nicht ad hoc erfolgen, sondern müssen methodisch sauber geplant, dokumentiert und regulatorisch konsistent umgesetzt werden.

Warum die Stichprobengröße so wichtig ist

Ist die Sample Size zu klein, droht ein niedriger Power-Wert: Ein tatsächlich vorhandener Effekt wird möglicherweise nicht erkannt (Fehler 2. Art). Ist sie zu groß, können zwar kleinste Effekte statistisch signifikant werden, die klinisch kaum relevant sind, und die Exposition vieler Teilnehmender wird ethisch schwerer zu rechtfertigen. Zudem steigen Kosten, Laufzeit, Monitoring-Aufwand und Datenmanagement-Komplexität.

Für Sponsoren und CROs wirkt sich die Sample Size direkt auf Rekrutierungsstrategie, Standortanzahl, Zeitplan und Budget aus. Daher wird die Stichprobengröße häufig iterativ geplant und in Feasibility- und Study-Start-up-Phasen noch einmal überprüft, insbesondere wenn Rekrutierungsraten oder Ereignisraten unsicher sind.

Grundprinzip: Power, Effektgröße, Signifikanzniveau

Die Stichprobengröße ergibt sich aus den Anforderungen an statistische Sicherheit. Typische Parameter sind: erwartete Effektgröße, Variabilität (z.B. Standardabweichung bei kontinuierlichen Endpunkten), Signifikanzniveau \(lpha\) (häufig 0,05, zweiseitig) und Power \(1-eta\) (häufig 80% oder 90%). Für binäre Endpunkte werden Ereignisraten in beiden Gruppen angenommen; für Zeit-zu-Ereignis-Endpunkte wird häufig die erwartete Anzahl an Ereignissen (Events) geplant, nicht nur die Anzahl an randomisierten Teilnehmenden.

Eine robuste Planung dokumentiert, woher die Annahmen stammen: Vorstudien, Literatur, Real-World-Daten oder Pilotdaten. Werden Annahmen stark verfehlt, kann die Studie unter- oder überpowert sein. Deshalb sind Sensitivitätsanalysen und Bandbreitenberechnungen gängige Praxis.

Sample-Size-Berechnung je nach Studiendesign

Die Formeln und Softwareverfahren hängen vom Design ab. Bei parallel-gruppigen randomisierten Studien mit kontinuierlichem Endpunkt basiert die Berechnung oft auf einem t-Test oder linearen Modell. Bei dichotomen Endpunkten wird häufig eine Chi-Quadrat- oder z-Test-Basis verwendet. In Überlegenheits-, Nichtunterlegenheits- und Äquivalenzstudien unterscheiden sich die Anforderungen erheblich, weil unterschiedliche Hypothesen und Margen gelten.

Bei adaptiven Designs können Zwischenanalysen, Sample-Size-Re-Estimation oder Drop-the-Loser-Strategien vorgesehen sein. Diese Designs erfordern eine sorgfältige Kontrolle des Fehler 1. Art und eine präzise Beschreibung im Protokoll und SAP. Auch gruppensequenzielle Designs mit kontrollierter Alpha-Spending-Funktion haben Auswirkungen auf die benötigte Stichprobengröße.

Ein weiterer praxisnaher Punkt ist die Wahl des Randomisierungsverhältnisses. Ein ungleiches Verhältnis (z.B. 2:1) kann aus Sicherheits- oder Rekrutierungsgründen sinnvoll sein, erhöht aber bei gleichem Power-Ziel oft die Gesamtzahl der Teilnehmenden. Solche Entscheidungen sollten daher früh in der Studienplanung getroffen und in Budget sowie Supply-Planung berücksichtigt werden.

Praktische Adjustierungen: Drop-outs, Non-Compliance, Multiplikität

In realen Studien kommt es zu Drop-outs, Protokollabweichungen und fehlenden Daten. Daher wird die berechnete Stichprobengröße häufig um eine Drop-out-Rate inflatiert. Auch Non-Compliance, Cross-over oder eine per-protocol-Analyse können die effektive Power beeinflussen. Bei mehreren primären Endpunkten oder hierarchischen Teststrategien müssen Alpha-Adjustierungen berücksichtigt werden, was die Sample Size erhöhen kann.

Besonders relevant ist auch die Rekrutierbarkeit: Wenn die berechnete Sample Size praktisch nicht erreichbar ist, müssen Designalternativen (z.B. Endpunktanpassung, breitere Einschlusskriterien, multinationale Zentren, längere Rekrutierungszeit) geprüft werden.

Ein häufiger Fehler ist, die Drop-out-Rate zu optimistisch anzunehmen oder „Rundungsaufschläge“ zu addieren, ohne die Auswirkungen auf Power und Budget transparent zu machen. Gute Praxis ist, die Planung so aufzubauen, dass sie in Audit-Trails nachvollziehbar bleibt und sich die finale Zahl aus klaren, begründeten Schritten ergibt.

Regulatorische und ethische Einordnung

Regulatorische Leitlinien verlangen keine feste Zahl, aber eine nachvollziehbare Begründung. ICH E9 fordert, dass die Stichprobengrößenplanung mit Hypothesen, Endpunkten und statistischer Methodik konsistent ist. ICH E6 betont die ethische Pflicht, Teilnehmende nicht unnötigen Risiken auszusetzen und die wissenschaftliche Qualität sicherzustellen. In der EU verlangt die Clinical Trials Regulation (EU) Nr. 536/2014 eine ausreichende Dokumentation im Dossier; Ethikkommissionen erwarten eine transparente Darstellung der Annahmen und der Berechnungsmethodik.

In der Praxis ist es hilfreich, die Begründung auch für nicht-statistische Stakeholder verständlich zu formulieren, z.B. warum 90% Power gewählt wurde oder warum eine konservative Varianzannahme verwendet wird. Das erleichtert die Abstimmung zwischen Sponsor, CRO, Biostatistik und Ethikkommission.

FAQ

Was bedeutet „Power“ in der Stichprobengrößenplanung?

Power ist die Wahrscheinlichkeit, einen tatsächlich existierenden Effekt als statistisch signifikant zu erkennen. Eine Power von 80% bedeutet, dass in 20% der Fälle trotz realem Effekt kein signifikanter Nachweis gelingt.

Warum plant man manchmal nach Ereignissen statt nach Personen?

Bei Zeit-zu-Ereignis-Endpunkten ist die Anzahl beobachteter Ereignisse entscheidend für die Aussagekraft. Wenn die Ereignisrate niedriger ausfällt als erwartet, kann die Studie trotz gleicher Personenzahl weniger aussagekräftig sein.

Kann man die Stichprobengröße während der Studie anpassen?

Ja, z.B. über geplante Sample-Size-Re-Estimation. Das muss vorab im Protokoll festgelegt sein, um Bias zu vermeiden und die Fehlerwahrscheinlichkeit zu kontrollieren.

Regulatorische Referenzen (Auswahl): ICH E6; ICH E9; Verordnung (EU) Nr. 536/2014.