Imputation bezeichnet in der klinischen Forschung das statistische Verfahren, mit dem fehlende Datenwerte durch plausible Schätzwerte ersetzt werden. Da in klinischen Studien trotz sorgfältiger Planung häufig Messwerte fehlen – etwa durch Studienabbruch, verpasste Visiten oder technische Fehler –, ist eine sachgerechte Imputationsstrategie unverzichtbar für die Integrität der Studienergebnisse. Die Wahl der Methode beeinflusst direkt die Validität der primären Wirksamkeitsanalyse und damit die Zulassungsfähigkeit eines Arzneimittels oder Medizinprodukts.
Ursachen fehlender Daten in klinischen Studien
Fehlende Daten entstehen aus verschiedenen Gründen, die sich in ihrer klinischen Bedeutung und statistischen Konsequenz deutlich unterscheiden. Grundlegend unterscheidet die statistische Theorie drei Mechanismen, die in der Praxis schwer voneinander zu trennen sind:
- MCAR (Missing Completely At Random): Das Fehlen ist völlig zufällig und unabhängig von allen beobachteten und unbeobachteten Variablen. Beispiel: technischer Ausfall eines Messgeräts an einem Prüfzentrum. Dieser Mechanismus erlaubt prinzipiell eine vollständige Fallanalyse ohne Verzerrung, ist aber in der Praxis selten nachweisbar.
- MAR (Missing At Random): Das Fehlen hängt von beobachteten, nicht aber von unbeobachteten Variablen ab. Beispiel: Ältere Patienten brechen häufiger ab, aber der Abbruchgrund ist dokumentiert. Multiple Imputation und MMRM sind unter dieser Annahme statistisch valide.
- MNAR (Missing Not At Random): Das Fehlen hängt vom fehlenden Wert selbst ab. Beispiel: Patienten mit starken Nebenwirkungen brechen ab, ohne die Nebenwirkung vollständig zu melden. Dieser Mechanismus ist am schwierigsten zu behandeln und erfordert Sensitivitätsanalysen unter verschiedenen MNAR-Annahmen.
Die Identifikation des zugrunde liegenden Mechanismus beeinflusst unmittelbar die Wahl der Imputationsmethode und muss im Statistical Analysis Plan vorab festgelegt und begründet werden. Eine nachträgliche Entscheidung gilt als potenziell biasinduzierend.
Gängige Imputationsmethoden
Die Biostatistik bietet ein breites Spektrum an Imputationsverfahren, die je nach Datensituation, Studiendesign und regulatorischen Anforderungen eingesetzt werden. Jede Methode setzt bestimmte Annahmen über den Missing-Data-Mechanismus voraus:
- Last Observation Carried Forward (LOCF): Der letzte verfügbare Messwert eines Patienten wird für alle nachfolgenden fehlenden Zeitpunkte übernommen. Die Methode ist einfach, aber bei nicht-stabilen Krankheitsverläufen verzerrt und in modernen Zulassungsanträgen häufig nicht mehr als primäres Verfahren akzeptiert.
- Baseline Observation Carried Forward (BOCF): Der Ausgangswert (Baseline-Wert) wird als Ersatz für fehlende Werte eingesetzt. Wird häufig als konservative Sensitivitätsanalyse genutzt, da es den schlechtmöglichsten Verlauf annimmt.
- Multiple Imputation (MI): Fehlende Werte werden mehrfach (typisch: 20–100 Datensätze) durch ein Regressionsmodell ersetzt. Jeder vervollständigte Datensatz wird separat analysiert, die Ergebnisse anschließend nach Rubin’s Rules zusammengeführt. Multiple Imputation gilt als statistisch robustestes Verfahren unter MAR-Annahme und wird von regulatorischen Behörden bevorzugt.
- Mixed Models for Repeated Measures (MMRM): Basiert auf dem vollständigen Likelihood-Prinzip und nutzt alle verfügbaren Daten ohne explizite Imputation. Bevorzugte Methode in psychiatrischen, neurologischen und anderen Indikationen mit Longitudinaldaten.
- Hot-Deck-Imputation: Fehlende Werte werden durch beobachtete Werte ähnlicher Probanden aus demselben Datensatz ersetzt. Die Methode erhält Verteilungseigenschaften, ist aber bei kleinen Stichproben limitiert.
Estimanden und die neue ICH-E9(R1)-Perspektive
Das ICH-E9(R1)-Addendum zu Estimanden und Sensitivitätsanalysen hat die regulatorische Diskussion über fehlende Daten grundlegend verändert. Der Fokus liegt nicht mehr primär auf der Imputationsmethode selbst, sondern auf der präzisen Definition des Estimanden – also der wissenschaftlichen Frage, die durch die Studie beantwortet werden soll.
Je nach Estimandenstrategie ergibt sich eine unterschiedliche Behandlung fehlender Werte: Die sogenannte „treatment policy strategy“ betrachtet alle beobachteten Daten unabhängig davon, ob der Patient die Behandlung fortgeführt hat. Die „hypothetical strategy“ fragt, wie das Ergebnis ausgesehen hätte, wenn alle Patienten die Behandlung vollständig erhalten hätten. Aus der Estimandendefinition leitet sich unmittelbar ab, welche Imputationsmethode statistisch kohärent ist. Regulatoren in der EU und beim BfArM erwarten diese logische Konsistenz seit Einführung des Addendums explizit in Zulassungsanträgen.
Bedeutung für klinische Studien
Eine inadäquate Behandlung fehlender Daten kann die interne Validität einer Studie erheblich gefährden und zu verzerrten Wirksamkeits- oder Sicherheitsaussagen führen. Regulatorische Behörden wie die EMA und das BfArM bewerten die Imputationsstrategie als kritisches Element der statistischen Integrität eines Zulassungsantrags. Full-Service-CROs wie mediconomics unterstützen Sponsoren bei der statistischen Studienplanung, der Definition geeigneter Estimanden und der Ausarbeitung einer regulatorisch belastbaren Imputationsstrategie, die bereits im Studienprotokoll und im Statistical Analysis Plan verankert wird.
Häufig gestellte Fragen (FAQ)
Welche Imputationsmethode wird von Regulatoren bevorzugt?
Es gibt keine universell bevorzugte Methode. Die EMA und ICH fordern eine Methode, die zum jeweiligen Estimanden und zur Missing-Data-Annahme passt. Multiple Imputation und MMRM gelten derzeit als wissenschaftlich robusteste Verfahren, müssen jedoch durch Sensitivitätsanalysen abgesichert werden. LOCF ist in vielen modernen Einreichungen nicht mehr akzeptabel als primäres Verfahren.
Muss die Imputationsstrategie vor Studienbeginn festgelegt werden?
Ja. Die Imputationsstrategie muss im Statistical Analysis Plan vor dem Database Lock festgelegt und begründet werden. Nachträgliche Änderungen gelten als potenziell biasinduzierend und müssen als Protokollabweichung dokumentiert werden. Regulatoren betrachten unangekündigte Strategieanpassungen kritisch, insbesondere wenn sie das primäre Studienergebnis beeinflussen.
Was ist der Unterschied zwischen primärer Imputation und Sensitivitätsanalyse?
Die primäre Imputation definiert die Hauptanalyse und wird im Vorfeld festgelegt. Sensitivitätsanalysen testen, ob die Ergebnisse unter anderen plausiblen Missing-Data-Annahmen stabil bleiben. Typische Szenarien umfassen BOCF als konservative Alternative oder Tipping-Point-Analysen, die zeigen, ab welchem Ausmaß fehlender Daten die Schlussfolgerung kippen würde.
Regulatorische Referenzen
- ICH E9(R1) – Addendum on Estimands and Sensitivity Analysis in Clinical Trials (2019)
- EMA Guideline on Missing Data in Confirmatory Clinical Trials (EMA/CPMP/EWP/1776/99 Rev. 1, 2010)
- ICH E6(R3) – Good Clinical Practice (2023): Anforderungen an Datenvollständigkeit und -qualität
- EU-Verordnung Nr. 536/2014 (CTR): Dokumentationspflichten für Protokollabweichungen und Datenvollständigkeit
- FDA Guidance for Industry: Missing Data in Clinical Trials (2010) – internationale Referenz für vergleichende Einreichungen