Unabhängig vom Fachbereich steht zu Beginn einer wissenschaftlichen Studie immer eine Frage, und an ihrem Schluss (hoffentlich) eine Antwort.
Alle Überlegungen und Verfahren, die die Qualität von Studien (und damit ihre Aussagekraft) erfassen bzw. sicherstellen sollen, lassen sich letztlich auf die folgenden Punkte zurückführen:
- Ist die Fragestellung genau definiert – weiss man, was man sucht?
- Ist die Methode geeignet, um die Frage zu beantworten – weiss man, wie man sucht?
- Führen die Resultate zu einer Antwort auf die gestellte Frage – hat man gefunden, was man suchte?
Das klingt zunächst einmal banal. Je nach Art der Fragestellung kann es aber eine komplexe Aufgabe sein, diese Punkte sinnvoll umzusetzen. Leider ist es auch keineswegs sicher, dass alle als «wissenschaftlich» deklarierten Studien wirklich aussagekräftig sind. Eine kritische Qualitätsbeurteilung ist daher unverzichtbar, und hierzu ist es erforderlich, die Originalpublikationen (oder allermindestens die Abstracts) einzusehen. Deshalb: wenn man irgendwo liest «wissenschaftliche Studien haben gezeigt, dass…», und anschliessend keine Quellenangabe folgt, gibt es eigentlich nur zwei sinnvolle Möglichkeiten: Entweder man findet trotzdem heraus, um welche Studie es sich handelt, oder man betrachtet das Gelesene bis zum Beweis des Gegenteils als nicht aussagekräftig.
Zur Fragestellung
Je präziser die Frage, desto präziser die mögliche Antwort. Aber: zu Beginn eines Forschungsprojektes kann man manchmal noch nicht wissen, wie die Fragen genau gestellt werden müssen. Man befindet sich dann in der Phase der Pilotstudien (=exploratorische Phase). Da kann es sich z.B. darum handeln, mögliche Ursache-Wirkungs-Beziehungen aufzuspüren, ohne schon ihre quantitative Bedeutung bestimmen zu können. Solche Studien sind wichtig, um die Fragestellungen einzugrenzen, sie liefern aber noch keine abschliessenden Antworten. Gerade diese Abgrenzung wird in der Laienpresse manchmal verwischt; da ist dann schnell einmal von «erwiesenen Zusammenhängen» die Rede, obwohl erst exploratorische Daten vorliegen, die solche Zusammenhänge bestenfalls vermuten lassen.
In dieser frühen Phase muss auch entschieden werden, welche Art von Zielgrössen man wählt. In der Medizin ist man häufig darauf angewiesen, Surrogat-Endpunkte zu wählen. Beispiel: wenn man einen Betablocker testet, misst man in der Regel den Verlauf von Blutdruck, Herzfrequenz und EKG. Eigentlich wäre aber die Rate kardiovaskulärer Komplikationen und letztlich die Überlebenszeit relevant – nur braucht es dazu sehr langfristig angelegte Studien, die entsprechend aufwendig und daher nur selten realisierbar sind.
Surrogat-Endpunkte sind oft durchaus nützlich, da sie es erlauben, relativ schnell Hinweise auf mögliche Zusammenhänge zu erkennen. Wenn die Korrelation zwischen einem Surrogat-Endpunkt und der eigentlich interessanten Zielgrösse gut etabliert ist, können sie auch sinnvoll sein, um etwa Vergleiche zwischen verschiedenen ähnlich wirkenden Substanzen durchzuführen. Im obigen Beispiel würde ein relevanter Unterschied in der blutdrucksenkenden Wirkung zwischen zwei Substanzen aus der gleichen Wirkstoffklasse die Vermutung nahelegen, dass das wirksamere Präparat auch die kardiovaskulären Komplikationen wahrscheinlich besser verhindern dürfte.
Surrogat-Endpunkte können aber auch zu Fehlschlüssen führen. So wurden beispielsweise früher bei Hypertonie oft gewisse Diuretika (harntreibende Medikamente) eingesetzt, die zwar wohl den Blutdruck senken, andererseits aber auch Elektrolytstörungen (Störungen des Salzhaushaltes im Blut, z.B. Kaliummangel) bewirken können, was den langfristigen Nutzen der Blutdrucksenkung wiederum in Frage stellt.
Zur Methode
Eine der wichtigsten methodischen Abgrenzungen ist diejenige zwischen Interventions- und Beobachtungsstudien.
Bei einer Beobachtungsstudie werden die Versuchspersonen hinsichtlich bestimmter Gewohnheiten, Tätigkeiten etc. in Gruppen eingeteilt, und es wird anschliessend festgestellt, ob sich zwischen diesen Gruppen systematische Unterschiede (z.B. hinsichtlich der Häufigkeit bestimmter Erkrankungen) erkennen lassen. Sehr häufig wird dieses Prinzip bei Ernährungsstudien angewendet, aber auch die Auswirkungen anderer Verhaltensmuster (wie z.B. körperliche Aktivität) können so untersucht werden. Ein Grundproblem dieser Art von Studien liegt allerdings darin, dass man sehr oft auf die subjektiven Angaben der untersuchten Personen angewiesen ist, und dass weitere, ungewollte Unterschiede zwischen den Gruppen bestehen können. So könnte z.B. eine Gruppeneinteilung nach dem Fleischkonsum dazu führen, dass in der Gruppe der Fleischesser auch mehr Alkohol konsumiert wird, da Vegetarier und Veganer in dieser Hinsicht vielleicht eher zurückhaltender sein könnten; gesundheitliche Unterschiede zwischen den Gruppen wären dann eher auf den unterschiedlichen Alkoholkonsum zurückzuführen. In diesem Beispiel handelt es sich um einen klassischen «Confounder»; Näheres hierzu folgt weiter unten.
Bei einer Interventionsstudie geschieht die Gruppeneinteilung (idealerweise) zufällig, und es erfolgt eine unterschiedliche Behandlung der verschiedenen Gruppen. Wenn hier alles korrekt abläuft, kann man sehr viel besser als bei einer Beobachtungsstudie die Wirkung der untersuchten therapeutischen Verfahren herausarbeiten. Dies beruht auf dem grundlegenden Prinzip der möglichst vollständigen Isolation einer einzigen veränderlichen Grösse. Dieses Prinzip ist in der Physik ebenso gültig wie in der Medizin. Die Methoden, mit welchen es realisiert wird, unterscheiden sich jedoch stark.
Dabei spielt es eine zentrale Rolle, wie umfassend das untersuchte System abgegrenzt und kontrolliert werden kann. In der klassischen Mechanik gelingt dies recht gut; wenn man z.B. die Beschleunigung eines im Vakuum frei fallenden Gegenstands messen will, kann man ein perfektes Vakuum zwar nicht erreichen, aber doch gut annähern, und man kann auch andere Störgrössen so gut verringern, dass sie für die Messung praktisch irrelevant werden. Deshalb reichen dann auch einige wenige Messungen, um die gewünschte Grösse hinreichend genau zu bestimmen.
Ganz anders in der Medizin. Hier spielen immer sehr viele, teilweise nicht genau erfassbare, individuelle Einflüsse eine bedeutende Rolle (z.B. Placebo-Effekt, Genetik, Ernährung, psychische Faktoren…); deshalb muss man diese Einflüsse durch eine genügende Zahl untersuchter Patienten ausgleichen und durch ein geeignetes Studiendesign verhindern, dass systematische Verzerrungen auftreten. Der anerkannte Standard hierfür ist die Doppelblindtechnik mit randomisierter Gruppenzuteilung. Sie besteht darin, dass die Patienten bzw. Probanden durch ein Zufallsverfahren den verschiedenen Untersuchungsgruppen zugeteilt werden, und dass die Versuchssubstanzen so verpackt werden, dass weder der Proband noch der behandelnde Arzt weiss, zu welcher Gruppe die einzelne Versuchsperson gehört. Damit werden bewusste, aber auch unbewusste Einflüsse und Erwartungshaltungen ausgeschaltet, die sonst das Ergebnis verfälschen könnten.
Es spielt dabei für das Vorgehen grundsätzlich keine Rolle, ob die Kontrollgruppe ein Placebo (also ein gleich wie das Untersuchungsmedikament aussehendes Präparat ohne Wirkstoff) oder eine pharmazeutisch wirksame Vergleichssubstanz erhält. Das Doppelblindverfahren selbst unterliegt in beiden Fällen den gleichen Regeln.
Allerdings ist dieses Verfahren nicht immer anwendbar; wenn z.B. eine Testsubstanz deutlich wahrnehmbare (erwünschte oder unerwünschte) Wirkungen zeitigt, so werden dies die Patienten bzw. die untersuchenden Ärzte sehr bald feststellen und dadurch wissen, zu welcher Untersuchungsgruppe die betreffende Person gehört. Bei gewissen Studieninhalten (wie z.B. die oben erwähnten Ernährungsstudien) ist die Doppelblindtechnik aus naheliegenden Gründen sogar ganz ausgeschlossen; hier ist man im Wesentlichen auf die oben erwähnten Beobachtungsstudien angewiesen.
Schon diese einfachen Überlegungen zeigen, dass Einzelfallberichte höchstens von exploratorischem Interesse sind; niemals können sie grösser angelegte, systematische Studien ersetzen. Viel zu zahlreich sind die unkontrollierbaren Einflüsse, die bei solchen Berichten oft eine grössere Rolle spielen als die Wirkung der untersuchten Substanz. Genau dies ist der Grund, weswegen sich pseudowissenschaftliche Veröffentlichungen sehr oft lediglich auf Einzelfallberichte abstützen.
Gilt aber für den Umfang einer Studie immer «grösser ist besser»? Nein: wenn z.B. ein Medikament nur eine geringfügige Wirkung hat, kann es gelingen, diesen kleinen Effekt nachzuweisen, wenn man nur genügend viele Patienten in eine Studie aufnimmt. Deswegen wird der Effekt aber nicht grösser. Ein solches Resultat mag zwar grundsätzlich durchaus interessant sein, trägt aber nur wenig zur besseren Behandlung der betroffenen Patienten bei. Die statistische Signifikanz und die Effektgrösse sind voneinander unabhängig; beide müssen beachtet werden, um schliesslich zu einer sinnvollen Aussage über die klinische Relevanz zu gelangen.
Confounder: Wenn z.B. in einer Ernährungsstudie ein Zusammenhang zwischen bestimmten Nahrungsmitteln und bestimmten Erkrankungen gefunden wird, kann es sich entweder um eine reale Ursache-Wirkungs-Beziehung handeln, oder aber um die Auswirkung einer ganz anderen (z.B. genetischen) Disposition, die sowohl die Vorliebe für das betreffende Nahrungsmittel als auch das Risiko für die betreffende Erkrankung erhöht. In einem solchen Fall wäre es sinnlos, aus den Resultaten dieser Studie eine diätetische Empfehlung abzuleiten. Das Befolgen einer solchen Empfehlung hätte dann keinen Nutzen für den Patienten, ja, schlimmer noch: da ja gerade eben eine besondere Vorliebe für das betreffende Nahrungsmittel besteht, wäre eine solche Empfehlung für den Patienten psychisch möglicherweise belastend – und dadurch vielleicht sogar krankheitsfördernd.
Das bedeutet, dass statistische Zusammenhänge stets nur mit grosser Vorsicht als kausale Beziehungen interpretiert werden dürfen. In jedem Falle müssen mögliche Confounder eruiert und in der Studienpublikation explizit genannt werden, um die Aussagekraft korrekt bewerten zu können.
Zur Aussagekraft
Die Bedeutung der statistischen Signifikanz wird oft missverstanden: der oft zitierte p-Wert sagt lediglich aus, in wie vielen gleichartig angelegten Studien ein gleiches (oder besseres) Ergebnis zu erwarten wäre – unter der Voraussetzung, dass kein realer Unterschied zwischen den Gruppen besteht. Formal gesehen geht man also von der sogenannten «Nullhypothese» aus, also der Annahme, dass kein Unterschied zwischen den untersuchten Gruppen besteht, und verwirft diese Hypothese nur dann, wenn es als hinreichend unwahrscheinlich erscheint, dass sie zutrifft.
Das bedeutet aber auch, dass immer noch eine gewisse (wenn auch kleine) Fehlerwahrscheinlichkeit besteht: Wenn man 20 gleichartige Studien mit einem p<5% durchführt, dann ist zu erwarten, dass eine davon ein statistisch signifikantes Ergebnis liefert, obwohl kein realer Unterschied zwischen den Versuchsgruppen besteht. Ähnliches gilt auch, wenn man in einer Studie 20 Messgrössen untersucht. In solchen Fällen muss die Berechnungsweise von p korrigiert werden. Gerade das letztere Erfordernis wird oft missachtet, wenn zahlreiche Messgrössen erhoben und bei der Auswertung diejenigen hervorgehoben werden, die ein statistisch signifikantes Ergebnis lieferten. Korrekterweise muss stets vor Studienbeginn festgelegt werden, welche Messgrösse(n) als primäres Studienziel gelten soll(en). Falls hier mehr als eine Messgrösse festgelegt wird, muss ausserdem angegeben werden, dass und wie die Berechnungsweise der statistischen Signifikanz korrigiert wird. Alle anderen während der Untersuchungen erhobenen Daten können (und sollen) dann zwar in der Studienpublikation aufgeführt werden, jedoch nur im Sinne zusätzlicher (exploratorischer) Informationen, die keinen Einfluss auf die zentrale Studienaussage haben.
Insgesamt stellen Studiendesign, Studienumfang, Art der (primären) Endpunkte, statistisches Analyseverfahren, p-Wert und Effektgrösse einige wichtige Kriterien für die Bewertung der klinischen Relevanz einer Studie dar. All diese Angaben müssen unbedingt in der Studienpublikation angegeben werden, damit eine korrekte Beurteilung möglich ist. Fehlen sie, dann ist das bereits ein starkes Indiz für eine mangelhafte Studienplanung bzw. -auswertung.
Nun noch zu einigen weiteren oft anzutreffenden Begriffen und zu ihrer Bedeutung:
«Intention to treat» vs. «per protocol»: Bei der ITT werden die Daten aller in die Studie aufgenommenen Patienten ausgewertet (also auch die der Studienabbrecher und derjenigen Versuchspersonen, die das Studienprotokoll nur unvollständig befolgt haben), bei PP nur diejenigen der Personen, die das Studienprotokoll vollständig erfüllt haben. Beide Verfahren haben jeweils ihren spezifischen Aussagewert; die ITT tendiert generell zur Unterschätzung, die PP eher zur Überschätzung des untersuchten Effektes. Wichtig ist, dass aus der Beschreibung klar hervorgeht, welche Analyseform gewählt wurde – und warum. Es ist auch möglich (und oft sinnvoll), die gleichen Rohdaten nach beiden Verfahren auszuwerten; der Unterschied zwischen den beiden so gewonnenen Resultaten kann interessante zusätzliche Aussagen liefern. Als Beispiel: weichen die Resultate der beiden Verfahren besonders stark voneinander ab, so könnte es sein, dass aussergewöhnlich viele Probanden das Studienprotokoll nicht vollständig befolgten bzw. die Studie vorzeitig abbrachen. Dies kann sowohl an einer Eigenschaft des untersuchten Präparates liegen (wie z.B. unangenehme unerwünschte Wirkungen, unpraktische Verabreichungsform, abstossender Geschmack…), aber auch an einer Eigenart des Studienprotokolls (wie z.B. zu häufige Kontrolluntersuchungen und/oder Blutproben, zu rigide Diätvorschriften…).
Wenn zu einem bestimmten Thema mehrere unabhängige Studien vorliegen, können die Resultate zu einer Metaanalyse zusammengefasst werden. Diese darf aber nicht einfach die Messwerte aller Studien zu einem Pool addieren; das wäre wegen der unterschiedlichen Studiendesigns unzulässig. Es gibt aber anerkannte statistische Verfahren, die trotz unterschiedlicher Protokolle eine aussagekräftige Gesamtbewertung unterschiedlich angelegter Studien erlauben. Wie dies im Einzelnen geschieht, und welche Grenzen bei solchen Verfahren bestehen, kann hier nicht weiter ausgeführt werden.
Im Gegensatz hierzu kann bei einer multizentrischen Studie mit einheitlichem Protokoll das Resultate-Pooling erlaubt sein, wenn es von Anfang an im Studiendesign eingeplant war und bei der statistischen Auswertung korrekt berücksichtigt wird.
Fazit
Es ist alles andere als banal, eine aussagekräftige wissenschaftliche Studie korrekt zu planen, durchzuführen und auszuwerten. Ebensowenig ist es banal, auf Grund einer vorliegenden Studienpublikation zu beurteilen, ob die betreffende Studie wirklich aussagekräftig ist. Im vorliegenden Artikel konnten nur einige wenige Aspekte dieses Prozesses kurz beleuchtet werden. Wichtig sind aber nicht so sehr die technischen Details, sondern vielmehr das grundsätzliche Verständnis dafür, dass alle Stufen einer wissenschaftlichen Studie (also Planung, Durchführung, Auswertung, Publikation und Rezeption) einer sorgfältigen, kritischen Problemanalyse und einer methodisch korrekten Umsetzung bedürfen, um schliesslich zu sinnvollen, handlungsrelevanten Schlussfolgerungen zu führen.
Weiterführende Literatur
Zwei gute Übersichten über Studiendesigns, Methodik, Fehlerquellen etc. findet man unter den folgenden Links:
–> https://www.thieme.de/viamedici/klinik-promotion-1525/a/studien-richtig-lesen-33172.htm
–> https://www.uni-kiel.de/medinfo/lehre/seminare/methodik/Dtsch%20Arztebl%2001Kritisches%20Lesen%20wissenschaftlicher%20Artikel.pdf
Der „NZK-Evidenzindex“ ist ein Schema zur standardisierten Bewertung der Qualität von Studien. Er setzt aber schon einiges Vorwissen voraus:
https://www.nzkrim.de/typo3conf/ext/nzk/Resources/Public/pdf/evidence_index.pdf
Und schliesslich noch eine Übersicht über die verschiedenen Studientypen, unter anderem mit einer guten Darstellung des Unterschiedes zwischen der „intention-to-treat“- und der „per protocol“-Analyse:
http://media.dav-medien.de/sample/9783769270464_p.pdf?v2
Der vorliegende Artikel stellt eine erweiterte Version der Unterlagen dar, die an der Veranstaltung «Skeptics in the Pub» in Bern vom 12. März 2019 abgegeben wurden.
One Comment on “Fragestellung, Methodik und Aussagekraft wissenschaftlicher Studien”
Pingback: #ferngespräch am Dienstag: Wissenschaftskommunikation | gwup | die skeptiker