Wie relevant ist ein signifikantes Ergebnis?

Wissenschaftliche Debatte um statistische Signifikanz

Die wissenschaftliche Einordnung von gemessenen Ergebnissen als signifikant oder nicht signifikant wird in öffentlichen Debatten meist über- nommen. Doch wissenschaftsintern wird über die Methodik hinter dieser Einordnung viel diskutiert.

Zwei Frauen diskutieren wissenschaftliche Ergebnisse bei einer Poster-Präsentation.

Auch statistisch „nicht signifikante“ Studien sollten in Meta-Analysen berücksichtigt werden. Foto: Austin Community College/flickr.com (CC BY 2.0)

Bei der Zulassung von Arzneiund Pflanzenschutzmitteln spielt die Frage eine große Rolle, ob eine erwünschte Wirkung oder eine unerwünschte Nebenwirkung signifikant ist. Die am häufigsten verwendete Maßzahl ist hierbei der so genannte p-Wert und die Grenze von p < 0,05, um ein Ergebnis als signifikant einzustufen. Zur Bedeutung von p-Werten gibt es immer wieder erhitzte Diskussionen, zuletzt befeuert durch einen Nature-Artikel1 , in dessen Folge sich die American Statistical Association zu einer offiziellen Stellungnahme veranlasst sah.2 Die Debatte ist auch im Zusammenhang mit einer aktuell beklagten mangelnden Reproduzierbarkeit von Studienergebnissen zu sehen.3

Zunächst zur Frage, was ein p-Wert eigentlich ist. Nehmen wir als Beispiel einen Fütterungsversuch mit Mäusen, bei dem die Karzinogenität des Herbizids Glyphosat untersucht wird. Eine Gruppe von 100 zufällig ausgewählten Mäusen bekommt Futter, das mit Glyphosat versetzt ist, während eine Kontrollgruppe aus ebenfalls 100 Mäusen normales Futter ohne Glyphosat erhält. Nach einem festgelegten Zeitraum wird bestimmt, wie viele Mäuse in jeder Gruppe Krebs entwickelt haben. Die Mäuse stammen aus einer Population, die besonders krebsanfällig ist, was für das Aufspüren von Karzinogenität hilfreich ist. Wegen der großen Anfälligkeit gibt es allerdings auch in der Kontrollgruppe Mäuse, die Krebs bekommen. Nehmen wir nun an, in der Kontrollgruppe erkranken acht Mäuse, in der Glyphosatgruppe siebzehn Mäuse. Ist damit jetzt nachgewiesen, dass Glyphosat krebserregend ist? Oder könnte der beobachtete Unterschied auch auf Zufall beruhen? In anderen Worten, könnte es bei einer Wiederholung des Versuchs genau so gut sein, dass die Kontrollgruppe eine höhere Krebsrate zeigt? Hier hilft der p-Wert. Dazu nehmen wir zunächst an, dass die Nullhypothese gilt, also dass Glyphosat das Krebsrisiko nicht erhöht. In beiden Gruppen herrscht bei dieser Annahme die gleiche Wahrscheinlichkeit, an Krebs zu erkranken. Wenn das so ist, dann sind die beiden Gruppen austauschbar. Aufgrund von Zufallsschwankungen sind die beobachteten Anteile erkrankter Tiere aber meist nicht identisch. Wenn die Nullhypothese jedoch zutrifft, ist jeglicher numerische Unterschied in den beiden beobachteten Anzahlen von krebserkrankten Mäusen rein zufallsbedingt.

Man kann nun fragen, wie wahrscheinlich es bei Gültigkeit der Nullhypothese ist, rein zufällig eine Änderung der beobachteten Krebsrate von acht Prozent auf siebzehn Prozent zu erhalten oder eine noch stärkere Änderung. Diese Wahrscheinlichkeit ist der p-Wert. Es handelt sich also um eine bedingte Wahrscheinlichkeit, welche die Gültigkeit der Nullhypothese voraussetzt. Ist nun die Wahrscheinlichkeit für das beobachtete Ergebnis gering unter der Annahme der Nullhypothese, so kann man schließen, dass die Nullhypothese nicht plausibel ist und daher verworfen werden muss.

Im vorliegenden Fall beträgt der p-Wert p = 0,0428. Ist das nun klein genug, um die Nullhypothese zu verwerfen und zu folgern, dass Verfütterung von Glyphosat eine erhöhte Krebsrate zur Folge hat? Die gängige Antwort lautet „ja“, weil p < 0,05 ist.4 Wenn für p < 0,05 auf signifikante Unterschiede geschlossen wird, so beträgt die Irrtumswahrscheinlichkeit fünf Prozent. Dies bedeutet, dass bei Gültigkeit der Nullhypothese diese mit einer Wahrscheinlichkeit von fünf Prozent fälschlicherweise verworfen wird. An der Verwendung dieser starren Fünf-Prozent-Schwelle, die in vielen wissenschaftlichen Artikeln befolgt wird, scheiden sich allerdings die Geister. Diese Debatte kann hier nicht im Detail wiedergegeben werden, doch ich möchte zumindest auf die wichtigsten Faktoren in der Diskussion um die Aussagekraft des p-Wertes hinweisen.

Der p-Wert sagt nichts darüber, wie wahrscheinlich es ist, dass die Nullhypothese selbst zutrifft. Wie beschrieben ist er eine bedingte Wahrscheinlichkeit. So besagt der p-Wert von p = 0,0428 im obigen Beispiel nicht, dass die Nullhypothese nur mit einer Wahrscheinlichkeit von 4,28 Prozent zutrifft und Glyphosat mit einer Wahrscheinlichkeit von 95,72 Prozent für Mäuse krebserregend ist. Dies ist vielleicht enttäuschend, weil man genau diese Wahrscheinlichkeiten am liebsten wissen will. Aber klassische Signifikanztests erlauben solche Wahrscheinlichkeitsaussagen einfach nicht. Wer solche Aussagen machen will, muss sogenannte Bayes-Verfahren verwenden. Diese erfordern schon vor dem Versuch eine Einschätzung, wie wahrscheinlich es ist, dass Glyphosat unproblematisch ist, was wiederum Raum für Diskussion und Subjektivität bietet.5

Trotzdem ist der p-Wert ein sinnvolles Kriterium, um die Plausibilität der Nullhypothese zu prüfen. Es wird jedoch oft kritisiert, dass bei seiner Verwendung die Schwelle von fünf Prozent überbetont wird, bis dahin, dass nur noch angegeben wird, ob p < 0,05 ist oder nicht. Viel besser ist es, den p-Wert exakt anzugeben. Dann kann sich jede Leserin selbst ein Bild davon machen wie signifikant das Ergebnis ist und auch eine andere Signifikanzschwelle als fünf Prozent anlegen. Außerdem vermeidet dies die starre Dichotomisierung in „signifikant“ und „nicht signifikant“ und erlaubt, ein Ergebnis von p = 0,0428 ähnlich zu werten wie ein Ergebnis von zum Beispiel p = 0,0517.

Signifikanz ist nicht dasselbe wie Relevanz. Ein p-Wert kann sehr klein sein, auch wenn der Gruppenunterschied so klein ist, dass er als irrelevant einzustufen ist, sofern gleichzeitig der Stichprobenumfang sehr groß ist. Mindestens genau so informativ wie ein p-Wert ist daher die Schätzung, wie stark sich zwei Gruppen im Krebsrisiko unterscheiden. Dies wird auch als Effektstärke bezeichnet. Außerdem ist ein Maß dafür wichtig, wie genau die Effektstärke geschätzt wurde. Hierzu dienen zum Beispiel Vertrauensintervalle. Bei einem Vertrauensintervall muss zwar auch eine Irrtumswahrscheinlichkeit festgelegt werden (üblicherweise ebenfalls fünf Prozent), aber das Intervall sagt, im Gegensatz zum p-Wert, wie groß der geschätzte Effekt ist und wie genau er geschätzt wurde.

Wie erwähnt wird bei der Berechnung des p-Wertes die Gültigkeit der Nullhypothese vorausgesetzt. Was aber, wenn die Alternativhypothese zutrifft, es also einen ech- ten Unterschied zwischen den verglichenen Gruppen (Kontrolle vs. Glyphosat) gibt? Mit welcher Wahrscheinlichkeit wird dies in einem Test bei p < 0,05 auch als signifikant erkannt? Diese Wahrscheinlichkeit heißt Teststärke. Sie ist wiederum eine Frage des tatsächlichen Gruppenunterschiedes und des Stichprobenumfanges. Je größer beide sind, um so eher lassen sich Unterschiede nachweisen. Leider wird oft kein ausreichender Stichprobenumfang verwendet, um relevante Unterschiede auch nachweisen zu können. Übliche Werte für die Teststärke, die angestrebt werden, sind 80 Prozent oder größer. Nehmen wir an, es besteht eine krebserregende Wirkung von Glyphosat und der Stichprobenumfang ist so gewählt, dass diese mit einer Teststärke von 80 Prozent nachgewiesen wird. Wie groß ist dann die Wahrscheinlichkeit, dass zwei unabhängige solche Studien beide ein signifikantes Ergebnis liefern, die erste Studie also durch die zweite reproduzierbar ist? Antwort: Nur 64 Prozent! Es ist also nichts Ungewöhnliches, wenn die Reproduzierbarkeit nicht sehr groß ist. Grund zur Besorgnis ist allerdings, wenn viele Studien eine geringe Teststärke haben, weil der Stichprobenumfang zu gering ist. Solche Studien sind eine Verschwendung von Ressourcen, weil von vornherein abzusehen ist, das nicht viel dabei heraus kommen kann.

Ein nicht signifikanter Test beweist auch nicht die Gültigkeit der Nullhypothese! Wenn also in einer Studie kein signifikant erhöhtes Krebsrisiko durch Glyphosat gefun- den wird, weil p > 0,05 ist, dann beweist das nicht, dass Glyphosat nicht krebserregend ist. Ein großer p-Wert, also ein nicht signifikantes Ergebnis, bedeutet streng genommen sogar, dass überhaupt keine Aussage getroffen werden kann („Absence of evidence is not evidence of absence“).6

Um nachzuweisen, dass Glyphosat unbedenklich ist, muss eine andere Nullhypothese definiert werden. Diese muss lauten: Glyphosat erhöht die Wahrscheinlichkeit, an Krebs zu erkranken um mindestens den Betrag X. Nur wenn diese Nullhypothese verworfen wird, besteht eine Basis, die Unbedenklichkeit zu reklamieren, wobei vorauszusetzen ist, dass eine Erhöhung des Krebsrisikos um den Betrag X auch tatsächlich als akzeptabel eingestuft wird.7 Oft wird aber unberechtigterweise ein nicht signifikanter Test der Nullhypothese „Glyphosat ist unbedenklich“ als Nachweis der Unbedenklichkeit eingestuft und dies meist auch so akzeptiert, obwohl das absoluter Unsinn ist.

Es werden meist mehrere Studien zur selben Fragestellung durchgeführt. Wichtiger als die Betrachtung einer einzigen Studie ist es, die Ergebnisse mehrerer Studien zusammenzufassen. Eine solche Meta-Analyse kann man auch mit p-Werten machen. Ein einfaches hypothetisches Beispiel zeigt, wie wertvoll dies ist. Nehmen wir an, fünf unabhängige Studien liefern jeweils einen p-Wert von p = 0,10. Kombinieren wir die fünf p-Werte jedoch in einer Meta-Analyse, so ergibt sich ein p-Wert von p = 0,01. Das Gesamtergebnis ist also signifikant, wenn die Schwelle p < 0,05 angelegt wird, und das, obwohl jede einzelne Studie für sich die Schwelle p < 0,05 verfehlt. Dies vielleicht überraschende Ergebnis liegt darin begründet, dass bei Gültigkeit der Nullhypothese jeder p-Wert zwischen 0 und 1 gleich wahrscheinlich ist, so dass eine Häufung von fünf so kleinen (oder kleineren) p-Werten sehr unwahrschein- lich ist (eben p = 0,01). Um dieses Verfahren der Meta-Analyse anwenden zu können, muss der exakte p-Wert in je- der einzelnen Studie angegeben sein. Noch besser ist es, die Schätzung der Effektstärke in jeder Studie anzugeben und diese Schätzungen dann in einer Meta-Analyse zu kombinieren.

Ein Hauptproblem bei der Verwendung von festen Signifikanzschwellen ist, dass viele Journale vorzugsweise solche Ergebnisse publizieren, die bei p < 0,05 signifikant sind. Und viele Autoren trauen sich erst gar nicht, ihre Studie einzureichen, wenn nicht p < 0,05 ist. Besonders problematisch ist es, wenn in einer großen Menge von Merkmalen so lange gesucht wird, bis ein signifikantes Ergebnis gefunden wird und dann nur dies publiziert wird. Dieses weitverbreitete und oft unbewusste Fehlverhalten wird auch als p-hacking bezeichnet.8 All dies führt zu einer Überschätzung von Effektstärken, leider auch in Meta-Analysen. Zu fordern ist daher unbedingt, dass auch „nicht signifikante“ Ergebnisse publiziert werden, weil nur so Verzerrungen vermieden werden, und weil jede Studie, auch die „nicht signifikanten“, einen wichtigen Beitrag zu einer Gesamteinschätzung in einer Meta-Analyse leisten kann. Dieser wesentliche Kritikpunkt an der Verwendung von p-Werten bringt uns wieder an den Ausgangspunkt der Debatte zurück, in dessen Folge manche Journale die Verwendung von p-Werten sogar ganz verbannt haben, zu Gunsten einer ausschließlichen Fokussierung auf Effektstärken und Vertrauensintervalle. Das schießt sicher über das Ziel hinaus. Aber man sollte sich über die Grenzen von p-Werten im Klaren sein und wenn möglich neben exakten p-Werten immer auch Effektstärken und Vertrauensintervalle angeben, allein schon deshalb, weil dies für die Verwendung in einer aussagefähigen Meta-Analyse notwendig ist.

1Nuzzo R. 2014. Scientific method: statistical errors. Nature 506:150- 152, doi: 10.1038/506150a.
2Wasserstein RL, Lazar NA. 2016. The ASA's statement on p-values: context, process, and purpose. The American Statistician 70:129-133, doi: 10.1080/00031305.2016.1154108.
3Amrhein V et al. 2017. The earth is flat (p > 0.05): significance thres- holds and the crisis of unreplicable research. PeerJ 5:e3544, doi: 10.7717/peerj.3544.
4Viele solche Studien werden hier vorgestellt: Burtscher-Schaden H. 2017. Die Akte Glyphosat. Kremayr & Scheriau, Wien.
5Greenland S et al. 2016. Statistical tests, P values, confidence inter- vals, and power: a guide to misinterpretations. European Journal of Epidemiology 31:337-350, doi: 10.1007/s10654-016-0149-3.
6Altman DG, Bland JM. 1995. Absence of evidence is not evidence of absence. British Medical Journal 311:485, doi: 10.1136/bmj.311. 7003.485.
7Piepho HP. 2013. Sicherheitsforschung: Signifikanz und Äquivalenz. GID 220, S. 28-29.
8Siehe Fußnote 1.

GID Meta

Erschienen in

GID-Ausgabe

244

vom Februar 2018

Seite 14 - 16

Hans-Peter Piepho ist Professor für Biostatistik an der Universität Hohenheim.

zur Artikelübersicht

PDF erzeugen

Nur durch Spenden ermöglicht!

Einige Artikel unserer Zeitschrift sowie unsere Online-Artikel sind sofort für alle kostenlos lesbar. Die intensive Recherche, das Schreiben eigener Artikel und das Redigieren der Artikel externer Autor*innen nehmen viel Zeit in Anspruch. Bitte tragen Sie durch Ihre Spende dazu bei, dass wir unsere vielen digitalen Leser*innen auch in Zukunft aktuell und kritisch über wichtige Entwicklungen im Bereich Biotechnologie informieren können.

Ja, ich spende! Nein, diesmal nicht