medianet ÖAZ Philips QUALITAS ÖKZ MedAustron

Datum: Sonntag, 4. August 2019

Artikel: Schaffler Verlag, Qualitas: 02/2019 / Jana Meixner

Bildinhalt: Frau mit Schokolade

Bildrechte: ClipDealer / CandyBoxImages

Dieser Artikel wurde 61 mal gelesen.

Schokolade macht schlank und schlau

Häufige Tricksereien in der Statistik und wie man sie erkennt

Statistische Fehler in der Wissenschaft sind häufig. Forscher und Forscherinnen wählen nicht die richtigen Methoden oder sie interpretieren die Ergebnisse falsch. Meistens unbewusst, manchmal ganz gezielt. Deswegen sollten nicht nur jene, die Statistik anwenden, sondern auch alle, die Studien lesen und interpretieren, mögliche Fallstricke und Scheinstatistik entlarven können. Ganz besonders jene, die ihre Entscheidungen darauf stützen. Hier finden kritische Leserinnen und Leser ein paar häufige statistische Tricksereien und Fehler, die zu kennen es sich lohnt.

"Schokolade hilft beim Abnehmen!“, titelten Zeitschriften euphorisch im Jahr 2015. Forscher hatten herausgefunden, dass Diäten durch Konsum von reichlich Schokolade signifikant erfolgreicher waren. Journalisten überall auf der Welt griffen die unglaubliche Neuigkeit auf und verbreiteten sie schnell. Nur: Die Studie war ein Scherz. Das durchführende Institut war erfunden, der Erstautor, Johannes Bohannon, kein Mediziner, sondern Journalist. Wozu das Ganze? Um sowohl Medien als auch der Öffentlichkeit vor Augen zu führen, wie einfach sie mit statistischen Tricksereien getäuscht werden können. Obwohl die Studie echt war und die Zahlen real.

Das p-Hacking

Mit einem p-Wert von 0,04 hatten die Schokoladenesser tatsächlich statistisch signifikant Gewicht verloren. Bohannon und seine Kollegen hatten p-Hacking verwendet, um die Ergebnisse zu produzieren, die sie sich erhofften. Wissenschaftler tun das manchmal gezielt, manchmal aber auch unbeabsichtigt, indem sie zum Beispiel mit einem Datensatz viele unterschiedliche Endpunkte untersuchen, in der Hoffnung auf eine statistisch signifikante Verbindung zwischen einer der Variablen und einem untersuchten Endpunkt zu stoßen. Man nennt das auch multiples Testen. Dadurch steigt die Wahrscheinlichkeit, durch reinen Zufall ein statistisch signifikantes Ergebnis zu erhalten. Gute Forschung sollte nicht nach dem Prinzip funktionieren, wild drauflos zu testen und zu sehen, was sich finden lässt. Idealerweise steht am Anfang eine klar definierte Hypothese, die dann gezielt überprüft wird; auch auf die Gefahr hin, kein statistisch signifikantes Ergebnis zu erhalten. Was leider auch oft bedeutet, keine Gelegenheit zu bekommen, die Studie zu publizieren.

Eine Frage der Bezugsgröße

Wer ungern fliegt, den beruhigt vielleicht die vielzitierte Statistik, nach der das Flugzeug eines der sichersten Verkehrsmittel sei. Gemessen an den zurückgelegten Distanzen fordert der Flugverkehr tatsächlich die wenigsten Todesopfer pro Reisekilometer. Die Bezugsgröße sind hier also die Kilometer. Wechselt man aber die Bezugsgröße und fragt nach den Toten pro Reisestunde, erhält man ein anderes Bild: Plötzlich ist das Flugzeug, gleich nach dem Auto, an die zweite Stelle der lebensgefährlichen Transportmittel gerückt. Was ist passiert?

Mit dem Flugzeug legen Reisende in kurzer Zeit sehr weite Strecken zurück. In Anbetracht dessen, wie wenig Zeit Menschen durchschnittlich in Flugzeugen verbringen, gibt es in dieser Zeit aber relativ viele Tote. Die Wahl der Bezugsgröße ist also eine Möglichkeit, etwas harmloser oder gefährlicher erscheinen zu lassen, je nachdem, ob man Inhaber einer Fluglinie oder einer Eisenbahngesellschaft ist.

Die versteckte Variable

Stellen wir uns vor, ein Team von Forschern untersucht die Ursachen für Lungenkrebs. Die Studie fördert Überraschendes zutage: Menschen, die ein Feuerzeug bei sich tragen, erkranken überdurchschnittlich häufig an Lungenkrebs. Wie das?

Bevor das Team nun vor die Boulevardpresse tritt und den Besitz eines Feuerzeugs zum Gesundheitsrisiko erklärt, wird ihm hoffentlich – genauso wie vielen Leserinnen und Lesern – etwas auffallen: Wer immer ein Feuerzeug mit sich herumträgt, ist mit hoher Wahrscheinlichkeit Raucher. Und das Rauchen ist der wahre Grund für Lungenkrebs. Meist werden solche versteckten Variablen – wie das Rauchen in unserem Beispiel – schlicht übersehen. Sie sind, wenn bewusst zurückgehalten, aber auch eine gute Möglichkeit, Zusammenhänge vorzugaukeln, die es gar nicht gibt.

Der Prävalenzfehler

Der Prävalenzfehler ist relevant, wenn es darum geht, das Risiko einer Erkrankung und die Aussagekraft eines medizinischen Tests richtig einzuschätzen. Ein gutes Beispiel ist der HIV-Test: Im Falle einer Infektion zeigt der Test dies mit 99-prozentiger Sicherheit auch an, die Sensitivität beträgt 99 Prozent.

Es wäre jedoch fatal zu glauben, ein positives Testergebnis hieße eine 99-prozentige Sicherheit, erkrankt zu sein. Beim Interpretieren der Sensitivität ist es nämlich essenziell zu wissen, wie häufig eine Erkrankung in der Gesamtbevölkerung eigentlich vorkommt. Für Patienten, die keiner Hochrisikogruppe angehören, liegt das Risiko, infiziert zu sein bei rund 0,1 Prozent. Aus dieser Grundwahrscheinlichkeit und der Sensitivität des Tests können wir nun den positiv prädiktiven Wert errechnen. Da HIV in der Gesamtbevölkerung mit einer Prävalenz von rund 0,1 Prozent eher selten ist, ist jemand mit positivem Testergebnis mit einer Wahrscheinlichkeit von nur 9 Prozent auch tatsächlich krank.


Bildinhalt: QUALITAS
  Ausgabe: 02/2019
Bildrechte: Schaffler Verlag