Listen to the article iThis is an audio narration of the article, made using Generative AI technology. Please note that occasional mispronunciations may occur.

Gute Forschung beginnt schon lange vor dem ersten Experiment.

Während des Zweiten Weltkriegs erhielt ein Statistiker namens Abraham Wald eine Aufgabe, die angesichts seines Hintergrunds eher unerwartet war: die Überlebensrate von US-Flugzeugen zu verbessern. Wald war ein kluger Mann und sah sich die bisherigen Analysen an. Die früheren Ermittler hatten die Schäden und Zerstörungen an den Flugzeugen festgestellt und empfohlen, die am stärksten beschädigten Bereiche mit zusätzlicher Panzerung zu versehen, um deren Schutz zu erhöhen. Da bestimmte Teile beschossen und zerfetzt worden waren, wurden sie mit neuer Panzerung versehen.

Doch die Überlebensrate stieg nicht an. Tatsächlich sank sie sogar, da die neue Panzerung das Gewicht erhöhte und die Manövrierfähigkeit der Flugzeuge einschränkte, und sie kehrten weiterhin mit Schäden an denselben Stellen zurück. Wald beobachtete all dies und riet der Luftwaffe, die Panzerung nur an den unbeschädigten Stellen anzubringen – also an den Teilen, die keine Spuren von Beschädigungen aufwiesen. Er argumentierte, dass die einzigen Daten zur Überlebensfähigkeit von den überlebenden Flugzeugen selbst stammten; diejenigen, die mit Schäden zurückkehrten, zeigten genau, wo nicht tödliche Treffer landen konnten.

Nachdem dieser Rat befolgt wurde, stieg die Überlebenswahrscheinlichkeit, und der Rest ist, nun ja, Geschichte. Dies ist zwar ein hervorragendes Beispiel für Querdenken, sagt uns aber auch etwas Entscheidendes über die Datenerhebung – nämlich über den Selektionsbias.

Ein Auswahlverzerrung ist ein experimenteller Fehler, der auftritt, wenn die Teilnehmergruppe oder die daraus resultierenden Daten nicht repräsentativ für die Zielpopulation sind.

Es gibt verschiedene Arten von Selektionsverzerrungen, und die meisten lassen sich vermeiden, bevor die Ergebnisse vorgelegt werden. Auch wenn es nicht immer um alles oder nichts geht, wenn es darum geht, alles richtig zu machen, ist dies dennoch für eine gute Forschung unerlässlich.

Schauen wir uns einige Beispiele an und untersuchen wir, was getan werden kann, um diese Verzerrung zu verhindern, noch bevor der erste Datenpunkt überhaupt erfasst wird.

Stichprobenverzerrung

Es gibt verschiedene Aspekte der Stichprobenverzerrung, die letztlich alle dazu führen, dass die untersuchte Grundgesamtheit nicht die Daten liefert, die wir benötigen, um Schlussfolgerungen zu ziehen.

Ein gängiges Beispiel dafür in der Praxis ist die Selbstselektion. Bestimmte Personengruppen fühlen sich aufgrund von Merkmalen, die sie selbst auswählen, möglicherweise dazu hingezogen, an einer bestimmten Studie teilzunehmen. Es ist bekannt, dass Personen, die zu Sensations- oder Nervenkitzelsuche neigen, eher an bestimmten Studien teilnehmen, was die Daten einer Studie verfälschen könnte, wenn diese genau diese Persönlichkeitsmerkmale untersucht (und möglicherweise auch in anderen Studien).

Der beste Weg, diese Verzerrung zu umgehen, besteht darin, auf eine Stichprobe zurückzugreifen, die nicht selbstselektiv ist. Dies ist aufgrund experimenteller Einschränkungen (insbesondere bei Studien, die Freiwillige erfordern) natürlich nicht immer möglich, doch sollte bei der Untersuchung verschiedener Persönlichkeitstypen besonders darauf geachtet werden, das Potenzial für diese Verzerrung zu vermeiden. Die Auswirkungen dieser Verzerrung dürften weniger gravierend sein, wenn sich das Experiment auf etwas Konstanteres bezieht, wie beispielsweise psychophysiologische Messungen.

Vorauswahl

Eine weitere Falle, in die Forscher tappen können, ist die Vorauswahl der Teilnehmer. Dafür kann es gute Gründe geben (zum Beispiel, um korrekte Kontrollgruppen zu gewährleisten), doch dies kann auch dazu führen, dass die Grundgesamtheit verzerrt wird. Infolgedessen könnte dies dazu führen, dass Teilnehmer ausgewählt werden, die ein gemeinsames Merkmal aufweisen, das die Ergebnisse beeinflusst.

Dies ähnelt der Selbstselektion hinsichtlich des Ergebnisses, wird jedoch vom Forscher gesteuert (in der Regel mit guten Absichten). Um dies zu vermeiden, kann ein Doppelblindversuch erforderlich sein, bei dem eine Teilnehmerauswahl durchgeführt werden muss, was bedeutet, dass die Auswahl von einer Person getroffen wird, die von den Forschungszielen unabhängig ist (wodurch auch eine Verzerrung durch den Versuchsleiter vermieden wird).

Teilnehmerausfall

Die Stichprobe kann auch durch den Versuchsablauf beeinflusst werden, während dieser stattfindet. Wenn Teilnehmer auf verzerrende Weise aus der Studie ausscheiden – wenn es einen nicht zufälligen Grund dafür gibt –, ist es unwahrscheinlich, dass die verbleibenden Teilnehmer repräsentativ für den ursprünglichen Stichprobenpool sind (ganz zu schweigen von der Gesamtbevölkerung).

Diese Abbruchquote wird als Teilnehmerausfall bezeichnet und tritt am häufigsten bei Untersuchungen auf, bei denen eine fortlaufende Intervention mit mehreren Messungen stattfindet. So kann es beispielsweise in einer medizinischen Studie vorkommen, dass zahlreiche Teilnehmer die Studie verlassen, wenn das Medikament offenbar nicht wirkt (oder ihnen Übelkeit bereitet). Auf diese Weise werden am Ende des Experiments nur noch die verbleibenden (oder, im oben genannten Fall von Wald, die „überlebenden“) Teilnehmer untersucht.

Es ist daher wichtig, dass Teilnehmer, die aus der Studie ausscheiden, im Anschluss daran weiter beobachtet werden, um festzustellen, ob ihr Ausscheiden auf einen gemeinsamen Faktor mit anderen Teilnehmern zurückzuführen ist oder auf Gründe, die außerhalb des Experiments liegen.

Verdeckt / geheim

Es sollte nicht überraschen, dass eine zu geringe Teilnehmerzahl die Aussagekraft der Schlussfolgerungen einschränkt (sofern überhaupt welche gezogen werden können), doch leiden viele Studien tatsächlich unter einer zu geringen Erfassung der Stichprobengruppen.

Es ist daher von entscheidender Bedeutung, dass im Voraus genügend Teilnehmer zur Verfügung stehen und ausgewählt werden. Dies lässt sich im Voraus berechnen, sodass Sie die Studie entsprechend planen können. Wenn zudem zu viele Teilnehmer aufgrund von Ausfällen ausscheiden, muss die Studie möglicherweise wiederholt werden.

Ein weiterer wichtiger Punkt ist, dass man selbst bei einer ausreichenden Teilnehmerzahl sicherstellen muss, dass diese korrekt eingestuft und der richtigen Versuchsgruppe zugeordnet werden. Die Durchführung einer Studie über Zweisprachige und Einsprachige würde natürlich beeinträchtigt, wenn sich herausstellen würde, dass einige Teilnehmer eine Sprache mehr (oder weniger) sprechen, als ihre Gruppenzuordnung vermuten lässt.

Dies ist besonders relevant bei Studien, die sich mit verschiedenen psychischen Störungen befassen, bei denen die Definition der Gruppen möglicherweise unklar ist. So muss beispielsweise bei Studien zu Angststörungen möglicherweise zwischen Teilnehmern unterschieden werden, bei denen eine generalisierte Angststörung diagnostiziert wurde, und solchen, die unter Panikattacken leiden, und zwar auch dann, wenn die Teilnehmer subklinische oder prodromale Symptome aufweisen.

Wenn vor Beginn der Studie sichergestellt wird, dass die Stichprobe klar definiert und gut charakterisiert ist, wird dadurch gewährleistet, dass die Ergebnisse für die Zielgruppe relevant sind.

Kirschen pflücken, Daten auswerten

Zwar treten die meisten Auswahlverzerrungen auf, bevor die Daten erhoben werden, doch gibt es mehrere Schritte, die nachträglich erfolgen und zu fehlerhaften Verzerrungen führen können. Diese Schritte beziehen sich vielmehr darauf, wie die Daten ausgewählt werden, und nicht auf die Stichprobe.

Das „Cherry-Picking“ ist zweifellos eine gute Methode, um einen Kuchen zu backen, bezeichnet aber auch die Vorgehensweise, bei der nur solche Daten ausgewählt werden, die den Erwartungen oder Hoffnungen des Forschers entsprechen.

Dies kann auf Fehlverhalten oder vielleicht auch auf Wunschdenken seitens des Forschers zurückzuführen sein. Letztendlich führt dies jedoch in jedem Fall zu mangelhafter Wissenschaft. Der Forscher muss den Daten gegenüber unvoreingenommen bleiben und seine eigene Interpretation hinterfragen. Es kann zudem hilfreich sein, wenn mehrere Personen (idealerweise unabhängige) die Daten der Studie überprüfen.

Ähnlich wie oben beschrieben bezeichnet „Data-Dredging“ (auch bekannt als „Fishing for Data“ oder „p-Hacking“) die Vorgehensweise, nach dem Experiment nur die signifikanten Daten zu berücksichtigen und im Nachhinein Schlussfolgerungen zu erfinden, warum diese Ergebnisse zustande gekommen sind. Dies tritt in der Regel auf, wenn eine große Anzahl von Variablen untersucht wird und zufällige Ergebnisse als signifikant erscheinen können.

Indem man nur signifikante Variablen aus einem Datensatz heranzieht, entspricht dies im Grunde genommen dem mehrmaligen Durchführen desselben Experiments und der Veröffentlichung jenes Ergebnisses, bei dem signifikante Unterschiede festgestellt wurden.

Die Reproduzierbarkeit von Experimenten ist ein besonders wichtiger Grundsatz der Wissenschaft, der gewahrt bleiben sollte, wenn die Gefahr des „Data-Dredging“ besteht. Durch eine ausreichende Anzahl von Wiederholungen lässt sich nachweisen, ob die Forschungsergebnisse zutreffend sind oder nicht.

Trick-Splits

Schließlich können die Daten der Teilnehmer, ähnlich wie bei einer falschen Einstufung vor dem Experiment, auch im Nachhinein falsch klassifiziert werden. Eine falsche Aufteilung der Daten bedeutet, dass bestimmte Teile der Daten aufgrund falscher Annahmen abgetrennt oder nicht berücksichtigt werden.

Dies grenzt schon stark an betrügerische Datenmanipulation, kann aber auch aus Gründen auftreten, die eher auf technische Fehler als auf vorsätzliches Fehlverhalten zurückzuführen sind.

Mach eine Sicherungskopie

Zusätzlich zu den oben genannten Schritten gibt es einige Möglichkeiten, wie die Verwendung von iMotions bei der Datenerhebung implizit vor bestimmten Fallstricken der Auswahlverzerrung schützt, insbesondere nachdem die Datenerhebung bereits stattgefunden hat.

Die Verwendung mehrerer Datenquellen, beispielsweise mehrerer Biosensoren, bietet eine weitere Möglichkeit, Ihre Daten zu überprüfen, indem Sie beobachten, ob die Aufzeichnungen miteinander übereinstimmen. Beispielsweise kann die gleichzeitige Verwendung von GSR und EKG Ihnen helfen, den Grad der physiologischen Erregung zu bestätigen, während die Analyse des Gesichtsausdrucks Umfragetests ergänzen kann (wenn jemand unglücklich wirkt, während er in der Umfrage das Gegenteil angibt, könnte dies ein Grund sein, bei seinen Daten Vorsicht walten zu lassen). Diese Maßnahmen können Ihnen letztendlich mehr Vertrauen in die gesammelten Daten geben.

Darüber hinaus verringert die Möglichkeit, die erfassten Daten in Echtzeit in grafischer und intuitiver Form darzustellen, die Gefahr, sich allein von den Zahlen täuschen zu lassen. Eine Tabelle mit endlosen Zahlenreihen birgt fast ebenso viele Möglichkeiten, Verwirrung zu stiften, doch die Darstellung der tatsächlichen Daten in einem leicht verständlichen Format sorgt für Klarheit bei der Untersuchung.

Wie man alles in Ordnung bringt, indem man keine Geheimnisse hat

Der Einsatz von iMotions trägt wesentlich dazu bei, Verzerrungen bei der Datenauswahl zu vermeiden, doch die Auswahl der Teilnehmer hängt in erster Linie von einem guten Versuchsdesign ab.

Auch wenn es nicht immer möglich ist, das Auftreten von Stichprobenverzerrungen vollständig zu vermeiden, gibt es doch eine zentrale Maßnahme, mit der sich diese Verzerrung eindämmen lässt: klare Angaben zu den Ergebnissen. Bei der Darstellung der Ergebnisse ist es wichtig, transparent darzulegen, auf wen diese Ergebnisse zutreffen.

In unserem Artikel über Teilnehmerverzerrungen haben wir dargelegt, dass die interne Validität des Experiments problematisch sein kann, da die Ergebnisse zwar korrekt erscheinen, tatsächlich aber verzerrt sind. Bei der Auswahlverzerrung hingegen ist unserer Ansicht nach eher die externe Validität der Übeltäter – die Ergebnisse scheinen auf die Gesamtpopulation übertragbar zu sein, sind jedoch tatsächlich verzerrt und für solche Verallgemeinerungen ungültig.

Im Interesse der wissenschaftlichen Integrität ist es daher wichtig, dass die Informationen über die Teilnehmer, die Datenanalyse und die daraus resultierenden Schlussfolgerungen so offen und klar wie möglich dargestellt werden.

Wenn Sie mehr über Verzerrungen in der Forschung erfahren möchten oder wissen möchten, wie iMotions Ihre Forschung unterstützen kann, können Sie sich gerne an uns wenden.

Ich hoffe, Ihnen hat der Beitrag darüber gefallen, wie man Auswahlverzerrungen in der Forschung vermeiden kann. Wenn Sie weitere Tipps und Tricks für erfolgreiche Forschung suchen, dann schauen Sie sich unten unseren kostenlosen Taschenleitfaden zum Thema Versuchsplanung an.

Erfahren Sie, wie Sie Verzerrungen in der Forschung vermeiden können