Ein Leitfaden für Praktiker zur KI-gestützten biometrischen Forschung

Online-Interviews stützen sich häufig auf Selbstauskünfte, doch emotionale Beteiligung und Valenz lassen sich nur schwer in Worte fassen. Dieser Artikel untersucht, wie iMotions und audEERING eine objektive Echtzeitmessung emotionaler Reaktionen durch Gesichtsausdrucks- und Stimmenanalyse unter Verwendung von handelsüblichen Webcams und Mikrofonen ermöglichen.

Einleitung: Die Grenzen dessen, was Menschen sagen

Online-Interviews und Fokusgruppen haben sich in den Bereichen Marktforschung, UX, Kommunikation und Sozialwissenschaften zur vorherrschenden Methode der qualitativen Forschung entwickelt. Doch es gibt ein grundlegendes Problem, wenn man sich ausschließlich auf die Aussagen der Befragten verlässt: Menschen sind nämlich bekanntermaßen schlechte Berichterstatter ihrer eigenen emotionalen Zustände. Sie rationalisieren, zensieren sich selbst, passen sich gesellschaftlichen Normen an und verfügen manchmal schlichtweg nicht über das Vokabular, um zu beschreiben, was sie tatsächlich empfinden.

Die emotionale Valenz – also der Grad, in dem ein Gefühl positiv oder negativ ist – und das emotionale Engagement – also die Intensität, mit der eine Person in ein Erlebnis eingebunden ist – sind zwei der wichtigsten Signale, die ein Forscher in einem Interview erfassen kann. Doch bei der traditionellen Interviewmethodik bleiben beide Aspekte fast vollständig unberücksichtigt; stattdessen stützt man sich auf nachträgliche Selbstauskünfte oder die subjektive Interpretation eines erfahrenen Moderators.

Eine neue Generation KI-gestützter biometrischer Tools bringt hier Abhilfe. Durch die Kombination von Gesichtsausdrucksanalyse (FEA) mit sprachbasierter Emotions-KI können Forscher nun mithilfe einer handelsüblichen Webcam und eines Mikrofons objektive Echtzeit-Messwerte zu Valenz und Engagement während Online-Interviews erfassen.

Bei iMotions spiegelt sich dieser Wandel in der zunehmenden Verknüpfung multimodaler Verhaltensdaten mit fortschrittlicher Sprachanalyse wider. Über unsere verschiedenen Plattformen und in Zusammenarbeit mit Partnern wie audEERING, einem in Deutschland ansässigen Spezialisten für KI-gestützte Audio- und Sprachanalyse, können Forscher physiologische, verhaltensbezogene und stimmliche Signale kombinieren, um menschliche Reaktionen besser zu verstehen.

Auf einen Blick: In diesem Artikel wird erläutert, was emotionale Beteiligung und Valenz eigentlich sind, wie diese Signale während eines Online-Interviews objektiv gemessen werden können, welche Tools dafür zur Verfügung stehen und wie man eine Studie konzipiert, die aussagekräftige Erkenntnisse aus den Daten gewinnt.

1. Was sind Valenz und Engagement?

Bevor wir uns mit der Methodik befassen, lohnt es sich, genau zu klären, was diese Begriffe im Kontext der Affektforschung bedeuten.

Valenz

Die Valenz beschreibt, ob ein emotionaler Zustand positiv oder negativ ist. Sie ist eine der beiden Kerndimensionen des Circumplex-Modells der Affekte (neben der Erregung), einem in der Emotionsforschung weit verbreiteten Rahmenkonzept. Eine Person, die sich eine herzerwärmende Geschichte ansieht, weist eine hohe positive Valenz auf. Eine Person, die eine frustrierende Gebrauchsanweisung liest, weist eine negative Valenz auf. Valenz unterscheidet sich von Intensität, und eine Person kann sich leicht glücklich (positive Valenz, geringe Erregung) oder intensiv freudig (positive Valenz, hohe Erregung) fühlen.

Im Rahmen eines Interviews gibt die Valenz Aufschluss darüber, ob die emotionale Reaktion eines Befragten auf ein Thema, einen Reiz oder eine Frage grundsätzlich positiv oder negativ ist, unabhängig davon, was er sagt. Diese Unterscheidung ist von enormer Bedeutung, da ein Befragter ein Produkt zwar als „in Ordnung“ bezeichnen könnte, während er während der gesamten Diskussion darüber eine negative Gesichtsvalenz zeigt.

Engagement

Engagement, wie es in der Verhaltensforschung gemessen wird, spiegelt den Grad an Ausdruckskraft und aktiver Beteiligung wider, den eine Person als Reaktion auf einen Reiz oder eine Situation zeigt. Es erfasst, wie sehr eine Person in eine Erfahrung „eingetaucht“ ist, und nicht nur, wie sie diese empfindet. Ein hohes Maß an Engagement kann positiv oder negativ sein, wie zum Beispiel: Eine wütende Person zeigt ein hohes Maß an Engagement; eine gelangweilte Person hingegen nicht.

In der Interviewforschung gilt das Engagement als Indikator für Relevanz und Bedeutung. Themen, die ein hohes Engagement hervorrufen, sind diejenigen, die den Teilnehmern wichtig sind. Themen, bei denen die Engagement-Kennzahlen stagnieren, selbst wenn die Befragten ausführliche mündliche Antworten geben, sind möglicherweise Themen, die die Befragten eher intellektuell verarbeiten als emotional.

Auf einen Blick: Die Kombination aus Valenz und Engagement ergibt sozusagen den emotionalen Fingerabdruck eines Interviews: Es geht nicht nur darum, was die Menschen empfinden, sondern auch darum, wie intensiv sie es empfinden und ob dieses Gefühl positiv oder negativ ist.

Erregung und Dominanz

Eine dritte Dimension, die in der Affektforschung häufig verwendet wird, ist die Erregung, die den physiologischen und psychologischen Aktivierungsgrad beschreibt, der mit einem emotionalen Zustand einhergeht. Entspannung und Langeweile liegen am unteren Ende der Erregungsskala; Aufregung und Wut am oberen Ende. Dominanz, eine weniger häufig verwendete vierte Dimension, erfasst das Ausmaß, in dem eine Person das Gefühl hat, eine Situation unter Kontrolle zu haben.

Sowohl Erregung als auch Dominanz lassen sich anhand von Stimmmerkmalen messen. Die in das Sprachanalysemodul von iMotions integrierte Technologie von audEERING gibt alle drei Dimensionen (Valenz, Erregung und Dominanz) in Echtzeit auf kontinuierlichen Skalen aus. Dieses dreidimensionale Bild des emotionalen Ausdrucks bietet deutlich mehr Nuancen als einfache kategoriale Bezeichnungen wie „glücklich“ oder „traurig“.

2. Die beiden Signalquellen: Gesicht und Stimme

Es gibt zwei wesentliche, nicht-invasive Kanäle, über die emotionale Beteiligung und Valenz während eines Online-Interviews aus der Ferne gemessen werden können: das Gesicht des Teilnehmers und seine Stimme. Beide werden über Webcam und Mikrofon erfasst.

Gesichtsausdrucksanalyse (FEA)

Die Gesichtsausdrucksanalyse nutzt Computer Vision, um Bewegungen der Gesichtsmuskeln in Echtzeit zu erkennen und zu quantifizieren. Die wissenschaftliche Grundlage bildet das von den Psychologen Paul Ekman und Wallace Friesen entwickelte Facial Action Coding System (FACS), das eine objektive, anatomisch fundierte Klassifizierung aller sichtbaren Bewegungen der Gesichtsmuskeln bietet. Diese werden als Action Units (AUs) bezeichnet.

Anstatt lediglich ein „glückliches Gesicht“ zu kennzeichnen, identifizieren FACS-basierte Systeme die spezifischen Muskelbewegungen, aus denen sich ein Gesichtsausdruck zusammensetzt. Dies könnte beispielsweise ein Anheben der Wangen in Kombination mit einem Hochziehen der Mundwinkel sein, was Freude signalisiert. iMotions integriert die AFFDEX-Engine von Affectiva, eines der am besten validierten automatisierten Gesichtsausdrucks-Codierungssysteme auf dem Markt, um bis zu 20 Action Units pro Videobild zu erkennen, zusammen mit sieben Kernemotionsklassifikationen (Freude, Wut, Angst, Überraschung, Traurigkeit, Verachtung und Ekel) sowie – was entscheidend ist – zusammengesetzte Metriken für Valenz und Engagement.

Was iMotions FEA misst

Die sieben Grundemotionen: Freude, Wut, Angst, Überraschung, Traurigkeit, Verachtung, Ekel
Bis zu 20 Action Units (AUs) – die Rohdaten der Muskelbewegungen
Valenz – der kontinuierliche emotionale Tonfall von positiv bis negativ
Engagement – die Ausdruckskraft und aktive Beteiligung der Teilnehmenden
Metriken zu Kopfhaltung und Blinzeln
Indikatoren für die 3D-Kopfausrichtung und Aufmerksamkeit

7 Grundemotionen – FACS-Aktions-Einheiten

Freude

Entscheidend ist, dass iMotions FEA sowohl in der vollständigen Desktop-Laborumgebung als auch über die Online- und Remote-Datenerfassungsplattform (RDC) verfügbar ist, die direkt im Browser über die eigene Webcam des Teilnehmers läuft. Das bedeutet, dass FEA weltweit in großem Maßstab eingesetzt werden kann, ohne dass spezielle Hardware oder Reisen der Teilnehmer erforderlich sind.

Auf einen Blick: Valenz und Engagement sind entscheidende Kennzahlen zur Bewertung einer Erfahrung. Die Valenz steht für den allgemeinen emotionalen Tenor, der von negativ bis positiv reicht. Das Engagement misst den Grad der Ausdruckskraft und der Beteiligung.

Stimmenanalyse: Das verborgene emotionale Signal

Während der Gesichtsausdruck die äußerlich sichtbaren Emotionen widerspiegelt, transportiert die menschliche Stimme einen parallelen und ergänzenden Strom emotionaler Informationen – einen, den die Befragten nur schwer bewusst steuern können. Stimmmerkmale wie Tonhöhe, Sprechgeschwindigkeit, Lautstärke und Intonation variieren systematisch je nach emotionalem Zustand, und diese Schwankungen können von KI-Systemen erkannt und quantifiziert werden, die anhand umfangreicher Korpora emotional annotierter Sprachaufnahmen trainiert wurden.

Das Sprachanalysemodul von iMotions basiert auf der devAIce-Technologie von audEERING. audEERING wurde 2012 als Spin-off der Technischen Universität München gegründet und hat über ein Jahrzehnt damit verbracht, KI-Modelle zur Analyse des Stimmausdrucks zu entwickeln und zu validieren. Die devAIce-Plattform analysiert rund 7.000 akustische Parameter, die phonatorische, artikulatorische und prosodische Aspekte der Sprache abdecken – damit gehört sie zu den umfassendsten verfügbaren Sprachanalysesystemen.

Was die iMotions-Stimmenanalyse (audEERING-Gerät) misst

Valenz – der emotionale Tonfall der Stimme, der von positiv bis negativ reicht
Erregung – das Aktivitäts- oder Energieniveau im Sprachsignal
Dominanz – die wahrgenommene Kontrolle oder das Selbstbewusstsein in der Stimme des Sprechers
Emotionszustände: Wut, Freude, Traurigkeit, Neutralität
Prosodische Merkmale: Tonhöhe, Lautstärke, Sprechgeschwindigkeit und Intonation
Merkmale des Sprechers: geschätztes Alter und Geschlecht

Das devAIce-System arbeitet mit zwei Modellen gleichzeitig: einem dimensionalen Modell, das die Stimme auf kontinuierlichen Skalen für Erregung, Valenz und Dominanz verortet, und einem kategorialen Klassifikator, der die Stimme diskreten Emotionskategorien zuordnet. Dieser duale Ansatz liefert sowohl nuancierte kontinuierliche Daten als auch interpretierbare kategoriale Ergebnisse im selben Analyseablauf.

Warum beide Kanäle wichtig sind: Der Vorteil der Multimodalität

Gesichter und Stimmen vermitteln sich überschneidende, aber dennoch unterschiedliche emotionale Informationen. Eine Person kann lächeln, während sie mit angespannter, aufgeregter Stimme spricht. Eine Person kann in ruhigem, bedächtigem Ton sprechen, während sie eine subtile Stirnrunzel zeigt – eine Aktions-Einheit, die mit Verwirrung oder Besorgnis assoziiert wird. Diese Abweichungen sind kein methodisches Rauschen; sie sind aussagekräftige Daten.

In der Kommunikationsforschung ist die Übereinstimmung oder Diskrepanz zwischen emotionalen Gesichts- und Stimmausdrücken an sich schon ein Forschungsergebnis. Ein Befragter, dessen Gesichtsausdruck und Stimme emotional im Einklang stehen, erlebt wahrscheinlich eine echte, ganzheitliche emotionale Reaktion. Ein Befragter, dessen Gesicht eine positive Valenz zeigt, dessen Stimme jedoch eine erhöhte Erregung und eine neutrale, kategoriale Emotion vermittelt, täuscht möglicherweise Positivität vor – er sagt Ihnen also das, was er glaubt, dass Sie hören wollen.

Auf einen Blick: Mit iMotions können Forscher untersuchen, wann Botschaft, Stimme und Mimik übereinstimmen und wann nicht. Dieser modalitätsübergreifende Vergleich ist eine der leistungsstärksten Funktionen bei der emotionalen Fernmessung.

Die iMotions-Plattform synchronisiert Gesichts- und Sprachdaten im Millisekundenbereich und ordnet beide Datenströme in einer einzigen einheitlichen Zeitleiste den Stimulusereignissen und den Umfrageantworten zu. Das bedeutet, dass Sie zu jedem Zeitpunkt eines Interviews sehen können, was der Teilnehmer gesagt hat, was sein Gesichtsausdruck verriet, welche Emotionen seine Stimme verriet und auf welchen Stimulus oder welche Frage er gerade reagierte.

3. Der Technologie-Stack: iMotions + audEERING

iMotions: Die Forschungsplattform

iMotions wurde gegründet, um ein ganz bestimmtes Problem zu lösen: Verschiedene biometrische Sensoren liefern Daten in unterschiedlichen Formaten, mit unterschiedlichen Abtastraten und über unterschiedliche Software-Schnittstellen. Forscher, die beispielsweise Eye-Tracking mit der Analyse von Gesichtsausdrücken und physiologischen Sensoren kombinieren wollten, standen vor einer enormen Integrationsherausforderung. iMotions hat eine einheitliche Plattform entwickelt, die all diese Signale in einer einzigen Umgebung erfasst, synchronisiert und darstellt.

Heute wird iMotions von mehr als drei Vierteln der 100 weltweit führenden Universitäten genutzt und genießt das Vertrauen von Forschern im akademischen und kommerziellen Bereich. Die Produktpalette umfasst iMotions Lab (eine vollständige Desktop-Umgebung für die Forschung im Labor), iMotions Online/Education (ein browserbasiertes Tool für Lehre und einfache Forschungszwecke) sowie die Remote Data Collection (RDC)-Plattform (die vollständigen Funktionen auf Laborstandard, die über das Internet ferngesteuert bereitgestellt werden).

Für Online-Interviews ist die Plattform „Remote Data Collection“ das geeignete Produkt. Sie erfasst Eye-Tracking über die Webcam, die Analyse von Gesichtsausdrücken mittels Affectiva AFFDEX, die Stimmungsanalyse mittels audEERING devAIce sowie die Atmung über die Webcam – alles über einen Standard-Browser, ohne dass die Teilnehmer etwas installieren müssen. Die Studien werden in der Software iMotions Lab entworfen, über einen teilbaren Link verteilt und anschließend in der vollständigen iMotions-Analyseumgebung ausgewertet.

audEERING: Der Pionier im Bereich Sprach-KI

Die audEERING GmbH mit Sitz in Gilching bei München ist Marktführer im Bereich der KI-basierten Audioanalyse. Das Unternehmen blickt auf eine 20-jährige Forschungstradition zurück und ist aus akademischen Wurzeln an der Technischen Universität München hervorgegangen. Sein Kernprodukt, devAIce, ist die Grundlage für das Sprachanalyse-Modul von iMotions.

devAIce ist als SDK, Web-API und Plugin für Spiel-Engines und XR-Plattformen verfügbar. Innerhalb der RDC-Umgebung von iMotions fungiert es als integriertes Modul – die Audioaufnahmen der Teilnehmer werden lokal auf der Hardware des Forschers verarbeitet, wodurch Datensouveränität und die Einhaltung der DSGVO gewährleistet sind. Es werden keine Audiodaten an externe Server gesendet.

Die Partnerschaft zwischen iMotions und audEERING wurde im August 2023 bekannt gegeben. Dagmar Schuller, CEO von audEERING, erklärte dazu: „Gemeinsam werden wir einen wesentlichen Beitrag zur Verbesserung wissenschaftlicher Prozesse leisten und eine neue Ära der Analyse menschlichen Verhaltens einläuten.“ Die Integration ergab sich ganz natürlich – iMotions benötigte eine erstklassige Sprach-KI-Komponente, und audEERING benötigte eine Forschungsplattform von Weltklasse, um seine Technologie in wissenschaftlichen und kommerziellen Forschungskontexten einzusetzen.

Auf einen Blick: Das Ausdrucksmodell „audEERING devAIce“ wurde auf Hugging Face bereits mehr als 3 Millionen Mal heruntergeladen, was seine Stellung als Referenztechnologie in der offenen akademischen Gemeinschaft unterstreicht – noch bevor es kommerziell in iMotions integriert wurde.

4. Konzeption einer Online-Befragungsstudie zur Messung emotionaler Reaktionen

Die Erfassung von Gesichts- und Sprachdaten während eines Online-Interviews ist mit iMotions RDC technisch unkompliziert. Die methodische Herausforderung liegt in der Studienkonzeption und der Gestaltung des Interviews, damit die erhobenen Daten aussagekräftig und zwischen den Teilnehmern vergleichbar sind.

Gestaltung und Standardisierung von Stimuli

Eine der wichtigsten Erkenntnisse aus der biometrischen Interviewforschung ist, dass Schwankungen im Ablauf des Interviews den Datenvergleich erschweren. Wenn jeder Teilnehmer einem anderen Gesprächsverlauf folgt, ist es schwierig, herauszufinden, was in einem bestimmten Moment eine emotionale Reaktion ausgelöst hat.

Empfehlungen aus der Praxis, die sich auf die Forschung von iMotions und die Erfahrungen von UX-Experten stützen, legen nahe, das Interview so zu strukturieren, dass wichtige Stimulusmomente – gezeigte Konzepte, abgespielte Videos oder bestimmte Fragen – bei allen Teilnehmern einheitlich sind. Mit dem Study Builder von iMotions können Forscher Stimuli (Bilder, Videos, Webinhalte) direkt in den Interviewablauf einbetten und diese in der Zeitleiste als Ereignismarker kennzeichnen. Das bedeutet, dass emotionale Daten zeitlich an bestimmte Stimuli gekoppelt werden können, sodass Sie genau sehen können, was auf dem Bildschirm zu sehen war oder welche Frage gestellt wurde, als ein bestimmter emotionaler Höhepunkt auftrat.

Einrichtung von Webcam und Mikrofon

Für die Datenerhebung über iMotions RDC sind lediglich eine Webcam und ein Mikrofon erforderlich. Die Teilnehmer greifen über einen Standard-Browser-Link auf die Studie zu. Auf Seiten der Teilnehmer ist keine Softwareinstallation erforderlich. Die Plattform nutzt die nativen Medien-APIs des Browsers und verfügt über Server sowohl in Deutschland als auch in den Vereinigten Staaten, um eine DSGVO-konforme Datenverarbeitung zu gewährleisten.

Die Beleuchtung ist das häufigste Qualitätsproblem bei der webkamerabasierten FEA. Die Teilnehmer sollten sich in einer gut beleuchteten Umgebung befinden, wobei das Licht von vorne (und nicht von hinten) kommen sollte. iMotions umfasst Kalibrierungsschritte und Qualitätsprüfungen, um schlechte Tracking-Bedingungen bereits vor Beginn einer Studie zu erkennen.

Integration von Umfragen und biometrischen Daten

Daten aus Selbstauskünften sind nach wie vor eine wichtige Ergänzung zu biometrischen Messungen. iMotions RDC verfügt über ein integriertes Umfrage-Tool, das Skalen, Videos, Bilder und Verzweigungslogik unterstützt und sich in Umfrageplattformen von Drittanbietern integrieren lässt. Forscher können Umfragefragen vor, während und nach den Interviewabschnitten einbinden, was einen direkten Vergleich zwischen den von den Teilnehmern angegebenen Empfindungen (explizite Selbstauskunft) und dem, was ihr Gesichtsausdruck und ihre Stimme implizit verrieten, ermöglicht.

Diese Triangulation – explizite Selbstauskunft in Verbindung mit impliziten biometrischen Signalen – gilt als Goldstandard in der Affektforschung. Keiner der beiden Kanäle ist für sich genommen ausschlaggebend. Selbstauskünfte unterliegen der Tendenz zur Rationalisierung und der Verzerrung durch soziale Erwünschtheit; biometrische Signale erfordern eine sorgfältige Kontextualisierung. In Kombination liefern sie ein weitaus umfassenderes Bild der tatsächlichen emotionalen Erfahrung der Teilnehmenden.

Überlegungen zur Stichprobengröße

Biometrische Online-Forschung lässt sich in einem Umfang skalieren, der bei Laboruntersuchungen nicht möglich ist. Da die Teilnehmer von ihren eigenen Geräten aus auf die Studien zugreifen, ermöglicht iMotions RDC die gleichzeitige Rekrutierung über verschiedene Regionen und Zeitzonen hinweg. Bei Interviewstudien reichen Stichprobengrößen von 20 bis 50 Teilnehmern in der Regel aus, um Muster zu erkennen, wobei größere Stichproben die statistische Zuverlässigkeit bei Vergleichen zwischen verschiedenen Gruppen verbessern.

Die Plattform unterstützt die Integration von Panel-Anbietern, wodurch es möglich ist, über die übliche Marktforschungsinfrastruktur zielgruppenspezifische Stichproben zu rekrutieren und gleichzeitig umfassende biometrische Daten zu erfassen.

5. Wie die Daten aussehen: Wichtige Kennzahlen und Ergebnisse

Metriken zur Gesichtsausdrucksanalyse

Das iMotions-FEA-Modul gibt für jede Metrik zeitgestempelte Werte mit der Bildfrequenz der Webcam aus (in der Regel 15–30 Bilder pro Sekunde). Im iMotions-Signal-Viewer werden diese als überlagerte Wellenformen auf der Zeitachse der Studie angezeigt, synchronisiert mit Audio-, Video- und Ereignismarkern. Zu den wichtigsten Ausgaben gehören:

Valenzwert (kontinuierlich, von negativ bis positiv): der emotionale Nettoton in jedem Einzelbild
Engagement-Wert (kontinuierlich, 0 bis 1): Grad der Mimik und der Beteiligung
Individuelle AU-Intensitätswerte: die Rohdaten der Muskelaktivität für die weiterführende Analyse
Emotionswahrscheinlichkeitswerte: Wahrscheinlichkeitswerte für jede der sieben Grundemotionen
Kopfhaltung und Aufmerksamkeitsindikatoren

Forscher können die Zeitverläufe einzelner Teilnehmer visualisieren, Signale über alle Teilnehmer hinweg aggregieren, um emotionale Höhe- und Tiefpunkte zu identifizieren, und über die Registerkarte „Vergleich“ von iMotions emotionale Reaktionen auf verschiedene Reize oder zwischen Teilnehmergruppen vergleichen.

Kennzahlen zur Sprachanalyse

Das Modul zur Stimmenanalyse liefert aus dem Audiosignal emotionale Daten in Form von skalaren und kategorialen Werten. Zu den wichtigsten Ergebnissen gehören:

Valenz (kontinuierlich): der positive oder negative Klang der Stimme des Sprechers
Anregung (kontinuierlich): das Energie- oder Aktivierungsniveau der Stimme
Dominanz (kontinuierlich): das wahrgenommene Selbstbewusstsein oder die Kontrolle in der Stimme
Kategorische Emotionsbezeichnung: wütend, glücklich, traurig oder neutral
Prosodische Merkmale: Tonhöhe, Lautstärke, Sprechgeschwindigkeit und Intonationsvielfalt

Die iMotions-Plattform umfasst zudem ein Sprach-zu-Text-Modul, das Interviewaufnahmen transkribiert und es Forschern ermöglicht, emotional bedeutsame Wörter und Ausdrücke zu identifizieren. Das bedeutet, dass ein Anstieg der stimmlichen Erregung genau den Worten zugeordnet werden kann, die ein Teilnehmer in diesem Moment ausgesprochen hat – was eine Integration von qualitativen und quantitativen Daten ermöglicht, die in der Fernforschung bisher nicht möglich war.

Da Gesichts- und Sprachdaten auf der iMotions-Plattform zeitlich synchronisiert sind, können Forscher die Übereinstimmung zwischen den beiden Kanälen von Moment zu Moment berechnen. Zu den gängigen Analysefragen gehören: Wann weichen Gesichtsausdruck und Stimmlage voneinander ab? Gibt es Momente, in denen eine hohe Gesichtsaktivität mit einer geringen stimmlichen Erregung zusammenfällt, was auf eine eher intellektuelle als emotionale Verarbeitung hindeuten könnte? Zeigen die Teilnehmer über alle Modalitäten hinweg konsistente emotionale Reaktionen, oder gibt es systematische Diskrepanzen, die auf Impression Management hindeuten?

Kurzübersicht: Eine Untersuchung zur Viralität von Videos anhand von iMotions-Daten ergab, dass Gesichtsausdrücke, die Freude, Engagement und positive Emotionen widerspiegeln, zusammen mit Spitzenwerten bei der Hautleitfähigkeit (GSR) zu den Merkmalen mit der höchsten Vorhersagekraft für das Zuschauerengagement zählen und eine Vorhersage des Engagements mit einer Genauigkeit von über 80 % ermöglichen.

6. Praktische Anwendungen in der Interviewforschung

Marktforschung und Konzepttests

Für Marktforscher bieten Online-Interviews mit FEA und Sprachanalyse eine Möglichkeit, die Aussagen der Befragten zu Konzepten, Produkten oder Kampagnen zu bestätigen oder zu hinterfragen. Ein Befragter, der ein Produktkonzept als „interessant“ beschreibt, während der gesamten Diskussion jedoch eine anhaltend neutrale bis negative Mimik und geringe Beteiligung zeigt, ist möglicherweise eher höflich distanziert als wirklich interessiert. Diese Unterscheidung kann die Richtung einer Entscheidung in der Produktentwicklung beeinflussen.

In der Dokumentation zur Marktforschung von audEERING wird darauf hingewiesen, dass sich aus den Werten für Valenz und Erregung bestimmte Ausdrucksdimensionen ableiten lassen, darunter Desinteresse, Irritation, Begeisterung und Entspannung, wodurch sich umfassendere Marktforschungsparameter ergeben als durch kategoriale Umfrageantworten allein.

Kommunikation und Nachrichtentests

In der Kommunikationsforschung ist die Übereinstimmung zwischen der beabsichtigten emotionalen Wirkung einer Botschaft und der tatsächlichen emotionalen Reaktion des Publikums die zentrale Frage. Das Kommunikationsforschungslabor von iMotions kombiniert FEA und Sprachanalyse, um die Reaktionen des Publikums auf Botschaften, Reden und Kampagnen zu messen. Forscher können so auf einer Moment-für-Moment-Ebene – die mit keinem Umfrageinstrument erreichbar ist – ermitteln, welche Momente in einer Kommunikation positive Emotionen und Engagement hervorrufen und welche zu Desinteresse oder negativen Emotionen führen.

UX-Forschung und Think-Aloud-Studien

„Think-aloud“-Protokolle, bei denen Nutzer ihre Gedanken während der Interaktion mit einem Produkt laut aussprechen, sind eine gängige Methode der UX-Forschung. Die Sprachanalyse fügt eine Dimension hinzu, die der verbale Inhalt allein nicht erfassen kann: die emotionale Färbung dessen, was die Teilnehmer sagen. Ein Nutzer, der mit frustrierter, angespannter Stimme sagt „Das ist in Ordnung“, vermittelt etwas anderes als ein Nutzer, der dieselben Worte in einem ruhigen, positiv gefärbten Tonfall sagt. Die Integration der Stimmenanalyse mit Eye-Tracking und FEA bei iMotions ermöglicht es, den emotionalen Zustand der Stimme genau mit dem zu korrelieren, wohin der Nutzer in diesem Moment blickte und was er tat.

Forschung im Bereich Gesundheitswesen und Telemedizin

Die Stimmenanalyse hat in der klinischen Forschung eine lange Tradition, wo sie zur Erkennung von Stimmbiomarkern für Erkrankungen wie Depressionen, Parkinson und Alzheimer eingesetzt wird. Im Rahmen von Telemedizin-Gesprächen bietet die Möglichkeit, Stimmmerkmale während der Interaktion zwischen Patient und Arzt passiv zu überwachen, Potenzial für die Früherkennung und Überwachung. Das Gerät devAIce von audEERING wurde bereits in der Gesundheitsforschung eingesetzt, und die Plattform von iMotions stellt die Infrastruktur für Studiendesign und Datenmanagement bereit, um IRB-konforme klinische Forschung zu unterstützen.

7. Ethische Überlegungen und Datenverwaltung

Gesichtsausdrucksdaten und Sprachaufzeichnungen sind biometrische Daten und unterliegen in den meisten Rechtsordnungen den Datenschutzbestimmungen. In Europa fallen beide unter die DSGVO. In den Vereinigten Staaten gelten in vielen Fällen datenschutzrechtliche Vorschriften auf Bundesstaatenebene (einschließlich des Illinois BIPA). Die Nutzung von iMotions FEA und der Sprachanalyse zu Forschungszwecken erfordert eine ausdrückliche Einwilligung der Teilnehmer, die die Erhebung, Speicherung und Analyse sowohl von Gesichts- als auch von Audiodaten umfasst.

Zu den wichtigsten ethischen Anforderungen bei der Durchführung biometrischer Befragungsstudien gehören:

Genehmigung durch die IRB oder die Ethikkommission für akademische und klinische Forschung
Ausdrückliche, informierte Einwilligung der Teilnehmer, die sich auf die spezifischen erfassten biometrischen Signale bezieht
Den Teilnehmern werden klare Richtlinien zur Datenspeicherung und -löschung mitgeteilt
Anonymisierung von Daten, soweit möglich und erforderlich
Transparenz hinsichtlich der Nutzung von KI-Analysetools und deren Grenzen

Die RDC-Plattform von iMotions geht direkt auf Bedenken hinsichtlich der Datenhoheit ein: Audio- und Videodaten werden lokal auf der Hardware des Forschers verarbeitet. Auch das devAIce von audEERING verarbeitet Audio-Daten in der iMotions-Integration standardmäßig lokal, sodass während der Analyse keine biometrischen Daten an Server von Drittanbietern übertragen werden. Für europäische Forscher unterhält iMotions neben den Vereinigten Staaten auch eine Serverinfrastruktur in Deutschland.

Es ist zudem wichtig, den Teilnehmern und Interessengruppen zu vermitteln, dass die automatisierte Emotionsmessung probabilistisch und nicht deterministisch ist. FEA- und Sprachanalysesysteme messen beobachtbare Signale, Gesichtsmuskelbewegungen und akustische Merkmale und leiten daraus emotionale Zustände ab. Diese Schlussfolgerungen stützen sich auf fundierte wissenschaftliche Erkenntnisse, sind jedoch nicht unfehlbar. Sie sollten in Verbindung mit Selbstauskunftsdaten und qualitativen Interviewergebnissen interpretiert werden und nicht als Ersatz für diese dienen.

Fazit: Unbeschreiblich

Die Zukunft der qualitativen Forschung ist nicht rein qualitativ. Da KI-gestützte biometrische Tools online immer leichter zugänglich und in großem Maßstab einsetzbar werden, wird auch die strengste Interviewforschung künftig routinemäßig die Tiefe menschlicher Gespräche mit der Objektivität kontinuierlicher Emotionsmessungen verbinden.

Der iMotions + audEERING-Stack entspricht dem aktuellen Stand der Technik für die Umsetzung solcher Verfahren in Online-Interviews. Die Remote-Datenerfassungsplattform von iMotions bietet die Infrastruktur für Studiendesign, Datenerfassung, Synchronisation und Analyse. Die devAIce-Technologie von audEERING liefert die sprachbasierte Ebene der Emotionsintelligenz. Zusammen bieten sie Forschern etwas, das bisher nur in voll ausgestatteten Labors verfügbar war: ein Echtzeit-Bild im Millisekundenbereich davon, was die Teilnehmer fühlen – nicht nur, was sie sagen.

Die Instrumente sind vorhanden. Die Validierung ist gesichert. Was noch fehlt, ist ein methodischer Wandel und die Bereitschaft, emotionales Engagement und Valenz als messbare Forschungsvariablen zu betrachten und nicht als impressionistische Einschätzungen von Moderatoren. Für Forscher, die bereit sind, diesen Wandel zu vollziehen, werden Online-Interviews nie wieder so sein wie zuvor.

Das Wichtigste in Kürze

Die emotionale Valenz (positiver/negativer Tonfall) und das Engagement (Intensität der Beteiligung) lassen sich bei Online-Interviews in Echtzeit anhand von Gesichtsausdruck und Stimme messen.
Die Fernerfassungsplattform von iMotions erfasst beide Signale ausschließlich über die Webcam und das Mikrofon des Teilnehmers – es ist weder spezielle Hardware noch ein Labor erforderlich.
Die Gesichtsausdrucksanalyse basiert auf der AFFDEX-Engine von Affectiva, die auf dem FACS-Framework aufbaut, und liefert pro Bilddatenrahmen Werte für Valenz, Engagement, 7 Kernemotionen sowie bis zu 20 Action Units.
Die Sprachanalyse basiert auf der devAIce-Technologie von audEERING und liefert neben einer kategorialen Emotionsklassifizierung auch Werte für Valenz, Erregung und Dominanz auf kontinuierlichen Skalen.
Beide Signale werden in iMotions auf Millisekundenebene synchronisiert, was eine modalübergreifende Analyse und die zeitliche Verknüpfung emotionaler Reaktionen mit bestimmten Reizen, Fragen oder Momenten ermöglicht.
Biometrische Daten sollten stets mit Daten aus Fragebögen abgeglichen werden – keiner der beiden Kanäle ist für sich genommen ausschlaggebend.
Gesichts- und Stimmdaten sind biometrische Daten; hierfür sind eine Einverständniserklärung, die Genehmigung durch die Ethikkommission und die Einhaltung der DSGVO erforderlich.
Die Standardisierung des Studiendesigns – einheitliche Reize, einheitliche Fragenfolgen – ist entscheidend für interpretierbare und vergleichbare biometrische Interviewdaten.