Das Emotion SDK von Affectiva umfasst nun zwei neue Echtzeit-Verhaltensmetriken: „Gähnen“ und „Schmerz“. Diese KI-gestützten Signale wurden für Medientests, Gaming, UX-Forschung und digitale Erlebnisse entwickelt und messen objektiv körperliche Gesichtsreaktionen mit geringer Latenz. So helfen sie Forschern und Entwicklern, Ermüdung, Unbehagen, Desinteresse und instinktive Nutzerreaktionen mit größerer Präzision und kontextbezogenen Erkenntnissen zu erkennen.

Wir freuen uns, Ihnen mitteilen zu können, dass wir die Funktionen des Affectiva Emotion SDK um zwei neue, auf Gesichtsausdrücken basierende Metriken erweitern: „Gähnen“ und „Schmerz“.

Beide Signale wurden entwickelt, um Entwicklern, Forschern und Medienteams hochpräzise Echtzeitmessungen beobachtbarer physischer Verhaltensweisen zu liefern und so tiefere Einblicke in die Reaktionen der Nutzer bei digitalen Erlebnissen zu ermöglichen.

Im Gegensatz zu allgemeinen emotionalen Einstufungen konzentrieren sich diese neuen Messgrößen auf die objektive Erfassung spezifischer Gesichtsausdrücke und Verhaltensreaktionen.

Dies macht sie besonders wertvoll für Anwendungen, bei denen Präzision und Kontext eine wichtige Rolle spielen, darunter Medientests, Gaming, E-Learning, UX-Forschung, Werbung und interaktive Unterhaltung.

Wir stellen das Gähnsignal vor

Das neue Gähnen-Signal ist eine Echtzeit-Metrik, die dazu dient, körperliche Gähnenausdrücke zu erkennen und zu messen. Während frühere Gähnenmodelle in erster Linie für Automobil- und Fahrerüberwachungssysteme entwickelt wurden, wurde diese Version speziell für skalierbare SDK-Anwendungen in der kommerziellen Forschung und im Bereich digitaler Erlebnisse optimiert.

Anstatt zu versuchen, daraus zu schließen, ob ein Nutzer „gelangweilt“ oder „müde“ ist, konzentriert sich das Modell ausschließlich auf die messbaren physischen Merkmale eines Gähnens, darunter die Mundöffnung, das Herabfallen des Kiefers und der vertikale Lippenabstand. Dies liefert ein transparentes Verhaltenssignal, das Entwickler und Forscher im Kontext ihrer eigenen Anwendung oder Studie interpretieren können.

Das Modell wurde anhand umfangreicher und vielfältiger realer Bilddaten aus der Media Analytics-Plattform von Affectiva trainiert, wodurch eine hohe Leistungsfähigkeit über verschiedene demografische Gruppen, Umgebungen und Aufnahmebedingungen hinweg gewährleistet wird. Diese breite Trainingsgrundlage verbessert die Zuverlässigkeit in Situationen, in denen Beleuchtung, Bewegung, Sprache und Bildausblendungen erheblich variieren können.

Technisch gesehen basiert das Yawn-Signal auf einer kausalen KI-Architektur, die für die Echtzeit-Erkennung optimiert ist. Das Modell wertet 29 verschiedene Eingangsgrößen aus, darunter „Facial Action Units“, Mundgeometrie, Sprachaktivität und Okklusionsdaten sowie zusätzliche statistische Merkmale. Da das System nicht auf zukünftige Videobilder angewiesen ist, liefert es Ergebnisse mit geringer Latenz, die sich für Live- und interaktive Anwendungen eignen.

Um die Stabilität zu verbessern und Fehlalarme zu reduzieren, verfügt das Signal zudem über intelligente räumliche und zeitliche Filtermechanismen, die unbeabsichtigte Auslösungen unterdrücken und kurze Bewegungen von weniger als 0,5 Sekunden ignorieren, die keine echten Gähnen darstellen.

Das Ergebnis ist eine äußerst präzise Verhaltenskennzahl, mit deren Hilfe sich Momente verminderter Aufmerksamkeit, Ermüdung oder Desinteresse bei Content-Tests, E-Learning, Gaming und Usability-Studien erkennen lassen.

Wir stellen das Schmerzsignal vor

Neben der „Yawn“-Metrik führt Affectiva auch ein neues „Pain“-Signal ein, mit dem sich Gesichtsausdrücke im Zusammenhang mit körperlichen Schmerzen in Echtzeit messen lassen.

Herkömmliche Modelle zur Schmerzeinschätzung in der wissenschaftlichen Literatur werden häufig anhand klinischer Datensätze wie dem UNBC-McMaster-Datensatz zu Schulterschmerzen trainiert und stützen sich auf Rahmenwerke wie die Prkachin- und Solomon-Schmerzintensitätsskala (PSPI). Der Ansatz von Affectiva passt diese Konzepte für breitere kommerzielle SDK-Anwendungsfälle an und legt dabei weiterhin einen starken Fokus auf beobachtbares Gesichtsverhalten.

Ähnlich wie das Gähnsignal versucht auch die Schmerzmetrik nicht, pauschale Annahmen über den emotionalen Zustand oder psychische Belastungen zu treffen. Stattdessen misst sie objektiv die körperlichen Gesichtsreaktionen, die mit Schmerzausdrücken einhergehen.

Eine hohe Aktivität des Signals entspricht starken körperlichen Schmerzreaktionen, während eine geringere Aktivität auch Reaktionen erfassen kann, die üblicherweise mit Unbehagen, „Zusammenzucken“ oder Momenten verbunden sind, die Nutzer als schwer anzusehen empfinden. Dies macht das Signal besonders wertvoll für das Testen intensiver, dramatischer, provokativer oder besonders immersiver Inhalte.

Das Modell wurde ursprünglich anhand umfangreicher realer Bilddaten aus der Cloud-Plattform „Media Analytics“ von Affectiva trainiert und speziell für den Einsatz im SDK optimiert. Das fertige System kombiniert kausale und akausale KI-Ansätze mit fortschrittlichen Techniken zur zeitlichen Datenbereinigung, darunter morphologische Filterung, um Fehlalarme zu minimieren und die allgemeine Stabilität zu verbessern.

Darüber hinaus trägt die intelligente räumliche Filterung dazu bei, Aktivierungen zu unterdrücken, wenn widersprüchliche Gesichtsausdrücke erkannt werden, wodurch die Zuverlässigkeit in unterschiedlichen realen Umgebungen und bei unterschiedlichem Nutzerverhalten verbessert wird.

Für Entwickler, Forscher und Medienteams bietet das „Pain“-Signal eine neue Möglichkeit, genau jene Momente zu identifizieren, in denen Nutzer während des Spielverlaufs, bei Filmtrailern, Reaktionsvideos, Werbung oder interaktiven Erlebnissen starke emotionale Reaktionen zeigen.

Ausweitung der Verhaltensmessung

Zusammen stellen die Signale für Gähnen und Schmerz eine Erweiterung des Ansatzes von Affectiva zur Verhaltensmessung innerhalb des Emotion SDK dar. Anstatt sich ausschließlich auf allgemeine emotionale Klassifizierungen zu stützen, liefern diese Metriken hochspezifische, kontextbezogene Verhaltenssignale, die eine umfassendere Analyse des Engagements und der Emotionen ergänzen können.

Durch detailliertere Einblicke in die körperlichen Reaktionen der Nutzer helfen die neuen Kennzahlen Forschern und Entwicklern dabei, anpassungsfähigere, reaktionsschnellere und sorgfältig durchdachte digitale Erlebnisse zu schaffen.