Listen Podcast summary

Podcast summary

0:00

–:––

Guide pratique pour la recherche en biométrie assistée par l’IA

Les entretiens en ligne reposent souvent sur des déclarations des participants, mais l’engagement émotionnel et la valence sont difficiles à exprimer. Cet article examine comment iMotions et audEERING permettent une mesure objective et en temps réel des réactions émotionnelles grâce à l’analyse des expressions faciales et de la voix, à l’aide de webcams et de microphones standard.

Introduction : Les limites de ce que les gens disent

Les entretiens en ligne et les groupes de discussion sont désormais la méthode privilégiée pour la recherche qualitative dans les domaines des études de marché, de l’expérience utilisateur, de la communication et des sciences sociales. Mais le fait de se fier uniquement aux propos des participants pose un problème fondamental : on sait que les gens ont beaucoup de mal à décrire leurs propres états émotionnels. Ils rationalisent, s’autocensurent, se conforment aux normes sociales et, parfois, manquent tout simplement de vocabulaire pour exprimer ce qu’ils ressentent réellement.

La valence émotionnelle, c’est-à-dire le degré de positivité ou de négativité d’un sentiment, et l’engagement émotionnel, qui désigne l’intensité avec laquelle une personne s’implique dans une expérience, constituent deux des indicateurs les plus importants qu’un chercheur puisse saisir lors d’un entretien. Pourtant, les méthodes d’entretien traditionnelles ne permettent pratiquement pas de les mesurer, se fondant plutôt sur des déclarations a posteriori ou sur l’interprétation subjective d’un animateur expérimenté.

Une nouvelle génération d’outils biométriques basés sur l’IA est en train de changer la donne. En associant l’analyse des expressions faciales (FEA) à l’IA capable de détecter les émotions à partir de la voix, les chercheurs peuvent désormais obtenir des mesures objectives et en temps réel de la valence et de l’engagement lors d’entretiens en ligne, à l’aide d’une webcam et d’un microphone standard.

Chez iMotions, nous constatons que cette évolution se traduit par une intégration croissante des données comportementales multimodales et des analyses vocales avancées. Grâce à nos différentes plateformes, et en collaboration avec des partenaires tels qu’audEERING, une entreprise allemande spécialisée dans l’analyse audio et vocale basée sur l’IA, les chercheurs peuvent combiner des signaux physiologiques, comportementaux et vocaux afin de mieux comprendre les réactions humaines.

En bref : Cet article explique ce que sont réellement l’engagement émotionnel et la valence, comment ces signaux peuvent être mesurés objectivement lors d’un entretien en ligne, quels outils existent pour ce faire, et comment concevoir une étude permettant de tirer des enseignements pertinents des données.

1. Que sont la valence et l’engagement ?

Avant d’aborder la méthodologie, il convient de préciser ce que ces termes signifient dans le contexte des sciences affectives.

Valence

La valence décrit le caractère positif ou négatif d’un état émotionnel. Il s’agit de l’une des deux dimensions fondamentales du modèle circumplex de l’affect (aux côtés de l’excitation), un cadre largement utilisé dans la recherche sur les émotions. Une personne qui regarde une histoire touchante présente une valence positive élevée. Une personne qui lit un mode d’emploi frustrant présente une valence négative. La valence se distingue de l’intensité, et une personne peut se sentir légèrement heureuse (valence positive, faible excitation) ou intensément joyeuse (valence positive, forte excitation).

Dans le cadre d’un entretien, la valence permet de déterminer si la réaction émotionnelle d’un participant face à un sujet, un stimulus ou une question est fondamentalement agréable ou désagréable, indépendamment de ce qu’il dit. Cette distinction revêt une importance capitale, car un participant peut qualifier un produit de « correct » tout en affichant une valence faciale négative tout au long de la discussion à ce sujet.

Engagement

L’engagement, tel qu’il est mesuré dans la recherche comportementale, reflète le niveau d’expressivité et d’implication active dont fait preuve une personne en réaction à un stimulus ou à une situation. Il rend compte de la mesure dans laquelle une personne est « immergée » dans une expérience, et pas seulement de ce qu’elle en pense. Un engagement élevé peut être positif ou négatif : par exemple, une personne furieuse est très engagée, tandis qu’une personne qui s’ennuie ne l’est pas.

Dans les études par entretiens, l’engagement est un indicateur de la pertinence et de l’importance d’un sujet. Les thèmes qui suscitent un fort engagement sont ceux qui comptent pour les participants. Les thèmes pour lesquels les indicateurs d’engagement restent stables, même lorsque les personnes interrogées fournissent des réponses verbales détaillées, sont peut-être des sujets que celles-ci traitent de manière intellectuelle plutôt qu’émotionnelle.

En bref : La combinaison de la valence et de l’engagement vous donne ce que l’on pourrait appeler l’empreinte émotionnelle d’un entretien : il ne s’agit pas seulement de ce que les gens ressentent, mais aussi de l’intensité de ce sentiment et de son caractère positif ou négatif.

Excitation et domination

Une troisième dimension couramment utilisée dans la recherche sur les émotions est l’excitation, qui désigne le niveau d’activation physiologique et psychologique associé à un état émotionnel. La détente et l’ennui se situent à l’extrémité du spectre de faible excitation ; l’excitation et la colère, à l’extrémité du spectre de forte excitation. La maîtrise, une quatrième dimension moins couramment utilisée, rend compte du degré auquel une personne se sent en contrôle d’une situation.

L’excitation et la dominance sont toutes deux mesurables à partir des caractéristiques de la voix. La technologie devAIce d’audEERING, intégrée au module d’analyse vocale d’iMotions, affiche en temps réel ces trois dimensions (valence, excitation et dominance) sur des échelles continues. Cette représentation tridimensionnelle de l’expression émotionnelle offre bien plus de nuances que de simples étiquettes catégorielles telles que « heureux » ou « triste ».

2. Les deux sources de signaux : le visage et la voix

Il existe deux principaux moyens non intrusifs permettant de mesurer à distance l’engagement émotionnel et la valence lors d’un entretien en ligne : le visage et la voix du participant. Ces deux éléments sont capturés à l’aide d’une webcam et d’un microphone.

Analyse des expressions faciales (FEA)

L’analyse des expressions faciales utilise la vision par ordinateur pour détecter et quantifier les mouvements des muscles faciaux en temps réel. Elle s’appuie scientifiquement sur le Facial Action Coding System (FACS), développé par les psychologues Paul Ekman et Wallace Friesen, qui propose une classification objective, fondée sur l’anatomie, de tous les mouvements visibles des muscles faciaux. Ces mouvements sont appelés « unités d’action » (AU).

Plutôt que de se contenter d’étiqueter un « visage souriant », les systèmes basés sur le FACS identifient les mouvements musculaires spécifiques qui composent une expression. Il peut s’agir, par exemple, d’un relèvement des joues associé à un étirement des coins de la bouche, ce qui indique la joie. iMotions intègre le moteur AFFDEX d’Affectiva, l’un des systèmes de codage facial automatisé les plus largement validés du marché, pour détecter jusqu’à 20 unités d’action par image vidéo, ainsi que sept classifications d’émotions fondamentales (joie, colère, peur, surprise, tristesse, mépris et dégoût) et, surtout, des indicateurs composites de valence et d’engagement.

Ce que mesure iMotions FEA

Les sept émotions fondamentales : la joie, la colère, la peur, la surprise, la tristesse, le mépris, le dégoût
Jusqu'à 20 unités d'action (UA) — les données brutes relatives aux mouvements musculaires
Valence — la variation continue entre les sentiments positifs et négatifs
Engagement — l'expressivité et la participation active du participant
Mesures relatives à la position de la tête et au clignement des yeux
Indicateurs 3D d'orientation de la tête et d'attention

Les 7 émotions fondamentales — Unités d'action du FACS

Joie

Il est important de noter qu’iMotions FEA est disponible à la fois dans un environnement de laboratoire complet sur ordinateur de bureau et via sa plateforme de collecte de données en ligne et à distance (RDC), qui fonctionne directement dans un navigateur grâce à la webcam du participant. Cela signifie que la FEA peut être déployée à grande échelle, partout dans le monde, sans matériel spécifique ni déplacement des participants.

En bref : la valence et l’engagement sont des indicateurs essentiels pour évaluer une expérience. La valence reflète la tonalité émotionnelle globale, allant du négatif au positif. L’engagement mesure le niveau d’expression et d’implication.

Analyse vocale : le signal émotionnel caché

Si les expressions faciales reflètent les manifestations émotionnelles visibles, la voix humaine véhicule quant à elle un flux d’informations émotionnelles parallèle et complémentaire — un flux que les participants ont plus de mal à contrôler consciemment. Les caractéristiques vocales, telles que la hauteur tonale, le débit, le volume et l’intonation, varient systématiquement en fonction de l’état émotionnel, et ces variations peuvent être détectées et quantifiées par des systèmes d’IA entraînés sur de vastes corpus de discours annotés sur le plan émotionnel.

Le module d’analyse vocale d’iMotions s’appuie sur la technologie devAIce d’audEERING. Fondée en 2012 en tant que spin-off de l’Université technique de Munich, audEERING a passé plus d’une décennie à développer et à valider des modèles d’IA pour l’analyse de l’expression vocale. Sa plateforme devAIce analyse environ 7 000 paramètres acoustiques couvrant les aspects phonatoires, articulatoires et prosodiques de la parole, ce qui en fait l’un des systèmes d’analyse vocale les plus complets du marché.

Ce que mesure l’analyse vocale iMotions (dispositif audEERING)

Valence — la nuance émotionnelle de la voix, allant du positif au négatif
Excitation — le niveau d'activation ou d'énergie présent dans le signal vocal
La domination — le sentiment de maîtrise ou d'assurance qui se dégage de la voix de l'orateur
États émotionnels catégoriels : colère, joie, tristesse, neutralité
Caractéristiques prosodiques : hauteur tonale, intensité sonore, débit de parole et intonation
Caractéristiques des locuteurs : âge estimé et sexe

Le système devAIce fonctionne simultanément avec deux modèles : un modèle dimensionnel qui situe la voix sur des échelles continues pour l’excitation, la valence et la dominance, et un classificateur catégoriel qui classe la voix dans des catégories émotionnelles distinctes. Cette double approche fournit à la fois des données continues nuancées et des résultats catégoriels interprétables au sein d’un même flux d’analyse.

Pourquoi ces deux canaux sont importants : l’avantage du multimodal

Les visages et les voix véhiculent des informations émotionnelles qui se recoupent tout en restant distinctes. Une personne peut sourire tout en parlant d’une voix tendue et très animée. Une personne peut s’exprimer d’un ton calme et posé tout en fronçant légèrement les sourcils — une « unité d’action » associée à la confusion ou à l’inquiétude. Ces divergences ne constituent pas un bruit méthodologique ; ce sont des données significatives.

Dans le domaine de la recherche en communication, la concordance ou la discordance entre les signaux émotionnels faciaux et vocaux constitue en soi un résultat de recherche. Un participant dont le visage et la voix sont en accord sur le plan émotionnel est susceptible de vivre une réaction émotionnelle authentique et cohérente. Un participant dont le visage exprime une valence positive, mais dont la voix trahit une excitation accrue et une émotion neutre, peut être en train de feindre la positivité — c’est-à-dire de vous dire ce qu’il pense que vous voulez entendre.

En bref : iMotions permet aux chercheurs d’analyser les moments où le message, la voix et l’expression sont en adéquation, et ceux où ils ne le sont pas. Cette comparaison intermodale constitue l’une des fonctionnalités les plus performantes en matière de mesure émotionnelle à distance.

La plateforme iMotions synchronise les données faciales et vocales à la milliseconde près, en alignant ces deux flux sur les événements de stimulation et les réponses au questionnaire au sein d’une chronologie unique et unifiée. Cela signifie qu’à tout moment d’un entretien, vous pouvez voir ce que le participant a dit, ce que son visage exprimait, ce que sa voix trahissait sur le plan émotionnel, ainsi que le stimulus ou la question à laquelle il répondait.

3. La pile technologique : iMotions + audEERING

iMotions : la plateforme de recherche

iMotions a été fondée pour résoudre un problème précis : les différents capteurs biométriques génèrent des données dans des formats variés, à des fréquences d’échantillonnage différentes et avec des interfaces logicielles distinctes. Les chercheurs qui souhaitaient combiner, par exemple, l’oculométrie avec l’analyse des expressions faciales et des capteurs physiologiques se heurtaient à un véritable cauchemar en matière d’intégration. iMotions a mis au point une plateforme unifiée qui collecte, synchronise et présente tous ces signaux dans un environnement unique.

Aujourd’hui, iMotions est utilisé par plus des trois quarts des 100 meilleures universités du monde et bénéficie de la confiance des chercheurs tant dans le milieu universitaire que dans le secteur privé. Sa gamme de produits comprend iMotions Lab (environnement de bureau complet pour la recherche en laboratoire), iMotions Online/Education (outil basé sur un navigateur destiné à l’enseignement et à la recherche légère) et la plateforme de collecte de données à distance (RDC) (fonctionnalités complètes de niveau laboratoire déployées à distance via Internet).

Pour les entretiens en ligne, la plateforme Remote Data Collection est la solution idéale. Elle permet de capturer le suivi oculaire via webcam, l’analyse des expressions faciales grâce à Affectiva AFFDEX, l’analyse vocale via audEERING devAIce, ainsi que la respiration via webcam — le tout via un navigateur standard, sans qu’aucune installation ne soit requise de la part des participants. Les études sont conçues dans le logiciel iMotions Lab, diffusées via un lien partageable, puis analysées dans l’environnement d’analyse complet d’iMotions.

audEERING : le pionnier de l’IA vocale

La société audEERING GmbH, dont le siège social se trouve à Gilching, près de Munich, est le leader du marché de l’analyse audio basée sur l’IA. Forte d’une expérience de 20 ans dans la recherche, l’entreprise est issue de l’Université technique de Munich. Son produit phare, devAIce, est le moteur du module d’analyse vocale d’iMotions.

devAIce est disponible sous forme de SDK, d’API Web et de plugin pour les moteurs de jeux et les plateformes XR. Au sein de l’environnement RDC d’iMotions, il fonctionne comme un module intégré : les données audio des participants sont traitées localement sur le matériel du chercheur, ce qui garantit la souveraineté des données et la conformité au RGPD. Aucune donnée audio n’est transmise à des serveurs externes.

Le partenariat entre iMotions et audEERING a été annoncé en août 2023. Selon Dagmar Schuller, PDG d’audEERING : « Ensemble, nous apporterons une contribution significative à l’amélioration des processus scientifiques et ouvrirons une nouvelle ère pour l’analyse du comportement humain. » Cette intégration était tout à fait naturelle : iMotions avait besoin d’un composant d’IA vocale de premier ordre, et audEERING avait besoin d’une plateforme de recherche de classe mondiale pour déployer sa technologie dans des contextes de recherche scientifique et commerciale.

En bref : le modèle d’expression « audEERING devAIce » a été téléchargé plus de 3 millions de fois sur Hugging Face, ce qui témoigne de son statut de référence technologique au sein de la communauté universitaire ouverte, avant même son intégration commerciale dans iMotions.

4. Conception d’une étude par entretien en ligne pour la mesure des émotions

La collecte de données faciales et vocales lors d’un entretien en ligne est techniquement simple avec iMotions RDC. Le défi méthodologique réside dans la conception de l’étude, c’est-à-dire dans la manière de structurer l’entretien afin que les données recueillies soient interprétables et comparables d’un participant à l’autre.

Conception et normalisation des stimuli

L’un des principaux enseignements tirés des recherches sur les entretiens biométriques est que la variabilité du déroulement des entretiens rend difficile la comparaison des données. Si chaque participant suit un parcours conversationnel différent, il est difficile d’identifier précisément ce qui a déclenché une réaction émotionnelle à un moment donné.

Les recommandations issues des recherches d’iMotions et des professionnels de l’expérience utilisateur (UX) suggèrent de structurer l’entretien de manière à ce que les moments clés de stimulation — concepts présentés, vidéos diffusées ou questions spécifiques posées — soient identiques pour tous les participants. L’outil de création d’études d’iMotions permet aux chercheurs d’intégrer des stimuli (images, vidéos, contenu web) directement dans le déroulement de l’entretien et de les marquer comme repères d’événements sur la chronologie. Cela signifie que les données émotionnelles peuvent être associées à des stimuli spécifiques, ce qui vous permet de voir exactement ce qui s’affichait à l’écran ou quelle question était posée lorsqu’un pic émotionnel particulier s’est produit.

Configuration de la webcam et du microphone

La collecte de données via iMotions RDC ne nécessite qu’une webcam et un microphone. Les participants accèdent à l’étude via un lien standard dans leur navigateur. Aucune installation de logiciel n’est requise de la part des participants. La plateforme utilise les API multimédia natives du navigateur et dispose de serveurs situés en Allemagne et aux États-Unis afin de garantir un traitement des données conforme au RGPD.

L’éclairage est le problème de qualité le plus fréquent dans l’analyse par éléments finis (FEA) à l’aide d’une webcam. Les participants doivent se trouver dans un environnement bien éclairé, avec une source de lumière située devant eux (et non derrière). iMotions intègre des étapes d’étalonnage et des contrôles de qualité permettant de signaler les mauvaises conditions de suivi avant le début d’une étude.

Intégration des enquêtes et de la biométrie

Les données issues des auto-évaluations restent un complément essentiel aux mesures biométriques. iMotions RDC intègre un outil de sondage prenant en charge les échelles d’évaluation, les vidéos, les images et la logique de branchement, et s’intègre à des plateformes de sondage tierces. Les chercheurs peuvent intégrer des questions de sondage avant, pendant et après les segments d’entretien, ce qui permet de comparer directement ce que les participants disent avoir ressenti (auto-évaluation explicite) et ce que leur visage et leur voix ont révélé de manière implicite.

Cette triangulation — qui associe des déclarations explicites des participants à des signaux biométriques implicites — constitue la référence absolue dans la recherche sur les émotions. Aucune de ces deux sources n’est concluante à elle seule. Les déclarations des participants sont sujettes à des biais de rationalisation et de désirabilité sociale ; les signaux biométriques doivent être replacés avec soin dans leur contexte. Utilisées conjointement, elles offrent une image bien plus riche de l’expérience émotionnelle réelle du participant.

Considérations relatives à la taille de l’échantillon

La recherche biométrique en ligne offre une flexibilité que la recherche en laboratoire ne peut égaler. Les participants pouvant accéder aux études depuis leurs propres appareils, iMotions RDC permet de recruter simultanément des participants dans différentes régions et à travers différents fuseaux horaires. Pour les études basées sur des entretiens, des échantillons de 20 à 50 participants suffisent généralement pour identifier des tendances, même si des échantillons plus importants améliorent la fiabilité statistique des comparaisons entre groupes.

La plateforme prend en charge l’intégration de fournisseurs de panels, ce qui permet de recruter des échantillons démographiques ciblés via les infrastructures standard d’études de marché tout en continuant à collecter des données biométriques complètes.

5. Présentation des données : indicateurs clés et résultats

Mesures des expressions faciales

Le module FEA d’iMotions génère des scores horodatés pour chaque indicateur à la fréquence d’images de la webcam (généralement entre 15 et 30 images par seconde). Dans la visionneuse de signaux d’iMotions, ceux-ci s’affichent sous forme de courbes superposées sur la chronologie de l’étude, synchronisées avec l’audio, la vidéo et les marqueurs d’événements. Les principaux résultats comprennent :

Score de valence (variable continue, de négatif à positif) : la tonalité émotionnelle globale à chaque image
Indice d'engagement (échelle continue, de 0 à 1) : le niveau d'expressivité faciale et d'implication
Scores individuels d'intensité de l'AU : les données brutes relatives aux mouvements musculaires destinées à une analyse approfondie
Scores de probabilité émotionnelle : valeurs de probabilité pour chacune des sept émotions fondamentales
Indicateurs de position de la tête et d'attention

Les chercheurs peuvent visualiser les courbes temporelles de chaque participant, regrouper les signaux de l’ensemble des participants afin d’identifier les pics et les creux émotionnels, et utiliser l’onglet « Comparaison » d’iMotions pour comparer les réactions émotionnelles à différents stimuli ou entre différents groupes de participants.

Indicateurs d’analyse vocale

Le module d’analyse vocale génère des données émotionnelles dimensionnelles et catégorielles à partir du signal audio. Parmi les principaux résultats, on peut citer :

Valence (continue) : la tonalité positive ou négative de la voix de l'orateur
Intensité (continue) : le niveau d'énergie ou d'activation de la voix
Dominance (continue) : la confiance ou le contrôle perçus dans la voix
Étiquette émotionnelle catégorielle : classification en « en colère », « heureux », « triste » ou « neutre »
Caractéristiques prosodiques : hauteur tonale, intensité sonore, débit de parole et richesse de l'intonation

La plateforme iMotions comprend également un module de reconnaissance vocale qui transcrit les enregistrements audio des entretiens et permet aux chercheurs d’identifier les mots et expressions porteurs d’émotion. Cela signifie qu’un pic d’excitation vocale peut être associé aux mots exacts prononcés par un participant à ce moment-là, ce qui permet d’atteindre un niveau d’intégration qualitative et quantitative jusqu’alors impossible dans le cadre de la recherche à distance.

Grâce à la synchronisation temporelle des données faciales et vocales sur la plateforme iMotions, les chercheurs peuvent calculer la concordance instant par instant entre ces deux canaux. Parmi les questions d’analyse courantes, on peut citer : À quel moment la valence faciale et vocale diverge-t-elle ? Y a-t-il des moments où une forte expression faciale coïncide avec une faible excitation vocale, suggérant un traitement intellectuel plutôt qu’émotionnel ? Les participants manifestent-ils des réactions émotionnelles cohérentes d’une modalité à l’autre, ou existe-t-il des discordances systématiques suggérant une gestion de l’image ?

En bref : Une étude sur la viralité des vidéos menée à partir des données d’iMotions a révélé que les expressions faciales traduisant la joie, l’engagement et une valence positive, associées aux pics d’excitation mesurés par la réponse galvanique de la peau (GSR), figuraient parmi les indicateurs les plus prédictifs de l’engagement des spectateurs, permettant de prédire cet engagement avec une précision supérieure à 80 %.

6. Applications pratiques dans la recherche par entretiens

Études de marché et tests de concepts

Pour les spécialistes des études de marché, les entretiens en ligne combinés à l’analyse des expressions faciales (FEA) et à l’analyse vocale permettent de valider ou de remettre en question les propos des participants concernant des concepts, des produits ou des campagnes. Un participant qui qualifie un concept de produit d’« intéressant » mais qui affiche une valence faciale neutre à négative tout au long de la discussion et un faible niveau d’engagement peut en réalité se montrer poliment désintéressé plutôt que véritablement intéressé. Cette distinction peut influencer l’orientation d’une décision en matière de développement de produit.

La documentation d’audEERING relative aux études de marché souligne que les scores de valence et d’excitation permettent de dégager des dimensions d’expression spécifiques, telles que le désintérêt, l’irritation, l’excitation et la détente, offrant ainsi des paramètres d’étude de marché plus riches que les seules réponses catégorielles aux enquêtes.

Tests de communication et de messages

Dans le domaine de la recherche en communication, la question centrale réside dans l’adéquation entre l’impact émotionnel escompté d’un message et la réaction émotionnelle réelle du public. Le laboratoire de recherche en communication d’iMotions associe l’analyse des expressions faciales (FEA) et l’analyse vocale pour mesurer les réactions du public face à des messages, des discours et des campagnes. Les chercheurs peuvent ainsi identifier, à chaque instant – ce qu’aucun outil d’enquête ne permet –, les moments d’un message qui suscitent une valence positive et un engagement, et ceux qui provoquent un désengagement ou un affect négatif.

Recherche en expérience utilisateur et études de réflexion à voix haute

Les protocoles de réflexion à voix haute, dans lesquels les utilisateurs expriment leurs pensées à voix haute tout en interagissant avec un produit, constituent une méthode standard de recherche en expérience utilisateur. L’analyse vocale ajoute une dimension que le contenu verbal seul ne peut saisir : la connotation émotionnelle des propos des participants. Un utilisateur qui dit « ça me va » d’une voix frustrée et très animée communique quelque chose de différent d’un utilisateur qui prononce les mêmes mots d’un ton calme et positif. L’intégration par iMotions de l’analyse vocale à l’oculométrie et à l’analyse des expressions faciales (FEA) permet de corréler l’état émotionnel vocal avec l’endroit exact où l’utilisateur regardait et ce qu’il faisait à ce moment-là.

Recherche en matière de soins de santé et de télésanté

L’analyse vocale est utilisée depuis longtemps dans la recherche clinique, où elle sert à détecter des biomarqueurs vocaux associés à des pathologies telles que la dépression, la maladie de Parkinson et la maladie d’Alzheimer. Dans le cadre des consultations de télésanté, la capacité à surveiller de manière passive les caractéristiques vocales lors des interactions entre le patient et le clinicien offre un potentiel de détection précoce et de suivi. Le dispositif devAIce d’audEERING a été utilisé dans le cadre de la recherche en santé, et la plateforme d’iMotions fournit l’infrastructure de conception d’étude et de gestion des données nécessaire pour soutenir la recherche clinique conforme aux exigences des comités d’éthique.

7. Considérations éthiques et gouvernance des données

Les données relatives aux expressions faciales et les enregistrements vocaux constituent des données biométriques et sont soumis à la réglementation sur la protection des données dans la plupart des juridictions. En Europe, ces deux types de données relèvent du RGPD. Aux États-Unis, les lois étatiques sur la protection de la vie privée en matière de données biométriques (notamment la loi BIPA de l’Illinois) s’appliquent dans de nombreux contextes. L’utilisation à des fins de recherche de la technologie FEA d’iMotions et de l’analyse vocale nécessite le consentement éclairé explicite des participants, couvrant la collecte, le stockage et l’analyse des données vidéo et audio relatives au visage.

Les principales exigences éthiques relatives à la conduite d’études biométriques en face à face sont les suivantes :

Autorisation du comité d'éthique (IRB) pour la recherche universitaire et clinique
Consentement explicite et éclairé des participants concernant les signaux biométriques spécifiques recueillis
Des politiques claires en matière de conservation et de suppression des données, communiquées aux participants
Anonymisation des données lorsque cela est possible et nécessaire
Transparence concernant l'utilisation des outils d'analyse basés sur l'IA et leurs limites

La plateforme RDC d’iMotions répond directement aux préoccupations en matière de souveraineté des données : les données audio et vidéo sont traitées localement sur le matériel du chercheur. De même, le dispositif devAIce d’audEERING traite par défaut les données audio localement dans le cadre de l’intégration iMotions, ce qui signifie qu’aucune donnée biométrique n’est transmise à des serveurs tiers pendant l’analyse. Pour les chercheurs européens, iMotions dispose d’une infrastructure de serveurs en Allemagne, en plus de celle située aux États-Unis.

Il est également important de faire comprendre aux participants et aux parties prenantes que la mesure automatisée des émotions est probabiliste, et non déterministe. Les systèmes d’analyse faciale (FEA) et d’analyse vocale mesurent des signaux observables, tels que les mouvements des muscles faciaux et les caractéristiques acoustiques, et en déduisent des états émotionnels. Ces déductions s’appuient sur des preuves scientifiques solides, mais ne sont pas infaillibles. Elles doivent être interprétées en complément des données issues des auto-évaluations et des résultats d’entretiens qualitatifs, et non en remplacement de ceux-ci.

Conclusion : Au-delà des mots

L’avenir de la recherche qualitative ne se limite pas à la seule approche qualitative. À mesure que les outils biométriques basés sur l’IA deviennent plus accessibles et peuvent être déployés à grande échelle en ligne, les études par entretiens les plus rigoureuses associeront systématiquement la profondeur d’une conversation humaine à l’objectivité d’une mesure continue des émotions.

La combinaison iMotions + audEERING représente ce qui se fait de mieux actuellement dans ce domaine pour les entretiens en ligne. La plateforme de collecte de données à distance d’iMotions fournit l’infrastructure nécessaire à la conception de l’étude, à la collecte des données, à la synchronisation et à l’analyse. La technologie devAIce d’audEERING apporte la couche d’intelligence émotionnelle basée sur la voix. Ensemble, elles offrent aux chercheurs ce qui n’était auparavant disponible que dans des laboratoires entièrement équipés : une image en temps réel, à la milliseconde près, de ce que ressentent les participants, et pas seulement de ce qu’ils disent.

Les outils existent. La validation est là. Il ne reste plus qu’à opérer un changement méthodologique et à accepter de considérer l’engagement émotionnel et la valence comme des variables de recherche mesurables, plutôt que comme des jugements subjectifs des modérateurs. Pour les chercheurs prêts à franchir ce pas, les entretiens en ligne ne seront plus jamais tout à fait les mêmes.

Points clés à retenir

La valence émotionnelle (ton positif/négatif) et l'engagement (intensité de l'implication) peuvent être mesurés en temps réel à partir des expressions faciales et de la voix lors d'entretiens en ligne.
La plateforme de collecte de données à distance d'iMotions enregistre ces deux types de signaux en utilisant uniquement la webcam et le microphone du participant — aucun matériel spécifique ni laboratoire n'est nécessaire.
L'analyse des expressions faciales s'appuie sur le moteur AFFDEX d'Affectiva, qui repose sur le cadre FACS, et fournit des résultats sur la valence, l'engagement, les 7 émotions fondamentales et jusqu'à 20 unités d'action par image.
L'analyse vocale s'appuie sur la technologie devAIce d'audEERING, qui fournit des mesures de valence, d'excitation et de dominance sur des échelles continues, ainsi qu'une classification catégorielle des émotions.
Dans iMotions, ces deux signaux sont synchronisés à la milliseconde près, ce qui permet une analyse intermodale et la synchronisation temporelle des réactions émotionnelles à des stimuli, des questions ou des moments spécifiques.
Les données biométriques doivent toujours être recoupées avec les données issues d'enquêtes par auto-évaluation : aucun de ces deux types de données n'est, à lui seul, déterminant.
Les données faciales et vocales constituent des données biométriques ; elles nécessitent un consentement éclairé, l'autorisation d'un comité d'éthique et la conformité au RGPD.
La normalisation de la conception de l'étude — stimuli et séquences de questions cohérents — est essentielle pour obtenir des données d'entretien biométrique interprétables et comparables.