Listen to this article

Découvrez comment l’analyse vocale permet de mettre en évidence les états émotionnels, les processus cognitifs et l’état de santé en mesurant des caractéristiques vocales telles que la hauteur, le volume, le débit et l’intonation, qui découlent des vibrations et des résonances des cordes vocales et sont mises en correspondance avec la prosodie, les dimensions émotionnelles et les catégories d’émotions. Ces données facilitent la recherche dans le cadre d’études cliniques, comportementales, marketing et multimodales, souvent associées à des signaux physiologiques comme l’activité de la peau (EDA), afin d’approfondir la compréhension du comportement humain.

Au cours du siècle dernier, les chercheurs ont découvert que le timbre de notre voix peut en dire long sur nous-mêmes, notamment sur nos états émotionnels et sur les maladies dont nous pourrions souffrir. L’analyse vocale est particulièrement efficace en raison de sa polyvalence, de son caractère non invasif et de sa grande accessibilité. iMotions a récemment conclu un nouveau partenariat avec audEERING, une entreprise de premier plan dans le développement de logiciels d’analyse vocale destinés à la recherche.

Depuis le début de l’année, nos équipes ont travaillé sans relâche pour mettre au point un nouveau module, appelé « Module d’analyse vocale », qui permet désormais à tous les utilisateurs d’iMotions d’intégrer l’analyse vocale dans leurs projets de recherche multimodale. Cet article de blog est la première d’une série d’initiatives visant à mieux faire connaître l’utilisation de l’analyse vocale dans la recherche.

Dans cet article de blog un peu plus long que d’habitude, nous nous penchons sur la biologie de la voix et sur la manière dont nous pouvons utiliser des outils de recherche pour en tirer des enseignements importants pour l’analyse du comportement et de la psychologie. Nous abordons également la manière dont les travaux de recherche publiés ont eu recours à l’analyse vocale, ainsi que les éléments à prendre en compte lorsque l’on mène des recherches dans ce domaine.

La biologie de notre voix et ce qu’elle peut nous apprendre

Notre voix est constituée d’un ensemble d’ondes sonores composées de nombreuses fréquences différentes. Ces ondes sonores proviennent de nos cordes vocales, qui produisent des vibrations grâce à deux muscles appelés plis vocaux. Lorsque vous parlez, les plis se rapprochent tandis que l’air provenant de vos poumons passe entre eux. L’air qui souffle à travers les plis les fait vibrer, produisant ainsi un son.

Notre voix est constituée d’un ensemble d’ondes sonores composées de nombreuses fréquences différentes. Ces ondes sonores proviennent de notre appareil vocal et sont produites par notre larynx, où des muscles contrôlent la tension de deux plis vocaux, souvent appelés cordes vocales. Lorsque vous parlez, ces plis se rapprochent tandis que l’air provenant de vos poumons passe entre eux. L’air qui souffle à travers les plis les fait vibrer, produisant ainsi un son.

Il existe deux façons courantes de classer les sons de nos voix :

Harmoniques : les harmoniques sont les sons harmoniques produits par la vibration de la source sonore (nos cordes vocales) et sont déterminées par la forme des cordes vocales.
Les formants : ce sont les fréquences de résonance caractéristiques générées par la taille et la forme du tractus vocal. Ils produisent les sons distinctifs propres aux phonèmes de la parole, tels que /aah/ et /eeh/. Lorsque vous suivez des cours de chant ou de voix, vous entraînez directement votre tractus vocal à produire différents formants qui modifieront la source sonore d'origine.

Les harmoniques et les formants sont donc déterminés par notre constitution biologique, mais ils peuvent tous deux être modifiés par l’entraînement.

C’est à partir de propriétés telles que les harmoniques et les formants que nous déduisons les caractéristiques sonores réelles que nous analysons et interprétons dans le cadre de l’analyse vocale.

Ces caractéristiques sonores peuvent être classées en trois niveaux d’analyse. Voyons en quoi elles consistent et comment elles sont mesurées à l’aide du modèle d’analyse vocale d’audEERING dans iMotions.

Niveau 1 : Prosodie – les paramètres les plus élémentaires à déduire de l’analyse vocale

L’analyse prosodique est l’approche classique de l’analyse de la voix. Elle est généralement utilisée dans le cadre de la recherche clinique et linguistique. L’analyse prosodique comprend plusieurs paramètres. Nous nous concentrerons ici sur les quatre paramètres prosodiques auxquels vous pouvez accéder dans iMotions.

Légende de la figure : exemple de visualisation des données d’analyse vocale à l’aide de la fonctionnalité d’analyse vocale d’iMotions

Hauteur tonale : La hauteur tonale désigne la fréquence perçue d'un son, c'est-à-dire à quel point un son est perçu comme aigu ou grave. Elle est étroitement liée à la fréquence fondamentale d'une onde sonore, qui correspond à la fréquence physique réelle à laquelle l'onde sonore vibre. Les fréquences plus élevées donnent lieu à une hauteur tonale perçue plus aiguë, tandis que les fréquences plus basses sont perçues comme une hauteur tonale plus grave.

La fréquence fondamentale est désignée par « F0 » et se mesure en hertz (Hz). Elle correspond au nombre de vibrations des cordes vocales ou de cycles de la fréquence fondamentale qui se produisent en une seconde. Dans iMotions, vous avez accès à 4 indicateurs statistiques de F0, calculés sur un segment de parole : la F0 minimale, la F0 moyenne, la F0 maximale et la variation de F0. L'indicateur le plus pertinent dépend de votre question de recherche.

La F0 moyenne, par exemple, peut servir à distinguer les voix masculines des voix féminines (respectivement 85-155 Hz et 165-255 Hz). Une F0 maximale élevée associée à une F0 moyenne normale pourrait indiquer des exclamations vocales spontanées à haute fréquence, telles que des expressions de surprise ou de dégoût.

Intensité sonore : L'intensité sonore est une mesure du volume perçu par l'oreille humaine. Elle est liée à l'amplitude de l'onde sonore, mais tient compte des propriétés physiologiques de notre audition, que les experts appellent « psychoacoustique ». Une onde sonore dont l'amplitude est doublée n'est pas perçue par nous comme deux fois plus forte ; elle est plutôt perçue comme étant environ 1,4 fois plus forte. La relation entre l'amplitude d'une onde sonore et l'intensité perçue n'est pas linéaire, mais logarithmique. De plus, notre oreille est plus sensible aux fréquences de la gamme moyenne (1-3 kHz), que nous percevons comme plus fortes que les fréquences basses ou hautes de même amplitude.

La mesure de l’intensité sonore dans iMotions tient compte de ces caractéristiques de notre audition. Cette mesure s’inspire du modèle scientifique d’intensité sonore de Zwicker, qui exprime l’intensité sonore en une unité appelée « sone ».

Dans iMotions, le modèle est simplifié afin de pouvoir fonctionner avec toutes sortes de sources sonores et de microphones ; il n’est donc pas calibré par rapport à des unités physiques d’énergie acoustique. La mesure de l’intensité sonore est une valeur comprise entre 0,0 (silence) et 1,0 (intensité maximale possible), sans unité de mesure physique.

Tout comme pour F0, l’intensité sonore d’un segment de parole peut être mesurée en termes de valeur minimale, moyenne, maximale ou de variation. L’intensité sonore est fréquemment mentionnée dans les études cliniques afin de distinguer les différentes populations de patients.

En raison du lien entre l’intensité sonore et l’amplitude du signal, la mesure de l’intensité sonore est influencée par le niveau d’enregistrement du microphone (gain) et par la distance entre le microphone et la source sonore (par exemple, la personne qui parle). Si ces conditions varient au cours de votre enregistrement, vous ne devriez pas comparer les valeurs de volume sonore entre ces conditions variables, mais plutôt dans des conditions constantes, telles que le même microphone (idéalement un micro-casque ou un micro-cravate à une distance fixe de la bouche) et les mêmes niveaux d’enregistrement (désactivez les fonctions de contrôle automatique du niveau d’enregistrement ou de contrôle automatique du gain (AGC) !).

Rythme d'élocution : le rythme d'élocution désigne la vitesse à laquelle vous parlez ; il est mesuré en nombre de syllabes par seconde et par la variation de ce rythme au sein d'un segment de discours. Une faible variation du rythme d'élocution indique que la voix a un débit régulier, tandis qu'une variation élevée indique un débit variable, par exemple un ralentissement sur les parties importantes du discours et une accélération sur les parties moins importantes. Une variation élevée peut également indiquer la présence de pauses remplies et d'hésitations (comme « euh »), dues à la réflexion à voix haute ou à une charge cognitive plus importante. Des valeurs de débit de parole moyen comprises entre 3 et 5 sont normales ; en dessous de 3, le débit est lent, et au-dessus de 5, il est rapide. S'il y a davantage de pauses dans un segment de discours, la valeur moyenne mesurée peut être inférieure au débit de parole réel perçu.

Intonation : L'intonation mesure les variations de hauteur de la voix (c'est-à-dire l'amplitude des variations de hauteur tonale au sein d'un segment de discours). Elle permet d'évaluer dans quelle mesure une personne s'exprime de manière monotone (faible valeur d'intonation) ou vivante (valeur d'intonation élevée). La structure de la phrase n'est pas prise en compte, c'est-à-dire qu'aucune analyse complète des schémas d'intonation n'est effectuée. Les scores d'intonation sont dérivés de l'écart-type de la hauteur tonale et se situent généralement entre 0,4 et 1,6.
Les valeurs inférieures à 0,4 indiquent un discours
monotone. Les valeurs supérieures à 1,6 indiquent un discours
animé. Les valeurs de 1,0 indiquent une intonation normale, moyenne.

Niveau 2 : Dimensions émotionnelles – saisir les expressions émotionnelles dans la voix

L’analyse des dimensions émotionnelles s’avère particulièrement utile dans la recherche en sciences sociales et comportementales qui s’intéresse aux traits de personnalité et aux performances. Il existe trois dimensions émotionnelles, qui sont généralement représentées dans un espace tridimensionnel avec des axes bipolaires (voir la figure à la page X) (référence de la figure). Toutes ces mesures des dimensions émotionnelles sont exprimées sous la forme d’une valeur comprise entre -1 et +1.

Légende de la figure : exemple de visualisation des données d’analyse vocale à l’aide de la fonctionnalité d’analyse vocale d’iMotions

Excitation : l'excitation indique le niveau d'excitation du son d'une voix et est mesurée sur une échelle allant de haut en bas. L'excitation peut être utilisée pour déterminer si un événement a eu un effet apaisant/calmant ou excitant/agitant sur une personne.

En général, des scores d'excitation faibles (proches de -1) peuvent être interprétés comme indiquant de la tristesse, de la détente, de la fatigue, de la dépression ou de la satisfaction. À l'inverse, des scores d'excitation élevés (proches de +1) indiquent généralement de la joie, de la peur, de l'indignation ou de l'excitation.
Dominance : la dominance indique le niveau de dominance du son d'une voix et s'évalue sur une échelle allant de faible à élevé. Elle permet de déterminer dans quelle mesure un locuteur se sent soumis ou dominateur.

En général, une faible dominance traduit un état de peur, tandis qu'une dominance élevée traduit un état de fierté.
Valence : la valence désigne la connotation émotionnelle d'une voix et s'évalue sur un spectre allant du positif au négatif. Elle permet de déterminer si un événement a eu un effet désagréable/négatif ou agréable/positif sur une personne.

En général, une valence négative traduit un état de colère, de tristesse, de peur, de chagrin ou d'ennui. À l'inverse, une valence positive traduit un état de détente, de satisfaction, de bonheur et d'enthousiasme.

Niveau 3 : Détection des émotions

Le niveau de données le plus élevé qui détermine les états émotionnels à partir de la prosodie et des dimensions émotionnelles.

Cet indicateur est particulièrement utile pour les études qui évaluent les performances des individus et leurs réactions émotionnelles face à des événements.

Dans le domaine de l’analyse vocale, il existe quatre catégories d’émotions dérivées de la voix, auxquelles vous pouvez toutes accéder dans iMotions grâce au logiciel d’analyse vocale d’AudEERING. Il s’agit des émotions suivantes : joie, neutralité, tristesse et colère. Leurs scores vont de 0 à 1, et chaque segment vocal correspond à un score émotionnel de 1. L’émotion ayant le score le plus élevé (c’est-à-dire la plus proche de 1) représentera l’émotion dominante au cours de ce segment vocal.

Légende de la figure : exemple de visualisation des données d’analyse vocale à l’aide de la fonctionnalité d’analyse vocale d’iMotions

Les dimensions et les catégories émotionnelles sont souvent représentées dans un espace tridimensionnel à axes bipolaires, ce qui permet de visualiser la corrélation entre les scores des dimensions émotionnelles et les scores émotionnels (voir figure).

Comment les chercheurs utilisent-ils l’analyse vocale ?

L’analyse vocale est utilisée dans toutes les applications, mais son intérêt est particulièrement mis en évidence dans le cadre de la recherche clinique. Par exemple, elle permet d’identifier des biomarqueurs de la maladie de Parkinson, de la dépression et des polypes malins de la gorge. L’analyse vocale est de plus en plus utilisée dans les sciences sociales et comportementales, où elle permet de détecter des changements dans les états émotionnels. Chez iMotions, nous sommes ravis de voir l’analyse vocale s’étendre à des domaines de recherche émergents tels que l’automobile, les facteurs humains et les sciences de la performance. Dans ce qui suit, nous présentons d’abord des exemples d’application de l’analyse vocale dans trois domaines de recherche différents, puis nous expliquons comment l’analyse vocale est utilisée dans différents types de protocoles de recherche.

Il existe trois grands domaines de recherche qui font appel à l’analyse vocale :

Recherche clinique : depuis des décennies, la recherche clinique utilise l'analyse vocale pour distinguer différentes populations cliniques. Par exemple, des études ont identifié des biomarqueurs vocaux pour la dysarthrie, la dépression, la maladie d'Alzheimer et la maladie de Parkinson (Narendra et Alkul, 2018 ; Bocklet et al., 2013 ; Taguchi et al., 2018 ; Han et al., 2018 ; Meilan et al., 2013). En recherche clinique, l'analyse vocale est également utilisée pour évaluer l'efficacité des traitements. Par exemple, une étude a évalué l'efficacité d'un traitement contre l'anxiété sociale à l'aide de l'analyse vocale (Laukka et al., 2008).

En recherche clinique, l'analyse vocale est généralement publiée dans le cadre d'études de recherche en laboratoire hautement contrôlées, où le participant effectue une tâche d'expression orale face à un ordinateur ou dans le cadre d'un entretien clinique.

Recherche en sciences sociales et comportementales : l'analyse vocale est très répandue dans le domaine des sciences sociales et comportementales afin de mieux comprendre comment notre voix reflète notre personnalité, influence notre entourage ou comment différents facteurs affectent la façon dont nous percevons les voix des autres. Par exemple, des études célèbres ont évalué comment les cycles menstruels modifient les préférences des femmes en matière de caractéristiques vocales masculines (Puts, 2005), tandis que d’autres études ont examiné comment le fait de modifier le son de sa voix affecte la perception que l’on a de soi-même (Stel et al., 2011). L’analyse vocale a également été utilisée pour prédire les résultats d’élections (Banai et al., 2017).

Tout comme la recherche clinique, les sciences sociales et comportementales mènent souvent leurs recherches sur l'analyse vocale dans des environnements de laboratoire contrôlés. Cependant, il est plus courant dans ce domaine de recherche d'utiliser des fichiers vidéo ou audio préenregistrés pour analyser des voix « du monde réel ».

Études de marché et analyses commerciales : Les études de marché et les analyses commerciales ont recours à l'analyse vocale pour optimiser divers aspects de leurs activités clés, notamment leurs stratégies de communication et de vente. Les chercheurs dans ce domaine ne publient généralement pas leurs résultats, mais il est bien connu que l'analyse vocale est utilisée à des fins commerciales dans les centres d'appels et la conception d'expérience utilisateur (UX).

L'analyse vocale est particulièrement efficace en raison de sa polyvalence en matière de collecte de données. Il est donc courant de voir cette méthode utilisée dans des types de protocoles de recherche très variés. Voici quelques-uns des protocoles les plus courants qui recourent à l'analyse vocale :
- Tests à voix haute : les tests à voix haute désignent un protocole d'étude dans lequel les participants sont invités à exprimer à haute voix leurs pensées pendant qu'ils effectuent une tâche. Cette stratégie est souvent utilisée dans la recherche sur l'expérience utilisateur ; voir par exemple ces études : https://dl.acm.org/doi/abs/10.1145/3325281 + https://www.mingmingfan.com/papers/CHI21_OlderAdults_ThinkAloud_UXProblems.pdf
- Interactions dyadiques : le terme « dyade » désigne deux personnes qui communiquent. La recherche sur les dyades se distingue des entretiens menés par un enquêteur avec une personne interrogée (voir ci-dessous), car ces interactions prennent généralement la forme de conversations naturelles entre deux collègues, amis ou participants à un panel. Par exemple, l'analyse vocale peut être utilisée pour évaluer l'état émotionnel des dyades lors d'une tâche en équipe (https://dl.acm.org/doi/abs/10.1145/3136755.3136804), ou pour étudier le ton (et ses variations) de la voix entre des personnes de statut social faible et élevé (https://psycnet.apa.org/doiLanding?doi=10.1037%2F0022-3514.70.6.1231).
- Présentations : Il est de plus en plus demandé de présenter avec une voix captivante, et l'analyse vocale a déjà permis de distinguer les orateurs très captivants de ceux qui le sont moins. Voir par exemple cette étude comparant les caractéristiques vocales de Steve Jobs lors de ses présentations à celles d'un orateur moyen :
  https://www.sciencedirect.com/science/article/abs/pii/S0747563216304873 . Dans cette optique, il est logique que l'analyse vocale soit appliquée à l'optimisation des performances et au coaching en prise de parole en public.
- Entretiens : les entretiens constituent des activités courantes sur les lieux de travail et dans les établissements de santé. Les entretiens cliniques ont fait l'objet de nombreuses études en matière d'analyse vocale, notamment dans le domaine de la dépression (https://dl.acm.org/doi/abs/10.1145/2663204.2663238), les maladies coronariennes (https://journals.lww.com/psychosomaticmedicine/Citation/1977/07000/Assessment_of_Behavioral_Risk_for_Coronary_Disease.3.aspx.)
- Automobile : Bien qu'il s'agisse encore d'un domaine émergent, l'analyse vocale est très prometteuse pour la recherche automobile. Ce potentiel s'explique notamment par le fait que l'analyse vocale constitue un capteur non invasif pouvant être utilisé à l'intérieur du véhicule sans que la personne n'ait à porter de matériel supplémentaire (même s'il peut être judicieux d'utiliser un microphone pour obtenir une qualité optimale, en fonction du bruit ambiant). L'analyse vocale a été utilisée pour détecter la fatigue et la consommation de substances, et pourrait changer la donne pour les constructeurs automobiles qui s'efforcent d'identifier automatiquement l'état cognitif d'un conducteur. Nous avons mené des études en interne pour démontrer la faisabilité de cette approche.

Éléments à prendre en compte lors d’une étude d’analyse vocale

Comme pour tout autre type de recherche, il y a plusieurs éléments à prendre en compte lors de la conception de vos expériences et de la collecte de données de la plus haute qualité.

Tout d’abord, assurez-vous d’utiliser un microphone adapté et de réaliser l’enregistrement dans un environnement approprié. En ce qui concerne le microphone, la plupart des ordinateurs fabriqués à partir de 2020 sont équipés de microphones intégrés qui conviennent parfaitement à la collecte d’enregistrements vocaux à des fins d’analyse. Toutefois, selon votre configuration, vous pouvez envisager d’utiliser un microphone externe. Dans ce cas, veillez à choisir un microphone connecté par USB provenant d’une marque réputée. En ce qui concerne l’environnement d’enregistrement, il est toujours conseillé de collecter les données dans un endroit peu bruyant. Cela peut être en laboratoire, dans un bureau ou au domicile du participant (mais n’oubliez pas de lui demander d’éteindre la télévision et de garder le chien dans le jardin !).

Il est recommandé, pour chaque stimulus, de recueillir au moins 60 secondes de données vocales auprès de chaque participant. Si vous prévoyez de regrouper vos données entre les différents groupes, prévoyez un échantillon de 20 à 40 personnes (par groupe). Bien entendu, cette recommandation dépendra de l’objectif de l’étude et des stimuli présentés.

Comment savoir si l’analyse vocale vous convient

À ce stade, vous savez comment mesurer et exploiter les caractéristiques vocales pour mieux comprendre le comportement, la cognition et les performances humaines, et vous savez comment d’autres chercheurs tirent parti de cette technologie. Vous vous demandez peut-être si vos propres recherches pourraient bénéficier de l’analyse vocale. Voici quelques questions que vous pouvez vous poser pour y voir plus clair :

Vos expériences impliquent-elles que les participants s'expriment de manière spontanée (par exemple, lors de conversations ou en réaction à une expérience) ou dans le cadre du protocole de l'étude (par exemple, lors d'un entretien ou d'un test de réflexion à voix haute) ?
Cela vous intéresse-t-il de comprendre les états émotionnels des gens ?
Souhaitez-vous identifier de nouveaux biomarqueurs ou créer des modèles prédictifs pour différents diagnostics ?

Si vous répondez « oui » à l’une de ces questions, l’analyse vocale pourrait bien vous convenir !

Mais pas si vite : si l’analyse vocale constitue un ajout prometteur à vos recherches, elle n’est qu’une technologie parmi d’autres permettant d’étudier les comportements, les pensées et les émotions des individus. L’analyse vocale permet de saisir des aspects uniques du comportement humain que d’autres capteurs ne peuvent pas détecter, mais elle est bien plus efficace lorsqu’elle est associée à d’autres capteurs, tels que l’analyse des expressions faciales, l’oculométrie et l’activité électrodermique.