Listen to this article

L’analyse vocale consiste à étudier les caractéristiques et les schémas vocaux dans la communication orale. Elle consiste à examiner des éléments tels que la hauteur, le timbre, le débit de parole et les indices émotionnels afin de mieux comprendre des aspects tels que la linguistique, les émotions et les traits de personnalité. Cette technologie trouve des applications dans des domaines tels que la linguistique, la psychologie et la santé.

Imaginez que vous vous trouviez dans un pays où vous n’êtes jamais allé. Vous ne parlez pas la langue, et vous ne la comprenez certainement pas. Vous abordez quelqu’un, ou peut-être est-ce cette personne qui vient vers vous, et avant même de vous en rendre compte, elle se lance dans une tirade que vous n’avez aucune chance de comprendre. Sauf que vous comprenez tout de même quelques éléments fondamentaux. Le contexte vous aide bien sûr à situer ce qui est dit, mais il y a autre chose qui en dit long sur ce qui se passe : la façon dont la personne s’exprime.

Ce que nous faisons à ce moment-là, c’est analyser la voix : nous percevons les variations de ton, de prosodie, de hauteur (et bien plus encore), et nous en déduisons si la personne est heureuse ou triste, en colère ou attentive. Ces informations nous en disent long sur l’état d’esprit de la personne. En général, nous n’avons pas besoin qu’on nous explique explicitement les émotions de notre interlocuteur : nous analysons automatiquement sa voix et trouvons la réponse.

Ce phénomène – que l’on peut aujourd’hui qualifier d’analyse vocale – est bien sûr connu depuis que l’humanité parle, et les premières tentatives de mesure de la production vocale remontent au moins à la fin du XXe siècle [1].

Cette discipline s’est ensuite formalisée dans les années 1960 grâce à des analyses scientifiques rigoureuses [2], mais ce n’est qu’avec l’avènement de l’informatique moderne que l’analyse vocale a véritablement pris forme en tant que domaine scientifique. Nous sommes aujourd’hui à l’aube d’une nouvelle ère dans la science de l’analyse vocale, marquée par l’émergence des méthodes d’intelligence artificielle.

Mais qu’est-ce que l’analyse vocale, et comment peut-elle être utilisée pour mieux comprendre les émotions et les comportements humains ? Et en quoi l’IA y contribue-t-elle ? Nous allons passer en revue ci-dessous quelques-unes des principales façons dont l’analyse vocale aide déjà les chercheurs à faire progresser la recherche en santé, l’interaction homme-machine, l’expérience utilisateur (UX) et la compréhension de décisions telles que l’intention d’achat.

Qu’est-ce que l’analyse vocale ?

L’analyse vocale est le processus qui consiste à mesurer les sons vocaux et à les associer à des paramètres définis, tels que l’émotion, l’âge, le sexe ou la présence ou l’absence de parole. Il est important de noter que l’analyse vocale ne fournit aucune information directe sur les mots utilisés, mais plutôt sur la manière dont ils ont été produits.

Cette méthode consiste à segmenter le son produit et à en extraire plusieurs caractéristiques qui peuvent ensuite être évaluées soit individuellement, soit conjointement. Les différents algorithmes fonctionnent de manière variée, mais on recueille et analyse généralement des caractéristiques telles que la prosodie, le débit et l’intonation. Celles-ci sont ensuite utilisées pour établir une prédiction concernant des caractéristiques de la parole de plus haut niveau, par exemple pour déterminer si la personne est heureuse ou en colère.

Les mesures portant à la fois sur les mécanismes fondamentaux de la parole et sur les aspects émotionnels plus généraux sont utilisées pour fournir des informations sur le comportement humain. L’un des domaines qui s’avère particulièrement prometteur dans le cadre de cette approche est celui des soins de santé.

L’analyse vocale dans le secteur de la santé

L’analyse de la voix dans le domaine de la santé présente un double avantage. D’une part, elle permet de recueillir très facilement des données, qui peuvent être enregistrées (avec le consentement du patient) dès le tout premier contact. D’autre part, elle s’avère très prometteuse pour le dépistage précoce d’un large éventail de troubles neurologiques, psychiatriques et vocaux.

L’une des premières études portant sur la relation entre la voix et la physiologie a été menée par Meyer Friedman, qui a popularisé la théorie des personnalités de type A et de type B [3]. Cette théorie classe globalement les individus en deux catégories, le type A et le type B, les personnes de type A étant considérées comme plus « compétitives, très organisées, ambitieuses et impatientes », tandis que celles de type B sont perçues comme plus « détendues, réceptives et moins névrosées ».

Le groupe de recherche a découvert, grâce à un test d’analyse vocale, qu’il était possible de distinguer les participants de type A et les patients atteints de maladies cardiaques des participants de type B. Ce résultat a été interprété comme indiquant que les types de personnalité pouvaient être différenciés sur la seule base de la voix.

Consultation, assurance-vie et médecin avec une femme noire dans son cabinet pour un examen médical, une liste de contrôle et les résultats. Entretien, soins de santé et médecine avec un patient et un spécialiste à l’hôpital pour un examen, de l’aide ou des conseils.

Si la théorie des personnalités de type A et de type B a par la suite fait l’objet de critiques justifiées, ce qui a conduit à son discrédit (voir par exemple [4 et 5]), l’approche consistant à associer la voix à des biomarqueurs de maladies avait déjà vu le jour. Par exemple, des recherches récentes ont montré comment des éléments biomécaniques peuvent être extraits à partir d’une simple application et utilisés pour détecter la maladie de Parkinson [6].

Des recherches ont également utilisé des scanners cérébraux de patients atteints de la maladie de Parkinson pour mettre en évidence un lien entre les lésions cérébrales dans les zones associées au traitement des émotions et le discours émotionnel, établissant ainsi un lien direct entre le cerveau et la voix dans le cadre de cette affection neurologique [7].

Des recherches ont ensuite été menées pour démontrer la capacité prédictive de la voix à détecter la maladie de Parkinson, la maladie d’Alzheimer, la dépression, la sclérose latérale amyotrophique (SLA), le trouble bipolaire et même le Covid long [8, 9]. Les méthodes utilisées pour la conception des études, l’enregistrement, l’extraction de caractéristiques et l’analyse varient considérablement d’une étude à l’autre, mais elles convergent toutes vers un même objectif : une identification précoce et fiable des facteurs ayant un impact sur la santé.

Plusieurs études et entreprises ont mis en avant le potentiel prometteur de l’analyse automatisée de la voix (AVCA) pour de futures applications dans le domaine de la santé. À terme, l’analyse de la voix s’annonce très prometteuse en tant que méthode peu coûteuse et quasi passive de dépistage précoce et de diagnostic pour un large éventail de maladies et de troubles.

L’analyse vocale dans l’interaction homme-machine

L’analyse vocale offre également une autre voie pour améliorer les soins de santé, au-delà du diagnostic précoce, en facilitant l’accès aux outils de soins et en permettant de mieux comprendre les émotions des utilisateurs. La télésanté, et en particulier la télésanté mentale, en est un exemple.

Des recherches ont mis en évidence l’intérêt d’intégrer des mesures d’analyse vocale dans les thérapies par vidéo ou par appel téléphonique, afin de fournir aux praticiens des données susceptibles de guider leur évaluation du patient. Une étude récente a montré comment identifier le risque de suicide, ce qui pourrait fournir au thérapeute des informations susceptibles de sauver des vies lors de l’appel [10].

D’autres études ont mis en évidence la manière dont les interactions entre le médecin et le patient peuvent être évaluées plus facilement et de manière plus objective grâce à des méthodes d’analyse vocale [11]. Cela peut fournir des données permettant de proposer des améliorations fondées sur des preuves pour les futurs appels.

Cette technique peut également être appliquée en temps réel aux chatbots thérapeutiques. Plusieurs articles ont abordé la manière dont ces chatbots, de plus en plus répandus, peuvent intégrer des méthodes d’analyse vocale afin de fournir des réponses mieux adaptées aux besoins du patient, grâce à une évaluation qui va au-delà des simples propos de ce dernier [12, 13, 14].

Cette interactivité fondée sur l’intelligence émotionnelle, rendue possible par l’intégration de l’analyse vocale, ne se limite bien sûr pas aux seuls contextes thérapeutiques. Au contraire, toute interaction systématique impliquant un interlocuteur humain peut probablement tirer profit de données susceptibles d’améliorer la conscience émotionnelle de la personne – ou de l’IA – qui répond.

Webinaire gratuit le 13 novembre 2024 à 16 h 00 (UTC+1)

audEERING x iMotions : « Décrypter le code vocal »

Rejoignez-nous pour un webinaire consacré à la manière dont l’analyse vocale permet de révéler des informations cachées sur nos motivations et nos comportements. Depuis la Seconde Guerre mondiale, l’analyse vocale aide les entreprises à mieux cerner l’humeur, le stress et l’état de santé. audEERING, leader dans le domaine des logiciels d’analyse vocale, présentera son algorithme et son outil à distance permettant d’extraire des informations précieuses à partir de données vocales. Le directeur technique et cofondateur d’audEERING abordera le rôle de la voix dans la recherche, expliquera comment leur algorithme a été développé et partagera des exemples d’utilisation réussis. Ne manquez pas cette session stimulante sur le potentiel inexploité de notre voix.

Inscrivez-vous au webinaire

L’analyse vocale dans l’expérience utilisateur

Une approche similaire à celle utilisée en IHM peut être – et est effectivement – appliquée à la conception UX. C’est notamment le cas des protocoles de réflexion à voix haute, dans lesquels un utilisateur test exprime ses pensées à voix haute tout en utilisant ou en parcourant un produit nouvellement conçu. Le produit, qui peut aller d’un site web à un objet physique en passant par un emballage, est testé par une personne qui ne l’a jamais vu auparavant. L’utilisateur se contente d’exprimer ce qui lui vient à l’esprit au cours du processus.

Les biocapteurs sont déjà largement utilisés pour permettre aux concepteurs d’expérience utilisateur de comprendre les pensées des utilisateurs au-delà de ce qu’ils expriment simplement à voix haute. L’oculométrie et l’analyse des expressions faciales peuvent fournir des données qui permettent de mieux cerner ce sur quoi les gens se concentrent réellement, et comment leurs expressions émotionnelles y sont liées.

L’analyse vocale constitue la prochaine étape logique de cette évolution scientifique, permettant aux concepteurs d’étudier la composante biologique fondamentale des protocoles de réflexion à voix haute. Cependant, comme l’ont fait remarquer des chercheurs de l’Université de Toronto et du Rochester Institute of Technology, « l’analyse des séances de réflexion à voix haute est souvent longue et exigeante en main-d’œuvre » [15].

Les chercheurs ont ensuite mis au point leur propre méthode interne d’apprentissage automatique pour analyser les commentaires verbaux recueillis lors du protocole de réflexion à voix haute ; il est même possible de gagner du temps en utilisant des modèles déjà disponibles, tels que devAIce d’audEERING.

Des chercheurs associent déjà l’analyse des expressions faciales à l’analyse vocale [16] pour étudier des « situations d’urgence à bord d’un navire de guerre », « une situation de crise liée à une inondation » et « des joueurs plongés dans un jeu en réalité virtuelle », obtenant ainsi des résultats prometteurs pour les recherches futures. D’autres chercheurs ont eu recours à l’analyse vocale, associée à des protocoles de réflexion à voix haute, pour étudier l’apprentissage dans le cadre de l’enseignement en ligne [17] et pour mettre en place des analyses de l’expérience de jeu [18].

L’analyse vocale en neurosciences appliquées à la consommation

L’approche consistant à analyser la voix dans le cadre du développement de l’expérience utilisateur (UX) présente des similitudes avec la manière dont elle est souvent – mais pas exclusivement – appliquée en neurosciences appliquées à la consommation. Un produit ou une plateforme est développé, et un utilisateur interagit avec lui ; cette interaction est ensuite évaluée comme positive, négative ou neutre à des moments précis.

Si l’application de l’analyse vocale dans les domaines des neurosciences appliquées à la consommation ou du neuromarketing fait l’objet de discussions depuis au moins les années 1980 [20] – les chercheurs soulignant qu’elle « permet de distinguer les réponses « sincères » de celles qui ne sont que de « belles paroles » » [21] –, il a également été noté que les recherches de l’époque souffraient « d’instruments de recherche défaillants, ce qui a conduit à une surinterprétation des résultats ». Cela a rendu nécessaire l’amélioration des méthodes d’analyse computationnelles (désormais facilement accessibles) et une réévaluation des protocoles d’étude pour la collecte de données vocales. Cela a conduit aux recoupements que l’on observe aujourd’hui avec le domaine de la recherche en expérience utilisateur (UX).

Même si les participants à une étude de neurosciences appliquées à la consommation n’expriment pas spontanément leurs pensées lorsqu’ils interagissent avec un nouveau produit ou une nouvelle publicité, l’analyse de leurs réponses verbales lors d’exercices de réflexion à voix haute, d’entretiens et de groupes de discussion apporte un éclairage nouveau sur la compréhension de leurs pensées et sentiments intimes.

Il est essentiel de créer un environnement naturel dans lequel les participants peuvent s’exprimer librement pour tirer pleinement parti de l’analyse vocale. C’est ce que démontre, par exemple, une étude portant sur des articles en ligne consacrés à la beauté et à la mode, dans laquelle une technique de « réflexion à voix haute » et des entretiens ont été utilisés pour évaluer les données vocales, parallèlement à l’oculométrie et à l’analyse des expressions faciales [19].

Si l’analyse vocale des consommateurs en réaction à des publicités est possible (en complément d’un entretien ou d’une méthode similaire), l’inverse est également vrai. Une étude menée en 2019 par l’université de Tohoku, au Japon, a révélé que les consommateurs qui écoutaient des publicités pour des produits alimentaires avaient davantage tendance à préférer les aliments sucrés ou acides lorsque la voix était aiguë [22].

Ils ont constaté qu’une hauteur de voix « particulièrement aiguë » était susceptible de favoriser une préférence pour les aliments sucrés. Cela met en évidence une autre voie permettant aux neuromarketeurs de mieux comprendre et d’améliorer l’attrait des produits qu’ils contribuent à commercialiser.

Conclusion

Si l’analyse vocale est une méthodologie relativement bien établie dans le domaine de la recherche diagnostique, elle reste un outil largement méconnu et sous-utilisé dans l’arsenal des mesures du comportement humain. Par le passé, cela s’expliquait par le travail fastidieux nécessaire pour classer et décoder les signaux vocaux, ainsi que par l’absence de méthodes fiables disponibles. Cependant, grâce aux améliorations apportées aux logiciels et aux progrès de l’IA, nous sommes désormais en mesure de percevoir le véritable potentiel de cette méthodologie pour ouvrir et explorer ce signal central du comportement humain.

Références

[1] Muckey, F. S. (1915). La méthode naturelle de production de la voix. The English Journal, 4(10), 625. https://doi.org/10.2307/801210

[2] Friedman, M. (1969). Test d’analyse vocale pour la détection de schémas comportementaux. JAMA, 208(5), 828. https://doi.org/10.1001/jama.1969.03160050082008

[3] Meyer Friedman ; Carl E. Thoresen ; James J. Gill ; Diane Ulmer ; Lynda H. Powell ; Virginia A. Price ; Byron Brown ; Leonti Thompson ; David D. Rabin ; William S. Breall ; Edward Bourg ; Richard Levy ; Theodore Dixon (1er octobre 1986). « Modification du comportement de type A et son effet sur les récidives cardiaques chez les patients ayant subi un infarctus du myocarde : résumé des résultats du projet de prévention des récidives coronariennes ». American Heart Journal. 112 (4) : 653-665. doi : 10.1016/0002-8703(86)90458-8. PMID 3766365.

[4] Petticrew, M. P., Lee, K., & McKee, M. (2012). Le profil comportemental de type A et les maladies coronariennes : le « joyau de la couronne » de Philip Morris. American Journal of Public Health, 102(11), 2018–2025. https://doi.org/10.2105/ajph.2012.300816

[5] Wilmot, M. P., Haslam, N., Tian, J., & Ones, D. S. (2019). Reproductions directes et conceptuelles de l’analyse taxométrique du comportement de type A. Journal of personality and social psychology, 116(3), e12–e26. https://doi.org/10.1037/pspp0000195

[6] Romero Arias, T., Redondo Cortés, I., & Pérez Del Olmo, A. (2023). Paramètres biomécaniques de la voix chez les patients atteints de la maladie de Parkinson. Folia phoniatrica et logopaedica : organe officiel de l’Association internationale de logopédie et de phoniatrie (IALP), 10.1159/000533289. Publication en ligne anticipée. https://doi.org/10.1159/000533289

[7] Anzuino, I., Baglio, F., Pelizzari, L., Cabinio, M., Biassoni, F., Gnerre, M., Blasi, V., Silveri, M. C., & Di Tella, S. (2023). Production d’émotions transmises par la voix dans la maladie de Parkinson : association entre la variabilité de la fréquence fondamentale et les volumes de matière grise des régions impliquées dans la prosodie émotionnelle. Neuropsychology, 10.1037/neu0000912. Publication en ligne anticipée. https://doi.org/10.1037/neu0000912

[8] Hecker, P., Steckhan, N., Eyben, F., Schuller, B. W., & Arnrich, B. (2022). Analyse vocale pour la reconnaissance des troubles neurologiques : revue systématique et perspectives sur les tendances émergentes. Frontiers in Digital Health, 4. https://doi.org/10.3389/fdgth.2022.842301

[9] Lin, C. W., Wang, Y. H., Li, Y. E., Chiang, T. Y., Chiu, L. W., Lin, H. C., & Chang, C. T. (2023). Dysphonie liée à la COVID-19 et séquelles vocales persistantes de la COVID longue : revue systématique et méta-analyse. American journal of otolaryngology, 44(5), 103950. https://doi.org/10.1016/j.amjoto.2023.103950

[10] Iyer, R., Nedeljkovic, M., & Meyer, D. (2022). Utilisation de biomarqueurs vocaux pour évaluer le risque de suicide chez les adultes appelant des services de télésanté : étude observationnelle rétrospective. JMIR mental health, 9(8), e39807. https://doi.org/10.2196/39807

[11] Habib, M., Faris, M., Qaddoura, R., Alomari, M., Alomari, A., & Faris, H. (2021). Vers une évaluation automatique de la qualité des consultations de télémédecine vocales : une approche par apprentissage profond. Sensors (Bâle, Suisse), 21(9), 3279. https://doi.org/10.3390/s21093279

[12] Jadczyk, T., Wojakowski, W., Tendera, M., Henry, T. D., Egnaczyk, G., & Shreenivas, S. (2021). L’intelligence artificielle peut améliorer la prise en charge des patients en période de pandémie : le rôle de la technologie vocale. Journal of medical Internet research, 23(5), e22959. https://doi.org/10.2196/22959

[13] Pereira, J., & Díaz, Ó. (2019). Utilisation des chatbots de santé pour favoriser les changements de comportement : une étude cartographique. Journal of Medical Systems, 43(5). https://doi.org/10.1007/s10916-019-1237-1

[14] Devaram, S. (2020). Chatbot empathique : l’intelligence émotionnelle au service du bien-être psychologique. Prépublication arXiv arXiv:2012.09130.

[15] Fan, M., Li, Y., & Truong, K. N. (2020). Détection automatique des problèmes d’ergonomie rencontrés lors de séances de réflexion à voix haute. ACM Transactions on Interactive Intelligent Systems, 10(2), 1–24. https://doi.org/10.1145/3385732

[16] Truong, K.P., Neerincx, M.A., & Leeuwen, D.A. (2008). Mesure des expressions vocales et faciales spontanées des émotions dans des environnements réels.

[17] Young, K. (2009). Directement à la source : l’intérêt des données issues de la « réflexion à voix haute » pour la compréhension de l’apprentissage. The Journal of Educational Enquiry, 6.

[18] Sykownik, P., Born, F., & Masuch, M. (2019). « Can you hear the player Experience ? » : un pipeline pour l’analyse automatisée des sentiments exprimés dans les commentaires des joueurs. Conférence IEEE sur les jeux vidéo (CoG) 2019. https://doi.org/10.1109/cig.2019.8848096

[19] Miclau, C., Peuker, V., Gailer, C., Panitz, A., & Müller, A. (2023). Renforcer l’interaction avec les clients d’un magazine en ligne consacré à la beauté et à la mode au sein d’une entreprise spécialisée dans les médias et les technologies. HCI in Business, Government and Organizations, 401–420. https://doi.org/10.1007/978-3-031-35969-9_27

[20] Brickman, G. A. (1980). Applications de l’analyse de la hauteur de la voix. Journal of Advertising Research, 20(2), 69-73.

[21] Klebba, J. M. (1985). Mesures physiologiques en recherche : revue des méthodes et études portant sur l’activité cérébrale, la réponse électrodermique, la dilatation pupillaire et l’analyse vocale. Curr. Issues Res. Advert. 8, p. 53-76.

[22] Motoki, K., Saito, T., Nouchi, R., Kawashima, R., & Sugiura, M. (2019). Une voix douce : l’influence des correspondances intermodales entre le goût et la hauteur vocale sur l’efficacité publicitaire. Multisensory Research, 32(4-5), 401-427. https://doi.org/10.1163/22134808-20191365