iMotions s’est lancé dans le domaine de l’analyse de la voix et de la parole, proposant de nouvelles façons de mener des recherches en analyse vocale multimodale grâce à une nouvelle fonctionnalité logicielle et à un tout nouveau module. Cet article explique en détail comment ces deux nouveautés peuvent apporter un éclairage nouveau et approfondi sur la recherche en matière de comportement humain.

Comme le savent déjà les lecteurs de nos blogs et les abonnés à notre newsletter, iMotions s’est lancé dans le domaine de l’analyse vocale. Dernière frontière du spectre émotionnel humain qui n’avait pas encore été explorée par iMotions, la voix humaine occupe désormais une place à part entière dans la recherche sur le comportement humain.

Analyse de la reconnaissance vocale

En juin, chez iMotions, nous avons fait un premier pas vers l’analyse de la parole et de la voix en lançant notre fonctionnalité d’analyse de la parole en texte, développée en collaboration avec AssemblyAI. Cette fonctionnalité a marqué un tournant décisif pour iMotions dans le domaine de l’analyse des émotions, car elle a constitué notre première incursion officielle dans le domaine de l’analyse vocale.

La fonction de reconnaissance vocale est un outil polyvalent qui facilite l’analyse de la parole en automatisant le processus fastidieux et chronophage de la transcription des enregistrements audio et vidéo, tout en attribuant simultanément des étiquettes émotionnelles aux mots contenus dans ces enregistrements.

Le logiciel Audio Intelligence d’AssemblyAI, sur lequel repose la fonctionnalité d’iMotions, est une plateforme de pointe spécialisée dans le traitement et la compréhension des données audio. Grâce à des algorithmes avancés d’apprentissage automatique, il est capable de transcrire les paroles prononcées à partir d’enregistrements audio avec une précision remarquable, ce qui en fait un outil indispensable pour des secteurs tels que les services de transcription, la création de contenu et le service client.

De plus, le logiciel Audio Intelligence d’AssemblyAI va au-delà de la simple transcription en proposant l’identification des locuteurs, l’analyse des sentiments et l’extraction de mots-clés, ce qui permet de tirer des enseignements précieux du contenu oral.

Cet ajout à la bibliothèque de fonctionnalités déjà très complète d’iMotions présente un intérêt considérable pour les chercheurs, les entreprises et les enseignants. L’analyse de la parole en texte permet d’extraire rapidement et avec précision des informations émotionnelles à partir de contenus parlés, tout en fournissant une transcription segmentée très pratique. Grâce à cela, vous pouvez facilement repérer et classer les mots chargés d’émotion dans un entretien, une conférence ou une interaction avec le service client. Cette fonctionnalité permet aux utilisateurs d’identifier les déclencheurs émotionnels, d’évaluer le sentiment et de mettre au jour les dynamiques émotionnelles sous-jacentes au sein des conversations et des contenus, le tout via le logiciel iMotions, très convivial.

Le module d’analyse vocale

Cependant, l’analyse de la reconnaissance vocale n’était qu’une première étape, car nous ne nous sommes pas reposés sur nos lauriers après le succès de cette technologie. Au contraire, nous avons franchi une nouvelle étape, bien plus importante, dans le domaine de l’audition et de la voix en lançant notre nouveau module d’analyse vocale, développé en partenariat avec audEERING.

Ce module tire parti des caractéristiques acoustiques propres à la voix humaine. Il s’appuie sur des algorithmes de pointe d’apprentissage automatique pour analyser des aspects tels que la hauteur tonale et l’accentuation dans la voix d’un locuteur. Ces caractéristiques acoustiques sont directement liées à la valence émotionnelle du discours, c’est-à-dire à la nature positive ou négative sous-jacente d’une émotion.

Conçu à partir d’openSMILE 3.0

Le nouveau module d’analyse vocale intègre la plateforme devAIce d’audEERING, qui repose sur le célèbre logiciel openSMILE 3.0.

Le logiciel openSMILE est une boîte à outils open source de traitement audio et vocal développée à l’Université technique de Munich par une équipe qui travaille aujourd’hui chez audEERING. Il est conçu pour extraire un large éventail de caractéristiques et d’informations audio à partir de signaux sonores. Ces caractéristiques comprennent des descripteurs acoustiques, prosodiques et de haut niveau, ce qui en fait un outil précieux pour des tâches telles que l’analyse de la parole, la reconnaissance des émotions, l’identification des locuteurs, et bien plus encore. openSMILE est largement utilisé dans la recherche universitaire (cité dans des milliers de publications évaluées par des pairs) et dans l’industrie pour traiter les données audio, permettant ainsi le développement d’applications dans des domaines tels que le traitement du langage naturel, l’exploration de données audio et l’interaction homme-machine.

entretien en cours d’analyse à l’aide du module d’analyse vocale d’iMotions.

En intégrant le module d’analyse vocale à l’écosystème iMotions, les utilisateurs acquièrent une capacité sans précédent à évaluer les états émotionnels des locuteurs dans les enregistrements audio. Cette avancée est tout simplement révolutionnaire. Elle apporte une nouvelle dimension à la compréhension des émotions en analysant les nuances mêmes de la prononciation des mots, au-delà du simple contenu textuel.

Le pouvoir de l’intégration : une approche globale

iMotions propose une méthode complète d’analyse des émotions dans le langage parlé en combinant l’analyse de la reconnaissance vocale (Speech-to-Text) avec le module d’analyse vocale. Tout comme les expressions faciales peuvent en dire plus long que les mots, la manière dont nous abordons certains sujets peut varier en fonction du contexte, de notre interlocuteur ou du thème abordé. Ces variations peuvent donner lieu à des interprétations inattendues des données.

Par exemple, les gens peuvent recourir à l’humour pour aborder des sujets graves tels que la mort ou la maladie, ce qui complique la tâche des logiciels chargés de les classer avec précision. Dans de tels cas, il est utile de disposer d’outils permettant de valider les données. En tant que chercheur, vous pouvez utiliser à la fois le module d’analyse vocale pour la détection des émotions en temps réel et la détection de la valence émotionnelle intégrée à notre fonctionnalité de reconnaissance vocale. Cela vous permet à la fois d’entendre et de voir comment les participants répondent aux questions ou abordent des sujets spécifiques.

Les chercheurs et les professionnels disposent désormais d’une boîte à outils polyvalente pour analyser le contenu émotionnel du langage parlé. L’analyse de la reconnaissance vocale permet de mettre en évidence des informations émotionnelles dans les éléments textuels du discours, tandis que le module d’analyse vocale examine la tonalité émotionnelle véhiculée par la voix de l’orateur, notamment le ton et l’accentuation. Cette synthèse offre une compréhension plus approfondie et plus complète de la communication émotionnelle.

Conséquences dans tous les secteurs

Les implications de ces fonctionnalités intégrées sont considérables et touchent divers secteurs

Biomarqueurs : les biomarqueurs, ces indicateurs subtils présents dans l’organisme, font l’objet de recherches de plus en plus poussées, en association avec l’analyse de la voix et de la parole, afin de révolutionner les soins de santé. Cette approche innovante laisse entrevoir la possibilité d’un dépistage plus précoce des maladies et de stratégies thérapeutiques plus personnalisées.

Interaction homme-machine : Alors que le secteur de la santé adopte progressivement le télédiagnostic, qui englobe à la fois les évaluations de santé physique et mentale, le rôle de l’analyse vocale et de l’analyse de la parole devient déterminant dans l’évolution du paysage de l’interaction homme-machine dans ce domaine. L’analyse vocale et l’analyse de la parole offrent un moyen polyvalent et non invasif de collecter à distance des données de santé précieuses, ce qui les rend particulièrement utiles dans le contexte de la télésanté et de la télésanté mentale.

UX : Dans le domaine de l’UX, en particulier dans le cadre des protocoles de réflexion à voix haute, où les utilisateurs expriment leurs pensées à voix haute tout en interagissant avec un nouveau produit, l’analyse de la voix et de la parole fournit des informations précieuses aux concepteurs UX. Les biocapteurs, tels que l’oculométrie et l’analyse des expressions faciales, vont au-delà des commentaires verbaux pour révéler ce sur quoi les utilisateurs se concentrent et comment leurs émotions s’y rapportent. L’analyse de la voix représente la prochaine étape, en explorant l’aspect biologique des protocoles de réflexion à voix haute.

Interface utilisateur du module d’analyse vocale iMotions lors d’une étude d’expérience utilisateur avec commentaire à voix haute.

Santé mentale : les thérapeutes peuvent mieux cerner l’état émotionnel de leurs patients en analysant à la fois les mots prononcés et la manière dont ils sont prononcés.

Éducation : Les enseignants peuvent mieux interagir avec leurs élèves en comprenant la dynamique émotionnelle qui se dégage des cours en ligne, grâce à l’analyse à la fois du texte et de la voix.

Communication : Les universitaires et les chercheurs peuvent approfondir leurs recherches sur la communication humaine en se penchant sur les interactions complexes entre le texte et la voix dans la transmission des émotions.

Marketing et publicité : les professionnels du marketing peuvent affiner leurs campagnes non seulement en analysant les mots à forte charge émotionnelle utilisés dans les publicités, mais aussi en évaluant l’influence du ton de la voix off sur l’impact émotionnel. Ils peuvent également tirer parti de l’analyse vocale et de la reconnaissance vocale pour valider les groupes de discussion ou les entretiens qualitatifs qu’ils mènent dans le cadre de leurs études.

Diagnostic médical : L’analyse vocale peut s’avérer un outil de diagnostic puissant dans le domaine de la santé, en tirant parti de l’intelligence artificielle et de l’apprentissage automatique pour détecter des changements vocaux subtils liés à diverses pathologies. En analysant la hauteur, le timbre, le rythme et les schémas vocaux, les biomarqueurs vocaux peuvent aider à identifier des troubles neurologiques tels que la maladie de Parkinson, des troubles de santé mentale comme la dépression et l’anxiété, voire des maladies respiratoires.

Le dépistage précoce grâce à l’analyse vocale permet d’intervenir à temps, ce qui améliore les résultats pour les patients. Cette technologie non invasive et économique est très prometteuse pour la surveillance à distance, la télémédecine et les plans de traitement personnalisés ; elle rend les soins de santé plus accessibles et plus efficaces tout en réduisant la dépendance vis-à-vis des méthodes de diagnostic traditionnelles.

Conclusion

Notre parcours, de l’analyse de la parole à l’écriture au module d’analyse vocale, marque un tournant décisif dans le domaine de l’analyse des émotions vocales. L’intégration de ces fonctionnalités offre une approche globale pour comprendre l’expression émotionnelle dans la parole et permet aux utilisateurs de divers secteurs d’accéder à de nouvelles perspectives, de prendre des décisions éclairées et de favoriser une communication plus efficace. Ce parcours souligne l’engagement d’iMotions à repousser les limites de la technologie d’analyse des émotions, ainsi que notre ferme volonté de fournir des outils performants à nos utilisateurs.