Découvrez comment les outils d’analyse des expressions faciales d’Affectiva s’appuient sur la plus grande base de données émotionnelle au monde. Découvrez les moteurs de leur technologie innovante et comment celle-ci révolutionne l’intelligence émotionnelle. Explorez les rouages complexes des outils de pointe d’Affectiva et leur impact sur l’amélioration des capacités de reconnaissance émotionnelle.

La base de données sur les émotions d’Affectiva compte désormais près de 6 millions de visages analysés dans 90 pays. Pour être précis, nous avons aujourd’hui recueilli plus de 13 000 000 de vidéos de visages, soit un total de 38 944 heures de données, ce qui représente plus de 7 milliards d’images faciales analysées.

Cet ensemble de données mondial est le plus vaste de son genre : il rend compte des réactions émotionnelles spontanées des consommateurs alors qu’ils se livrent à diverses activités. À ce jour, notre base de données est principalement constituée d’images de spectateurs regardant des contenus médiatiques (publicités, bandes-annonces de films, émissions de télévision et campagnes virales en ligne). Au cours de l’année écoulée, nous avons élargi notre base de données pour y inclure d’autres contextes, tels que des vidéos de personnes au volant de leur voiture, des personnes en pleine conversation et des gifs animés.

Chez Affectiva, la transparence est une priorité pour nous ; c’est pourquoi nous tenons à vous expliquer comment nous collectons ces données et comment nous les utilisons. Concrètement, ces données massives nous permettent de créer des indicateurs émotionnels d’une grande précision et nous fournissent des informations fascinantes sur le comportement émotionnel humain. Voyons cela de plus près.

Alors, comment recueillons-nous ces données sur les émotions ?

D’où proviennent ces données ?

Nous avons désormais recueilli 5 313 751 vidéos de visages, soit un total de 38 944 heures, ce qui représente environ 2 milliards d’images faciales analysées. Les « vidéos de visages » sont des enregistrements vidéo de personnes vaquant à leurs occupations, par exemple en regardant des vidéos en ligne ou en conduisant une voiture. Affectiva recueille ces vidéos de visages grâce à sa collaboration avec des partenaires spécialisés dans les études de marché, tels que Millward Brown, Unruly, Lightspeed, Added Value, Voxpopme et LRW, ainsi qu’avec des partenaires dans les secteurs de l’automobile, de la robotique et des ressources humaines.

Ces données sont recueillies de manière spontanée dans des environnements naturels : par exemple, chez les gens, à leur bureau devant leurs appareils, ou dans leur voiture. En effet, nous avons déjà analysé plus de 4,4 millions d’images contenant des données émotionnelles, capturées auprès de personnes au volant de leur voiture.

L’importance du consentement explicite

Il est important de noter que chaque personne dont le visage a été analysé a été explicitement invitée à donner son accord pour que son visage soit enregistré et ses expressions émotionnelles analysées. Les personnes ont toujours la possibilité de refuser : nous reconnaissons que les émotions relèvent de la vie privée et que tout le monde ne souhaite pas que son visage soit enregistré. De plus, la collecte de données est anonyme ; nous ne savons jamais à qui appartient le visage enregistré.

Données spontanées, recueillies sur le terrain

L’immense base de données émotionnelle d’Affectiva est le fruit de données spontanées recueillies dans le monde réel, ou ce que nous appelons « in the wild ». Ces données sont représentatives de personnes en train de mener une activité, comme regarder du contenu, où qu’elles se trouvent dans le monde – à la table de leur cuisine à Bangkok ou sur leur canapé à Rio de Janeiro. Les vidéos du visage représentent également des expressions faciales réelles et spontanées : des émotions non filtrées et impartiales en réaction au contenu que ces personnes regardent ou à ce qu’elles font. De plus, ces données capturent des conditions difficiles, telles que les variations d’éclairage, les différents mouvements de la tête et les variations des traits du visage dues à l’origine ethnique, à l’âge, au sexe, à la pilosité faciale et au port de lunettes.

Il existe d’autres ensembles de données, souvent élaborés dans un cadre universitaire et presque toujours recueillis en laboratoire, dans des conditions contrôlées en matière de caméras et d’éclairage. Ces ensembles de données capturent également souvent des expressions exagérées : on demande aux personnes de manifester certaines émotions, ce qui donne lieu à ce que l’on appelle des données « mises en scène ».

Souvent, ces ensembles de données universitaires introduisent un biais, car les sujets testés proviennent généralement de la population étudiante et représentent un certain profil démographique (par exemple, des étudiants de l’enseignement supérieur, âgés de 18 à 22 ans, de type caucasien, de sexe masculin, etc.). Lorsque vous effectuez l’entraînement et les tests sur ces ensembles de données artificielles, votre taux de précision peut être élevé, mais les performances dans le monde réel s’avèrent médiocres en raison du biais des données et, par conséquent, du biais du logiciel qui a été créé.

La diversité mondiale de nos données

Comme nous l’avons mentionné, nous avons recueilli ces données dans plus de 75 pays. Elles présentent une grande diversité. C’est important, car les gens ne se ressemblent pas partout dans le monde : il existe des différences d’âge, de sexe et d’origine ethnique, et nos données reflètent bien cette diversité démographique et culturelle.

Comme notre siège social se trouve aux États-Unis, on pourrait facilement penser que la plupart de nos données proviennent d’Amérique du Nord ou d’Europe occidentale. Ce n’est pas le cas. En réalité, voici le top 10 des pays d’où nous recevons le plus de vidéos :

Le fait que nous disposions d’une si large représentation dans les pays asiatiques est essentiel : ces régions géographiques abritent des cultures qui ont tendance à modérer leurs expressions (par exemple, le « sourire de politesse »). Cela contraste avec les pays occidentaux plus individualistes, comme les États-Unis, où les gens amplifient souvent leurs émotions, en particulier en groupe. Nous avons ainsi constaté que la culture a une influence sur l’intensité des émotions exprimées. Grâce à ces données mondiales, nous pouvons entraîner nos algorithmes à cet effet, ce qui nous permet d’identifier avec une grande précision des émotions nuancées et subtiles.

Collage composé de portraits en gros plan de différentes personnes, hommes et femmes, regardant l’objectif sur un fond multicolore baigné de lumières néon. Thème des émotions humaines, de la jeunesse, du mode de vie et des expressions faciales. Publicité

Ce que nous faisons de ces données

Entraîner et tester nos algorithmes.

Notre équipe scientifique a mis en place une infrastructure solide s’appuyant sur des méthodes d’apprentissage automatique et d’apprentissage profond qui nous permettent de former et de tester nos algorithmes à grande échelle. Alors, comment forme-t-on une machine à reconnaître les émotions, à faire la distinction entre un sourire et un rictus ? On alimente son infrastructure d’apprentissage avec de nombreux exemples de sourires et de nombreux exemples de rictus. Le système identifie les caractéristiques clés de chaque émotion et apprend, de sorte que la prochaine fois qu’il voit un rictus, l’algorithme dit : « Ah, j’ai déjà vu ça ! C’est un rictus. »

Nous utilisons notre base de données de vidéos faciales pour entraîner et réentraîner nos algorithmes d’analyse des expressions faciales, également appelés « classificateurs » dans le jargon de l’apprentissage automatique. Il s’agit en réalité d’un concept fascinant : notre technologie fonctionne comme un système de rétroaction positive, devenant chaque jour plus intelligente en analysant davantage ses propres données. Pour y parvenir, nous avons développé la première version d’un système appelé « apprentissage actif », un logiciel qui détermine automatiquement quelles données peuvent aider le système à s’améliorer plus rapidement : c’est de l’apprentissage automatique à grande échelle.

Afin de recenser des milliers de personnes souriant ou esquissant un sourire, nous exploitons notre base de données qui compte près de 6 millions de visages provenant du monde entier. L’objectif de cette exploitation est de mettre au jour davantage d’exemples et une plus grande variété d’expressions à partir desquelles notre système peut apprendre. Ce processus s’appuie sur nos détecteurs d’expressions, en constante amélioration, pour isoler les cas où le système est incertain.

Notre équipe de codeurs FACS vérifie ces expressions et les ajoute à un ensemble croissant de données d’apprentissage. Ce faisant, ils confirment la présence ou non d’une expression. Ces données étiquetées servent de référence pour tester l’algorithme. D’une certaine manière, cela s’apparente à un professeur et un élève travaillant ensemble sur un problème complexe. Le professeur (les codeurs humains) guide activement l’élève (nos algorithmes). C’est ainsi que le système continue de s’améliorer : un processus connu sous le nom d’apprentissage actif.

Cette collecte continue de données augmente considérablement la diversité et le nombre d’expressions dont nos algorithmes peuvent tirer des enseignements. Loin d’avoir été formés dans une salle de classe isolée, nos modèles ont parcouru le monde pour observer des visages. Ils ont été exposés à une grande variété de personnes, de cultures et d’expressions. Au lieu d’un étudiant naïf à la vision du monde limitée, notre technologie de reconnaissance des émotions est désormais un globe-trotter aguerri, fort de nombreuses années d’analyse des expressions faciales à l’échelle mondiale.

Établir des normes et des critères de référence de référence dans le secteur

Notre ensemble de données nous a également permis de constituer ce qui est de loin la plus grande base de données normative au monde sur les expressions faciales, une référence permettant de déterminer les réactions auxquelles on peut s’attendre dans chaque région du monde. Nous analysons nos données pour comprendre la manière dont les émotions s’expriment à travers les cultures et observons des différences fascinantes – par exemple, la façon dont les Américains expriment leurs émotions par rapport aux spectateurs d’Asie du Sud-Est.

Il est également nécessaire d’étudier comment certains facteurs (qu’il s’agisse de données recueillies à domicile ou sur site) et le type de contenu visionné (par exemple, publicités, bandes-annonces de films, émissions de télévision) influencent l’expression des émotions. Nous avons intégré ces normes dans notre outil d’étude de marché, afin que nos clients puissent comparer les performances de leurs publicités en fonction de la zone géographique, de la catégorie de produit et de la durée du spot. Aucun autre fournisseur d’analyse émotionnelle ne propose ce type de normes.

À la recherche d’idées interculturelles

Enfin, l’analyse de ces données émotionnelles nous fournit des informations vraiment fascinantes. Nous disposons d’une mine d’informations précieuses sur les réactions émotionnelles humaines, classées par sexe, âge, culture et zone géographique.

En approfondissant notre analyse des aspects liés au genre et à la culture, nous avons mis en lumière des éléments intéressants qui nous permettent de mieux comprendre ce qui différencie les réactions des femmes et des hommes à travers le monde.

Les femmes sont plus expressives que les hommes. Cela n'a rien de surprenant, mais nos données montrent également que non seulement les femmes sourient davantage, mais que leurs sourires durent aussi plus longtemps.
Dans une étude que nous avons menée auprès de 1 862 participants, nous avons constaté que les femmes souriaient 32 % de plus que les hommes, et que ces derniers fronçaient les sourcils (une expression typique de la colère) 12 % de plus que les femmes.
Aux États-Unis, les femmes sourient 40 % de plus que les hommes, mais curieusement, au Royaume-Uni, nous n'avons constaté aucune différence entre les hommes et les femmes.
Les femmes d'une vingtaine d'années sourient beaucoup plus que les hommes du même âge — c'est peut-être une nécessité pour trouver l'amour ?
Les Espagnols sont plus expressifs que les Égyptiens, mais il semblerait que ces derniers manifestent davantage d'émotions positives.
Les personnes âgées de 50 ans et plus sont 25 % plus émotives que les plus jeunes. Cela m'a personnellement surpris, car je pensais que ce serait l'inverse.
Il s'avère aussi que nous sommes plutôt expressifs lorsque nous sommes seuls devant nos écrans ! Et il ne s'agit pas seulement de regarder des vidéos de chats sur Facebook ! Nous exprimons nos émotions tout le temps, que ce soit en envoyant des e-mails, en faisant des achats en ligne ou même en remplissant notre déclaration d'impôts !
Le caractère social d'un contexte influence également les expressions des personnes. Dans les contextes de groupe formels, tels qu'un laboratoire de recherche ou un groupe de discussion, les personnes issues de cultures asiatiques ont tendance à être moins expressives, tandis que celles issues de cultures occidentales ont tendance à l'être davantage. Ces différences sont beaucoup moins marquées dans les contextes informels, comme à la maison.

Tout le chemin parcouru

Il y a 15 ans, Affectiva disposait d’environ 25 000 vidéos de visages. Il y a trois ans, ce chiffre a été multiplié par dix pour atteindre 250 000. Puis, en 2013, nous avons franchi le cap du million, ce que nous avons interprété comme le signe d’une croissance et d’une adoption sans précédent pour Affectiva. Et, tout récemment, nous avons franchi le cap des 5 millions. J’ai reçu un rapport hier : nous avons désormais analysé 5 313 751 visages. Notre base de données s’enrichit chaque jour.

Et maintenant ?

Nous pensons que ce n’est qu’un début. Notre ambition est d’humaniser la technologie grâce à nos logiciels, en veillant à ce que les appareils intelligents et les systèmes d’IA avancés qui nous entourent soient capables de décrypter nos émotions et de s’y adapter. Nous souhaitons également pouvoir continuer à mesurer avec une grande précision la manière dont les consommateurs réagissent aux contenus numériques. À mesure que nous enrichissons notre base de données émotionnelle, nous collectons davantage de données dans des contextes spécifiques, tels que des vidéos montrant des personnes en pleine conversation, des gifs animés ou des personnes au volant.

J’imagine un avenir dans lequel Affectiva permettra aux gens de créer leur profil émotionnel, qu’ils pourront ensuite emporter avec eux sur tous les appareils et dans toutes les expériences numériques qu’ils utilisent au quotidien – ce sera notre « passeport émotionnel » qui rendra nos parcours numériques plus personnalisés, plus efficaces et plus authentiques.

Nous souhaitons vivement nouer davantage de partenariats dans le domaine des données afin de continuer à développer cette base de données émotionnelle de classe mondiale : si vous souhaitez collaborer avec nous sur ce projet, n’hésitez pas à nous contacter !

🍪 Use of cookies

Settings

Qu'est-ce qui alimente les outils d'analyse des expressions faciales d'Affectiva ? La plus grande base de données émotionnelles au monde !

Table of Contents