, ,

Vérité, mensonges et données synthétiques : comment utiliser efficacement les données synthétiques dans les études de marché

Découvrez comment l’IA générative transforme les processus de recherche, de la modération aux données synthétiques. Si l’IA permet de gagner en rapidité et en envergure, les données synthétiques comportent des risques tels que les biais et une variabilité réduite. La conclusion : associez l’efficacité de l’IA à de véritables données humaines pour garantir la précision et la qualité des informations.

Le récent congrès de l’ESOMAR a été très instructif sur de nombreux sujets, mais surtout sur le chemin déjà parcouru par le secteur de la recherche commerciale dans l’adoption de la technologie d’IA générative. Lors de cette conférence il y a un an, les présentations des entreprises spécialisées dans l’IA étaient nombreuses, tout comme les inquiétudes quant à ce que l’IA allait signifier. Douze mois plus tard, nous avons constaté beaucoup plus de pragmatisme, et bien que des inquiétudes subsistent, la manière dont le secteur est susceptible d’adopter ces outils se précise nettement.

L’IA semble être utilisée de quatre grandes manières :

  • Outils de modération – utilisation de grands modèles linguistiques pour automatiser certains aspects du processus d'entretien, tant pour rédiger des questionnaires et des guides de discussion que pour modérer directement de courts entretiens
  •  Agents opérationnels – automatisation du processus de mise en œuvre de la recherche pour réduire les coûts et gagner du temps
  • Analyse automatisée : identification de thèmes dans les données brutes, extraction et visualisation des résultats chiffrés afin d'accélérer le processus de mise en évidence des enseignements
  • Données synthétiques – création de nouvelles données à partir de modèles issus de réponses antérieures et d'un apprentissage plus large, afin de compléter les données recueillies auprès de personnes réelles.

Si chacune de ces applications présente des avantages et des inconvénients, ce sont les données synthétiques qui suscitent de loin le plus de controverses, comme nous allons le voir.

Applications utilisant des données synthétiques

Les données synthétiques ont déjà fait leurs preuves dans d’autres domaines. Dans le secteur automobile, elles permettent de simuler des milliers de scénarios d’accidents sans avoir recours à des collisions réelles, dangereuses et coûteuses. Dans le domaine de la santé, elles fournissent aux équipes de recherche de vastes ensembles de données qui préservent la confidentialité des patients tout en permettant des avancées décisives dans le dépistage et le traitement des maladies rares. Les institutions financières les utilisent pour modéliser la prévention de la fraude sans exposer les transactions sensibles.

Cependant, le défi que pose la recherche commerciale est sans doute d’une autre nature. Plutôt que de se concentrer sur un motif spécifique dans une image ou un scénario, nous essayons ici de prédire ce que diront et feront de vraies personnes, qui sont, comme chacun sait, chaotiques, imprévisibles et illogiques. Et l’essence même du secteur de la recherche consiste à découvrir la vérité et la réalité des comportements, et non à élaborer un modèle hypothétique. Mais malgré ce défi, les données synthétiques sont aujourd’hui utilisées de multiples façons :

  1. Créer des « personas », ou des outils basés sur des modèles linguistiques de grande envergure permettant une interaction en langage naturel, afin d'exploiter des ensembles de données de recherche, tant au sein d'une même étude qu'entre différentes études, pour répondre aux questions clés des clients.
  2.  « Combler les lacunes » des ensembles de données : estimer les réponses qui n'ont pas été données lors d'un entretien, en se basant sur les réponses des personnes qui y ont répondu ou sur des études antérieures ayant posé ces questions.
  3. Augmenter la taille des échantillons dans les études, en particulier lorsqu'il s'agit de populations difficiles à atteindre, en créant des « jumeaux numériques » de l'ensemble des participants, afin de renforcer la fiabilité des résultats obtenus à partir de petits groupes.

Les avantages sont évidents : trouver et interroger de vraies personnes peut s’avérer relativement coûteux et chronophage, malgré le processus d’automatisation engagé depuis des années dans le secteur des études de marché. Il est donc logique de recourir à l’IA pour tirer le meilleur parti des données dont nous disposons. Et tout ce qui rend les résultats plus accessibles et plus exploitables est une bonne chose.

Un retour à la réalité

Il est toutefois important de ne pas se laisser emporter par l’engouement actuel pour les données synthétiques.  En particulier lorsqu’il s’agit de la création de « nouvelles » données, telles que les jumeaux numériques ou les réponses synthétiques. Pour énoncer une évidence : ce ne sont pas de vraies données. Ce sont des estimations, et les estimations comportent des erreurs. Considérer simplement ces données comme équivalentes à de vraies données humaines est au mieux risqué et au pire trompeur, et c’est un soulagement d’apprendre que les directives de l’industrie de la recherche ont été mises à jour pour garantir que la transparence soit une condition nécessaire à de telles applications.

Il convient toutefois de garder à l’esprit certaines implications de cette réalité :

  1. Tous les modèles ont tendance à revenir à la moyenne. Cela signifie que les données synthétiques auront tendance à converger vers une réponse « moyenne », plutôt que de refléter l'éventail des réponses que donneraient de vraies personnes. Nous l'avons constaté dans la pratique chez Affectiva / iMotions lorsque nous comparons, par exemple, les données d'oculométrie prédites à celles réelles.  La prédiction a tendance à présenter un fort biais central sur l'écran, ce qui est vrai en moyenne et produit donc des corrélations significatives, mais passe ainsi à côté de nombreuses informations en périphérie qui apparaissent clairement lorsque l'on examine les données provenant de personnes réelles.
  2. Les modèles ont tendance à négliger les valeurs extrêmes – les distributions des données synthétiques sont donc souvent plus étroites que celles des données réelles –, ce qui pose un défi, car c'est souvent aux extrémités que se trouvent les résultats intéressants. Cela s'avère particulièrement difficile dans les recherches visant à mesurer les réactions face à des idées novatrices ou inédites, comme les tests publicitaires ou le développement de nouveaux produits, où demander à l'IA d'évaluer des idées qu'elle n'a jamais vues auparavant peut donc entraîner davantage d'erreurs, et non l'inverse.
  3. Les liens internes entre les données s'estompent. Comme toutes les estimations du modèle comportent des erreurs, les relations entre, par exemple, certaines perceptions de l'image de marque et les achats peuvent commencer à s'affaiblir – ce qui est regrettable si ces données sont ensuite utilisées pour tenter de comprendre l'importance des différents attributs ou les facteurs qui influencent le comportement
  4. La qualité des données synthétiques dépend entièrement de celle des données de référence sur lesquelles elles ont été entraînées. L'IA est une question de chiffres : plus vous disposez de données réelles, plus votre modèle sera performant (c'est pourquoi la technologie de codage facial d'Affectiva fonctionne si bien, puisque nous avons accès à des données issues de millions de cas pour l'entraînement). Les biais présents dans ces données de référence seront amplifiés, et cela est particulièrement vrai lorsque les cas d'entraînement sont peu nombreux.
  5. Mais surtout, il n’y a pas de « magie » statistique dans un modèle de langage à grande échelle ou dans les outils d’IA qui permettrait de faire abstraction des lois de la statistique. Vous pouvez créer autant de jumeaux numériques que vous le souhaitez, mais vous continuez de les fonder sur les données dont vous disposez – et le problème s’aggrave particulièrement lorsque l’objectif est d’enrichir des échantillons à faible incidence.  Si vous partez de 30 personnes, vous vous retrouvez toujours avec trente personnes à la fin, même si vous avez créé 170 jumeaux numériques supplémentaires. Vous ne pouvez pas calculer votre erreur type à partir de données incluant des données synthétiques – ce concept ne s’applique tout simplement pas, car les jumeaux sont des doublons, même si la duplication est floue.
  6. Ironiquement, la création de données synthétiques peut s'avérer plus coûteuse que la collecte de données réelles. La création d'un jumeau synthétique est onéreuse, et si le coût d'un questionnaire rempli par une personne réelle est inférieur à un dollar (que cela soit une bonne chose ou non est un sujet qui mérite un autre article), pourquoi s'en priver ? L'IA sera toujours plus rapide, mais elle ne sera pas forcément toujours moins chère.

Quelques conseils

Tout ce qui précède ne signifie pas pour autant que les données synthétiques n’ont pas leur place dans la recherche commerciale : si elles permettent de rendre les données plus exploitables, plus accessibles et plus rapides, cela représente un énorme progrès pour ce qui peut parfois s’avérer être un processus très aride et lent pour les acheteurs finaux de ces études. Il convient toutefois de faire preuve de prudence, et :

  • Soyez réaliste : distinguez clairement les données réelles de celles qui ne le sont pas, et faites preuve de la prudence qui s'impose face aux résultats augmentés.
  • Soyez pragmatique : il y a des moments où il faut approfondir les choses, explorer des idées avec de vraies personnes et prendre le temps d’y réfléchir, mais dans d’autres cas, une réponse rapide et globalement correcte suffit.  Par exemple, la recherche de l'idée centrale et de la mise en œuvre d'une nouvelle campagne publicitaire nécessite l'intervention de personnes réelles – mais tester les centaines d'itérations de cette campagne qui s'ensuivent à l'aide d'un modèle d'IA peut suffire à optimiser le plan média, et c'est mieux que de ne faire aucune recherche du tout.
  • Il faut continuer à alimenter le système. Le pire scénario serait que le secteur se contente de s'appuyer sur des modèles et de les alimenter avec des données synthétiques, qui finissent inévitablement par s'écarter de la réalité. Nous ne pouvons pas laisser notre IA s'étouffer avec ses propres rejets.

L’avènement de l’IA générative marque un tournant décisif pour la recherche commerciale ; si le secteur fait preuve d’ouverture d’esprit, cela nous permettra d’obtenir des informations plus pertinentes, plus rapidement et à plus grande échelle ; mais nous devons garder les pieds sur terre face à ces techniques et continuer à nous appuyer également sur des données humaines réelles.

, ,