Listen Podcast summary

Podcast summary

0:00

–:––

La fraude dans les sondages en ligne évolue rapidement, avec l’apparition de robots basés sur l’IA, de faux participants et de personnes qui répondent plusieurs fois. Découvrez les dernières stratégies de détection de la fraude et comment la vérification biométrique peut améliorer l’intégrité des données.

La collecte de données en ligne est désormais la norme dans la recherche sur le comportement humain. Elle est pratique, rapide, abordable et permet d’atteindre des personnes qui ne mettraient jamais les pieds dans un laboratoire. Mais cette même accessibilité qui fait la force des études en ligne les rend également vulnérables. Lorsqu’un lien vers un sondage se retrouve dans les méandres incontrôlés d’Internet et qu’une récompense financière y est associée, il est fort probable que vous n’étudiiez plus uniquement la population que vous aviez initialement prévue. Vous risquez d’étudier des participants professionnels, des comptes en double, des robots automatisés et, de plus en plus, de grands modèles linguistiques se faisant passer pour des personnes.

Il ne s’agit pas d’un problème marginal, mais bien d’une des principales menaces qui pèsent sur la validité des études en ligne. La société spécialisée dans la qualité des données Research Defender a estimé qu’environ 31 % des réponses brutes aux enquêtes comportaient une forme ou une autre de fraude, et ce bien avant même de prendre en compte l’intelligence artificielle.

Pour les chercheurs, les spécialistes du marketing et tous ceux qui prennent des décisions sur la base de données relatives à la consommation ou à la santé, la question n’est plus de savoir si des réponses trompeuses apparaîtront lorsque des intérêts financiers sont en jeu, mais comment les repérer et les éliminer avant qu’elles ne faussent les données et les conclusions qui en découlent.

Pourquoi les sondages en ligne rémunérés attirent les personnes mal intentionnées

Le fonctionnement de la fraude est d’une simplicité déconcertante. De nombreux panels en ligne et méthodes de recrutement communautaire s’appuient sur ce que l’on appelle parfois l’« échantillonnage en flux continu », ce qui revient essentiellement à une inscription libre avec très peu de conditions d’accès. Quiconque dispose du lien peut participer, et la rémunération (une carte-cadeau de 20 dollars, quelques dollars par questionnaire rempli) est précisément la motivation dont a besoin un participant malhonnête.

Un cas révélateur nous vient de chercheurs de l’Université de Floride du Sud, qui avaient entrepris d’étudier l’effet des messages d’intérêt public antitabac, mais se sont heurtés à un problème méthodologique. Le lien de recrutement communautaire qu’ils avaient créé, associé à une carte-cadeau de 20 dollars, a été divulgué bien au-delà du public visé et a circulé « dans la nature », où des personnes mal intentionnées s’en sont emparées pour réclamer la récompense.

Certains pourraient dire qu’il est toujours préférable de disposer d’un plus grand nombre de données lorsqu’on cherche à se faire une idée générale d’un sujet de recherche. Cependant, le contraste avec leur panel commercial présélectionné était frappant. Dans l’échantillon communautaire qui a fait l’objet d’une fuite, 58 % des réponses ont été classées comme trompeuses et seulement 42 % comme valides, alors que le panel présélectionné a produit environ 87 % de réponses valides. Il est important de noter que la leçon à tirer n’est pas que le recrutement communautaire ne vaut pas la peine ou que les panels sont irréprochables, car les panels validés comportent leur propre risque de participants désengagés et habitués aux sondages, mais que les incitations associées à un accès libre invitent de manière fiable à la manipulation.

Il y a trois menaces qui se recoupent et auxquelles il faut prêter attention :

Les personnes non éligibles qui font de fausses déclarations (sur leur âge, leur lieu de résidence, leur état de santé ou leur comportement) afin de pouvoir bénéficier de la prime.
Des personnes négligentes ou désintéressées qui se précipitent, avancent en ligne droite ou font plusieurs choses à la fois sans véritable implication.
Des agents automatisés et semi-automatisés, pouvant aller de simples scripts rudimentaires à des systèmes d'IA sophistiqués, qui mènent à bien des études à grande échelle et à un rythme soutenu, sans intervention humaine.

C’est cette troisième catégorie qui a connu les changements les plus radicaux, et les plus dangereux.

L’escalade qui a mis à mal les anciennes défenses : des répondants générés par l’IA

Jusqu’à très récemment, les réponses frauduleuses constituaient une activité exigeante en main-d’œuvre et peu rentable. Après tout, il fallait que quelqu’un s’y attelle pour pouvoir en tirer profit, pour ainsi dire. L’essor des modèles de langage génératifs (LLM) et de l’automatisation agentique a considérablement bouleversé ce paysage. Une étude réalisée en 2024 sur un échantillon de Prolific a révélé que 34,3 % des personnes interrogées déclaraient utiliser l’IA pour répondre à des questions ouvertes, et ce ne sont là que les participants prêts à l’admettre.

L’évolution la plus préoccupante concerne les agents IA entièrement autonomes mentionnés plus haut. Fin 2025, Sean Westwood, chercheur à Dartmouth, a publié dans PNAS des travaux présentant un agent IA capable de se faire passer pour un participant humain à une enquête tout en échappant à toutes les méthodes de détection actuellement utilisées. Dans ce cas, l’intérêt de déployer un tel outil est évident, car l’écart de coût est considérable. Un participant humain gagne généralement environ 1,50 dollar par enquête, tandis que l’IA pourrait générer une réponse soignée et adaptée au profil démographique pour environ cinq cents.

L’analyse de Westwood a montré que, dans plusieurs grands sondages nationaux réalisés avant les élections de 2024, il aurait suffi de 10 à 52 réponses falsifiées pour renverser le résultat prévu. Lorsqu’on a demandé aux modèles s’ils étaient des humains ou des machines, ils ont systématiquement choisi la réponse « humain ».

Les chercheurs qui étudient ce phénomène l’appellent parfois « pollution par les grands modèles de langage » (LLM Pollution). Ils font la distinction entre la médiation partielle (un participant réel utilisant l’IA pour peaufiner la formulation ou « traduire » une réponse afin qu’elle corresponde à l’objet de la question de recherche) et la délégation totale (un agent réalisant l’intégralité de l’étude sans supervision, à grande échelle et à grande vitesse). Ces deux cas remettent en cause le principe fondamental de la recherche sur des sujets humains, à savoir qu’une réponse cohérente provient d’un esprit humain apte à répondre à une question de recherche donnée. Un laboratoire a rapporté avoir observé des contenus apparemment générés par un LLM dans jusqu’à 45 % des réponses soumises.

La conclusion dérangeante est que les anciennes mesures de sécurité, telles que les tests d’attention, les filtres anti-bots rudimentaires, les questions du type « Êtes-vous un humain ? » et le système de notation reCAPTCHA, ont été conçues pour des adversaires moins sophistiqués. Elles permettent encore de détecter les bots rudimentaires, mais ne parviennent plus à repérer de manière fiable les plus intelligents. Une défense entièrement fondée sur l’analyse de ce que tape un utilisateur est désormais confrontée à un système particulièrement doué pour produire des textes qui semblent humains, ce qui fait écho à l’analogie « apporter un couteau à une fusillade ».

Les arguments en faveur de l’installation d’une caméra sur le site d’étude

Alors, comment les chercheurs peuvent-ils s’y prendre pour réduire au minimum les réponses frauduleuses aux enquêtes ? Une solution consiste à intégrer ces enquêtes dans des études de recherche biométriques en ligne. Si la principale faiblesse de la détection des fraudes textuelles réside dans le fait que l’IA est douée pour le texte, alors la réponse la plus directe consiste à exiger quelque chose que l’IA et les comptes multiples ne sont pas capables de simuler, comme un visage humain vivant et attentif, filmé par webcam pendant toute la durée de l’étude et dont les expressions et l’attention sont analysées dans le cadre de l’étude.

Ce n’est pas une solution parfaite ni infaillible ; aucune méthode ne l’est probablement. Mais elle est relativement sûre et permet de contrer les deux formes de fraude les plus difficiles à endiguer par d’autres moyens.

Il bat les agents IA automatisés à grande échelle

Un agent LLM est capable de générer une réponse ouverte irréprochable, de renseigner des données démographiques et même d’imiter un rythme de réponse plausible. Ce qu’il ne peut pas faire, c’est s’asseoir devant une caméra et afficher, à la demande, un visage humain continu, cohérent et véritablement attentif tout au long d’une session.

Dès qu’une étude nécessite des données faciales en temps réel et des indicateurs d’attention en direct, les arguments économiques qui rendent la fraude par IA si attrayante s’effondrent presque complètement. Tout l’intérêt d’un agent automatisé réside dans le fait qu’il réalise des études à grande échelle et à grande vitesse pour quelques centimes. Exiger un visage réel, ce qui implique la présence physique d’une personne réelle pour chaque réponse, réintroduit de force le goulot d’étranglement que la fraude automatisée à grande échelle est censée éviter.

Le cas de l’Université de Floride du Sud montre comment ce système de détection fonctionne dans la pratique. En filmant les participants via leur webcam et en effectuant une analyse des expressions faciales ainsi que des mesures de l’attention, l’équipe a classé les participants en trois catégories : « sincères », « désintéressés » ou « malhonnêtes », en se basant sur des signaux difficiles à simuler en temps réel. Un répondant qui souriait narquoisement à la caméra s’est avéré être associé à une tricherie dans environ 85 % des cas. Les malfaiteurs qui ont tenté d’échapper à la caméra — en remplaçant leur visage par une photo ou en éteignant les lumières — ont produit exactement le type de signal manquant ou corrompu qui signale une réponse devant être immédiatement exclue. Un bot n’a pas de visage à montrer, et un humain qui cherche à se dérober se trahit en essayant de se cacher.

Cela concerne les candidats qui repassent l’examen

Le deuxième type de fraude difficile à détecter concerne les personnes qui participent plusieurs fois à la même étude afin de toucher la récompense à maintes reprises. Il est possible de créer une infinité d’adresses e-mail, de masquer facilement les adresses IP à l’aide d’un VPN et de réinitialiser les empreintes numériques des appareils. Mais si chaque session capture le visage du participant, une même personne se présentant sous trois identités différentes peut être identifiée et exclue, simplement parce que son visage apparaît à chaque tentative. Les données faciales transforment le problème « une personne, plusieurs comptes », auparavant quasi invisible, en un problème détectable, d’une manière que les vérifications de métadonnées seules ne peuvent pas gérer de manière fiable.

Pourquoi « relativement » sûr, et non pas infaillible ?

L’honnêteté est ici de mise, car les déclarations exagérées constituent un risque à part entière. Une étude appuyée par des caméras est bien plus difficile à falsifier à grande échelle, mais elle n’est pas à l’abri :

La médiation partielle par les LLM persiste. Un véritable humain peut s’asseoir devant la caméra tout en collant discrètement du texte rédigé par l’IA dans les champs de réponse libre. Le visage permet de déjouer le bot, mais il ne suffit pas à déjouer un humain qui utilise l’IA comme béquille ; cela signifie également que la vérification du contenu des réponses libres reste d’une importance capitale.

Les signaux comportementaux ne constituent pas à eux seuls une panacée. Un commentaire publié en 2026 dans la revue PNAS, intitulé de manière provocante « La recherche comportementale en ligne connaîtra-t-elle le même sort que les enquêtes en ligne ? », a mis en évidence des schémas cohérents avec l’IA même dans les données relatives au temps de réaction – un domaine que l’on croyait depuis longtemps protégé par les limites perceptivo-motrices de l’être humain. Le revers rassurant de la médaille est que c’est précisément pour cette raison que l’exigence d’un visage en direct est importante. Simuler un timing à la milliseconde près est facile pour un agent IA avancé, mais présenter un visage humain réel et continu est la partie véritablement difficile pour la plupart des systèmes automatisés.

Les compromis entre qualité, sélection et respect de la vie privée sont bien réels. Les méthodes utilisant la webcam dépendent du matériel, de l’éclairage et de la position du participant, ce qui augmente les taux d’exclusion, et ne permettent de capter que les personnes disposées à activer leur caméra. Des chercheurs de l’université de Californie à Riverside, qui étudiaient une population stigmatisée, ont constaté qu’une vérification plus stricte protège la qualité des données, mais peut dissuader précisément les participants vulnérables et difficiles à atteindre que l’on souhaite atteindre. Il s’agit là d’une tension qu’il vaut mieux prendre en compte dans la conception plutôt que d’ignorer.

Il ne faut donc pas présenter les choses en disant qu’« une caméra permet d’éliminer la fraude ». Il s’agit plutôt de montrer que l’ajout de données en temps réel sur le visage et l’attention permet d’éliminer les formes de fraude les moins coûteuses et les plus répandues, à savoir les agents IA automatisés et les fraudeurs récidivistes, tout en rendant les autres cas plus faciles à détecter. Cela revient en quelque sorte à relever considérablement le seuil de détection.

Lutter contre la fraude des participants grâce à iMotions Online

Le problème de la fraude des répondants devient bien plus facile à gérer lorsque les outils d’enquête et l’intégration biométrique coexistent au sein d’une même plateforme. C’est exactement ce pour quoi iMotions Online a été conçu. En tant que plateforme de recherche accessible par navigateur, elle combine un générateur d’enquêtes complet avec un suivi oculaire par webcam et une analyse des expressions faciales, transformant ce qui serait traditionnellement des flux de travail distincts pour les enquêtes et la biométrie en une seule étude intégrée.

Concrètement, les participants n’ont qu’à ouvrir le lien de l’étude dans un navigateur Web à l’aide d’un ordinateur portable ou de bureau standard équipé d’une webcam et d’une connexion Internet. Au fur et à mesure qu’ils interagissent avec les stimuli présentés, iMotions Online mesure l’attention visuelle grâce à l’oculométrie par webcam WebET 3.0 et capture les expressions faciales à l’aide d’Affectiva AFFDEX, la même technologie de codage facial utilisée dans la recherche universitaire et commerciale à travers le monde. Ce n’est qu’une fois cette partie biométrique terminée que le participant passe à la partie enquête de l’étude. Il en résulte que chaque réponse à l’enquête est accompagnée d’une preuve attestant qu’une personne réelle était présente, qu’elle regardait le stimulus et qu’elle participait activement à l’étude.

Cette mesure s’attaque directement aux deux formes les plus courantes de fraude chez les répondants. Avant de répondre à la première question de l’enquête, les participants doivent effectuer une brève procédure d’étalonnage de l’oculométrie en suivant du regard des points affichés à l’écran. Les agents automatisés n’ont pas d’yeux à suivre et ne peuvent donc pas passer cette étape. De même, l’analyse des expressions faciales nécessite la présence d’un vrai visage tout au long de la session. Bien qu’aucun système ne puisse éliminer complètement les participations répétées, les chercheurs peuvent facilement identifier les cas suspects lorsqu’une même personne apparaît plusieurs fois sous différentes identités. Le sondage n’est plus un simple champ de texte qu’un modèle de langage de grande envergure (LLM) peut remplir pour quelques centimes ; il devient une session qui nécessite la présence et l’attention d’un véritable participant humain.

Certaines fonctionnalités revêtent une importance particulière pour l’intégrité des données :

Enquêtes et données biométriques réunies dans une seule étude. L'outil d'enquête intégré, doté d'une logique conditionnelle et de branches, fonctionne au sein de la même session que l'oculométrie et l'analyse des expressions faciales ; ainsi, les données relatives à l'attention et à l'engagement correspondent à chaque réponse, et aucune intégration d'un outil d'enquête tiers n'est nécessaire.
Intégration de panels. iMotions Online s'interface avec des fournisseurs de panels reconnus tels que Prolific, Qualtrics, CINT, Forsta, Amazon MTurk et Sona Systems, de sorte que le recrutement rigoureux et la vérification biométrique se complètent mutuellement, plutôt que d'être considérés comme des options exclusives.
Indicateurs d'engagement et d'attention. AFFDEX met en évidence la valence et l'engagement et détecte les émotions fondamentales, tandis que le regard et l'attention permettent de déterminer si un participant était réellement concentré. C'est sur cette base que l'on distingue les réponses valides, désintéressées et trompeuses.
Conforme au RGPD dès la conception. Les données sont anonymisées et stockées dans une infrastructure cloud sécurisée au sein de l'UE, dotée d'un contrôle d'accès par projet, ce qui est essentiel lorsque la vérification et la confidentialité des participants doivent coexister.
Un contrôle humain de dernier recours. Étant donné que chaque session enregistre le visage du participant en même temps que ses réponses, les chercheurs chargés d'examiner les données constituent un dernier rempart. Un examinateur peut littéralement voir qui a participé ; ainsi, un candidat récidiviste qui réapparaît sous une autre identité est généralement reconnu au premier coup d'œil, même s'il a réussi à passer entre les mailles de tous les contrôles automatisés.

Pour les études scientifiques et commerciales qui nécessitent davantage de fonctionnalités, le module de collecte de données à distance pour iMotions Lab étend cette collecte via navigateur en y ajoutant l’enregistrement d’écran et audio, la reconnaissance vocale, l’analyse vocale et l’ensemble des outils d’analyse de la plateforme.

Une défense multicouche, avec la biométrie comme pilier central

Le consensus qui se dégage de la littérature scientifique est qu’aucune méthode prise isolément n’est pleinement suffisante ; les études rigoureuses combinent plusieurs contrôles indépendants afin qu’un participant qui échappe à l’un d’entre eux soit repéré par un autre. Une deuxième étude de cas illustre ce point. Des chercheurs dirigés par l’UC Riverside, dans un article publié dans AIDS and Behavior, ont mené un essai en ligne dont le processus de sélection est révélateur : sur les 9 321 personnes ayant rempli le questionnaire de présélection, 2 637 répondaient aux critères d’éligibilité, mais seules 251 ont passé les contrôles de légitimité et de doublons, 158 ont donné leur consentement et 115 ont mené l’étude à son terme. La détection automatisée a permis de repérer la plupart des entrées problématiques, mais un examen manuel et une vérification en direct ont été nécessaires pour combler les lacunes — et ils ont conclu que la vérification devait être un élément central de la conception de l’étude, budgétisée dès le départ.

Voici à quoi ressemble une boîte à outils pratique et modulable, où la capture biométrique en temps réel sert de pilier central, renforcé par les autres modules :

Lors du recrutement et de la conception

Privilégiez les forums dont les membres ont été sélectionnés et dont l'identité a été vérifiée plutôt que les liens ouverts lorsque l'intégrité est primordiale.
Concevez l'étude sous la forme d'une session par webcam afin de pouvoir observer les expressions faciales et le niveau d'attention tout au long de la séance.
Ajouter des contrôles visant à vérifier l'attention et la manipulation des instructions, ainsi que des questions pièges (invisibles pour les humains, auxquelles répondent des robots).

Pendant la collecte (métadonnées et signaux techniques)

Activer reCAPTCHA / l'évaluation de la probabilité de bot et collecter des métadonnées détaillées.
Suivre les délais d'exécution, les adresses IP et la géolocalisation, ainsi que les signaux de détection des doublons.
Utilisez la reconnaissance faciale entre les sessions pour détecter les candidats qui se présentent à plusieurs reprises sous différentes identités.

Après la collecte (analyse et examen)

Utiliser les données relatives aux expressions faciales et à l'attention pour classer les répondants en trois catégories : les répondants sincères, les indifférents et les malhonnêtes.
Appliquer des méthodes statistiques de détection des valeurs aberrantes (par exemple, la distance de Mahalanobis, la corrélation personne-total).
Vérifier manuellement les réponses ouvertes afin de repérer les signatures détaillées et génériques de l'IA.

Il est essentiel de planifier ces méthodes avant le lancement. Les équipes qui tentent de nettoyer un ensemble de données contaminé a posteriori se retrouvent souvent confrontées au pire scénario possible : elles ne parviennent pas à distinguer avec certitude les réponses authentiques des fausses et doivent abandonner complètement les données, un sort dont plusieurs équipes ont fait état dans leurs publications.

Une conclusion pratique

Si vous menez ou mettez en place une étude en ligne, considérez l’intégrité des données comme un choix conceptuel pour lequel il faut prévoir un budget, et non comme une tâche de nettoyage a posteriori :

Partons du principe qu'une part non négligeable de tout échantillon en ligne rémunéré n'est pas authentique — et que l'IA a rendu la fraude moins coûteuse, plus rapide et plus convaincante que ne le permettaient les anciens filtres anti-bots.
Faire en sorte que l'étude prenne en compte ses participants. L'intégration d'enquêtes dans la recherche biométrique par webcam est l'une des rares approches qui permet de contourner systématiquement les agents IA automatisés (qui n'ont pas de visage à montrer) et les participants récurrents (dont le visage apparaît à chaque session).
Considérez ce système comme « relativement sûr », mais pas infaillible. Associez l'utilisation de la caméra à un examen du contenu, à des vérifications des métadonnées et à un filtrage statistique afin de détecter également les cas de fraude résiduels.
Trouvez le juste équilibre entre rigueur et accessibilité. Une vérification trop stricte risque de faire fuir les participants légitimes et difficiles à atteindre que vous recherchez le plus ; il convient donc d'adapter votre approche en fonction de la population visée et des enjeux.

Les populations qu’il vaut la peine d’étudier en ligne sont souvent celles qui sont les plus difficiles à atteindre par d’autres moyens. C’est en préservant l’intégrité de ces données – grâce à une conception intelligente, à des contrôles à plusieurs niveaux et à des indicateurs véritablement difficiles à falsifier, au premier rang desquels figure la présence d’un interlocuteur humain en direct – que la recherche en ligne conserve tout son intérêt.

Références

iMotions. Éliminer les réponses trompeuses dans les sondages en ligne (étude de cas de l'Université de Floride du Sud). https://imotions.com/customer-stories/weeding-out-deceitful-responses-in-online-surveys/
Hammond, R., Parvanta, C., & Zemen, R. (Étude à l'origine de l'USF, Social Marketing Quarterly.) https://journals.sagepub.com/doi/abs/10.1177/15245004221074403
Pittalwala, I. Une étude révèle que la détection des fraudes est essentielle pour la recherche en ligne dans le domaine de la santé. UC Riverside News, 11 juin 2026. https://news.ucr.edu/articles/2026/06/11/fraud-detection-critical-online-health-research-study-finds
Brown, B., Valente, P. K., O'Connor, G., et al. Procédures visant à vérifier la légitimité et l'unicité des réponses dans une étude en ligne menée auprès de jeunes hommes gays et bisexuels américains consommant des stimulants. AIDS and Behavior (2026). https://link.springer.com/article/10.1007/s10461-026-05180-9
Westwood, S. J. La menace existentielle potentielle que représentent les grands modèles linguistiques pour les enquêtes en ligne. PNAS 122(47), e2518075122 (2025). https://www.pnas.org/doi/10.1073/pnas.2518075122 (version en libre accès : https://pmc.ncbi.nlm.nih.gov/articles/PMC12663962/)
La recherche sur le comportement en ligne connaîtra-t-elle le même sort que les enquêtes en ligne ? PNAS 123(8), e2535585123 (2026). https://www.pnas.org/doi/10.1073/pnas.2535585123
Reconnaître, anticiper et atténuer la pollution des modèles de langage de grande envergure (LLM) dans la recherche comportementale en ligne. arXiv:2508.01390 (2025). https://arxiv.org/abs/2508.01390
Bonnamy, C., et al. Sabotage des enquêtes : pistes pour réduire le risque de réponses frauduleuses dans les enquêtes en ligne. Anatomical Sciences Education 18, 767–773 (2025). https://anatomypubs.onlinelibrary.wiley.com/doi/10.1002/ase.70015
Les bots, nouvelle forme de fraude : une analyse a posteriori des méthodes statistiques permettant d’identifier les réponses générées par des bots dans un ensemble de données corrompu. Computers in Human Behavior (2023). https://www.sciencedirect.com/science/article/abs/pii/S019188692300212X
Suivi oculaire en ligne par webcam pour la recherche comportementale. Judgment and Decision Making 16(6) (2021). https://www.cambridge.org/core/journals/judgment-and-decision-making/article/webcambased-online-eyetracking-for-behavioral-research/B726E77B68A76577F9BC6BB8F1EBC6E4

🍪 Use of cookies

Settings

Lutter contre la fraude dans les sondages en ligne : que faire lorsque vos répondants ne sont pas réels ?

Table of Contents