Comment gérer la qualité des données

Découvrez comment garantir la fiabilité des résultats de vos recherches sur le comportement humain en maîtrisant la gestion de la qualité des données. De la définition de protocoles clairs à la réalisation d’études pilotes, en passant par la vérification des signaux à l’aide des indicateurs intégrés à iMotions, une planification adéquate garantit que vos expériences multimodales — de l’EEG à l’oculométrie — produisent des données exploitables et précises. Apprenez à éviter les données manquantes, bruitées ou « erronées », et découvrez comment iMotions vous accompagne à chaque étape de votre étude pour des résultats fiables.

Qu’est-ce que la qualité des données et pourquoi est-ce important ?

Comment gérer la qualité des données. La recherche sur le comportement humain est, par nature, très gourmande en données. Les données occupent une place centrale dans toute étude de recherche ; elles peuvent être collectées à l’aide de divers capteurs à haute fréquence d’échantillonnage dans le cadre d’expériences multimodales, puis combinées avec des données qualitatives issues de l’observation participante ainsi qu’avec des données audio/vidéo provenant des enregistrements des participants. Compte tenu de toutes ces données accumulées, il n’est pas surprenant qu’une étude iMotions génère facilement plusieurs dizaines, voire plusieurs centaines de gigaoctets de données. 

Si un ensemble de données de cette envergure peut poser des difficultés spécifiques, les chercheurs doivent avant tout se poser une question essentielle concernant la qualité des données qu’ils collectent. Il n’existe pas de définition évidente de ce qu’est une bonne qualité des données. La littérature sur la qualité des données a proposé une approche contextuelle, selon laquelle les données doivent être acceptées si elles sont « adaptées à l’usage prévu » (1,2).

La qualité des données est un aspect essentiel de toute expérience et doit être gérée avec soin afin de garantir des résultats précis et fiables, car des données inexactes ou incomplètes peuvent conduire à des conclusions erronées et à des résultats peu fiables. 

C’est le contexte qui détermine la qualité

Un vieil adage de la science des données dit : « garbage in, garbage out », ce qui signifie que si les données sur lesquelles vous travaillez sont « de mauvaise qualité », les résultats de votre analyse ne pourront qu’être mauvais eux aussi. Bien que cette formule soit accrocheuse, il s’agit aussi d’une simplification qui occulte des aspects très importants de la question. Tout d’abord, nous devons définir ce que nous entendons par « données de mauvaise qualité » ! La réponse à cette question est loin d’être évidente et peut dépendre fortement du contexte et de l’application. Si vous travaillez avec des données d’électroencéphalographie (EEG) mesurant l’activité des ondes cérébrales et que vous souhaitez prouver l’existence d’un nouveau potentiel évoqué, vos exigences en matière de qualité des données seront bien plus élevées que si vous utilisiez des données vidéo pour étudier les expressions faciales. Dans le premier cas, la marge d’erreur est très faible, tandis que dans le second, vous pouvez probablement vous contenter d’un certain pourcentage d’images vidéo de mauvaise qualité. 

Comment gérer la qualité des données
Les données EEG comptent parmi les plus importantes à organiser et à traiter avec le plus grand soin ; sinon, vous risquez de devoir refaire votre étude.

Ce qui importe, ce n’est pas de viser une qualité de données parfaite, mais un niveau de qualité adapté au type d’effet ou à la question de recherche que l’on souhaite aborder (3). Dans cette optique, les considérations relatives à la qualité des données doivent s’inscrire dans le processus de planification de la recherche et tenir compte, au minimum, des aspects suivants liés à la qualité des données :

  • Données insuffisantes : en supposant que votre expérience se déroule sans encombre et que vous parveniez à collecter toutes les données prévues sans autre problème, vous devez vous demander si ce volume est suffisant pour mener à bien votre analyse comme prévu. Il est important de garder à l'esprit que les différentes techniques de modélisation des données et méthodes statistiques requièrent des volumes de données variables pour confirmer ou infirmer l'existence de l'effet étudié. Si l'on reprend l'exemple de l'EEG évoqué précédemment, une expérience comportant seulement 3 à 4 répétitions du stimulus sur un petit nombre de sujets aboutira très probablement à une quantité de données insuffisante.
  • Données manquantes : cela peut se produire de multiples façons. Une connexion d'électrode mal fixée, une coupure de la connexion Bluetooth d'un capteur… Résultat ? Il manque des données pour un ou plusieurs participants à votre étude.
  • Données erronées : les données que vous collectez peuvent comporter des erreurs systématiques si, par exemple, un capteur a été mal configuré, ou si un malentendu avec l'équipe chargée de la collecte des données a conduit au placement d'une électrode au mauvais endroit.
  • Données « erronées » : il s'agit d'une catégorie très large. Les données erronées ou bruitées peuvent être dues à un excès d'artefacts ou de bruit provenant de diverses sources, ce qui réduit la quantité d'informations contenues dans les signaux collectés.

En résumé, ce sont les spécificités de votre expérience et de votre application qui déterminent le niveau de qualité des données requis ; ces éléments doivent donc être au cœur de la planification de votre expérience afin que vous puissiez définir des attentes réalistes en matière de qualité des données.

Comment gérer la qualité des données dans iMotions

Le logiciel iMotions propose toute une série d’outils permettant de rationaliser le processus de collecte des données et de garantir une qualité optimale de celles-ci. 

Mieux vaut un peu de planification qu’une montagne de nettoyage de données ! Une planification minutieuse est l’un des meilleurs moyens d’améliorer la qualité des données. Voici quelques bonnes pratiques :

  • Définissez un protocole clair pour la collecte des données et assurez-vous que toutes les personnes participant à l'expérience en aient parfaitement pris connaissance.
  • Prévoyez une phase pilote avant l'expérience proprement dite. Au cours de cette phase, vous devrez suivre toutes les étapes exactement comme si vous meniez l'expérience réelle, à la seule différence que vos participants ne seront pas les participants définitifs. L'objectif est de vous assurer que votre plan de collecte de données fonctionne dans la pratique et qu'aucun élément n'a été omis dans le protocole. Vous obtiendrez également une première impression des données fournies par les participants au projet pilote, ce qui vous permettra de définir vos attentes concernant les données que vous obtiendrez lors de l'expérience proprement dite. Si la phase pilote met en évidence certains problèmes, n'hésitez pas à intégrer des solutions dans le protocole et à répéter l'opération avec une nouvelle phase pilote.
  • Vérifiez à l'avance que tout le matériel est bien présent et en état de marche. Il est fortement recommandé de procéder à un dernier essai la veille de votre expérience ; une fois que celui-ci s'est avéré concluant, laissez le matériel tel quel et fermez la porte à clé ! Les modifications de dernière minute nuisent à la fiabilité des données.
  • Donnez des instructions claires à vos participants. N'oubliez pas que, dans la plupart des cas, vos participants ne connaissent rien à la biométrie : c'est à vous de vous assurer qu'ils comprennent le fonctionnement de l'expérience et ce qu'ils doivent faire. Si vous menez une étude en ligne et que vous faites appel à un panel de répondants pour recruter vos participants, il est également judicieux d'envisager de choisir un service de panel capable de vous fournir des participants qui répondent à vos critères (4).
  • Utilisez des indicateurs de qualité des données pour vérifier les données que vous collectez. iMotions propose plusieurs moyens de vérifier la qualité de vos données. Par exemple, si vous utilisez des données EDA, vous pouvez recourir à notre analyse du rapport signal/bruit, qui indique dans quelle mesure le signal collecté se situe dans la gamme de fréquences attendue. D'autres contrôles permettent de vérifier que les données collectées présentent la fréquence d'échantillonnage attendue. Nous nous efforçons en permanence d'ajouter de nouveaux moyens de vérifier la qualité des données afin de rendre la recherche sur le comportement humain plus accessible à tous nos utilisateurs. 

Une fois la collecte des données terminée, vous passerez généralement par une phase de prétraitement, qui constitue la première étape de votre analyse des données. Cela peut consister, par exemple, à exclure les participants ou les stimuli dont les données présentent une qualité inférieure au seuil que vous avez fixé. Le nettoyage des données peut également faire partie de cette étape, par exemple en filtrant les données pour éliminer certains types de bruit.

Comment gérer la qualité des données - Assistance iMotions
iMotions vous accompagne tout au long de vos travaux de recherche, et notre équipe se tient à votre disposition pour répondre à toutes vos questions.

Mener un projet de recherche est une tâche très exigeante qui nécessite un investissement considérable en temps et en ressources. Se retrouver, après tout ce travail, avec des données inutilisables en raison d’une mauvaise qualité peut s’avérer très frustrant pour toutes les personnes impliquées. Il est donc essentiel de bien planifier le projet et de veiller à ce que les meilleures pratiques soient respectées tout au long du processus. iMotions vous accompagne tout au long de vos travaux de recherche, à la fois grâce à notre logiciel qui vous aide à identifier les problèmes potentiels liés à vos données, et grâce à notre équipe qui est toujours prête à répondre à toutes vos questions. Grâce à cette approche, nous sommes convaincus que votre projet de recherche sera couronné de succès. Si vous souhaitez en savoir plus sur la manière dont nous accompagnons nos clients et sur ce que vous pouvez attendre en tant que client iMotions, n’hésitez pas à nous contacter via le lien ci-dessous. 

Références

  1. Wang, R. Y., & Strong, D. M. (1996). Au-delà de la précision : ce que la qualité des données signifie pour les utilisateurs. Journal of Management Information Systems, 12(4), 5-33. lien.
  2. Cai, L., & Zhu, Y. (2015). Les défis liés à la qualité des données et à son évaluation à l'ère du big data. Data Science Journal, 14. lien.
  3. Haug, A., Zachariassen, F., & Van Liempd, D. (2011). Les coûts liés à la mauvaise qualité des données. Journal of Industrial Engineering and Management (JIEM), 4(2), 168-193. lien.
  4. Eyal, P., David, R., Andrew, G., Zak, E. et Ekaterina, D. (2021). Qualité des données des plateformes et des panels destinés à la recherche comportementale en ligne. Behavior Research Methods, p. 1-20. lien.