Découvrez comment les modèles de Markov cachés améliorent la technologie de suivi du regard en analysant l’attention visuelle et les schémas de regard. Cet aperçu théorique explore leurs applications dans des domaines tels que la psychologie, le marketing et la recherche sur l’expérience utilisateur.
Table of Contents
L’oculométrie permet de déterminer où les gens posent leur regard, mais l’analyse experte consiste à comprendre comment l’attention évolue au fil du temps dans des conditions réelles et bruyantes. Les données relatives au regard sont intrinsèquement imparfaites et sont influencées par des facteurs tels que la qualité du matériel, les conditions d’enregistrement, les mouvements de la tête et les différences individuelles entre les participants.
À mesure que nous progressons dans le domaine de l’oculométrie écologiquement valide et diversifiée, par exemple grâce à l’utilisation de webcams, il devient de plus en plus important de prendre en compte la gestion du bruit au niveau individuel. En l’absence de matériel dédié et d’environnements contrôlés permettant aux participants de collecter des données d’oculométrie, le rapport signal/bruit est plus variable et dépend davantage du sujet qu’il ne relève de l’étude elle-même.
Le problème lié à la classification des fixations dans le cadre de l’oculométrie par webcam :
En présence de bruit au niveau individuel, la manière de traiter ce bruit dans le cadre de la classification des fixations constitue un enjeu majeur. Les méthodes de référence actuelles en matière de classification des fixations consistent à définir des seuils stricts basés sur la vitesse du regard ou sur la proximité temporelle et spatiale des données relatives au regard.
Si un tel classificateur est utilisé, les chercheurs risquent de confondre le bruit avec de faux positifs sous forme de saccades ou de fixations. En l’absence de classificateur, les chercheurs se retrouvent avec l’ensemble des points de données, y compris le bruit mêlé au signal, sans pouvoir distinguer les moments où les participants recevaient activement des informations par le biais de fixations de ceux où ils effectuaient un balayage visuel à l’aide de saccades.
Comment les modèles de Markov cachés peuvent faciliter le suivi oculaire à l’aide d’une webcam :
C’est précisément pour cette raison que les modèles de Markov cachés (HMM) occupent une place si centrale dans l’eye-tracking moderne et qu’ils constituent la principale approche basée sur les modèles de Markov mise en œuvre dans les plateformes à l’échelle mondiale.
Plutôt que de considérer les mouvements oculaires comme des événements nets et facilement distincts, les modèles HMM tiennent compte de l’incertitude. Ils modélisent ce que nous ne pouvons pas observer directement et le déduisent de manière probabiliste à partir de signaux bruités. Cela les rend particulièrement adaptés à l’oculométrie.
Voici à quoi pourrait ressembler une illustration de la manière dont les modèles de Markov cachés sont mis en œuvre dans l’oculométrie :

Les modèles de Markov cachés, expliqués en bref
Un modèle de Markov caché (HMM) décrit un système qui évolue au fil du temps à travers une séquence d’états non observables (cachés), tout en produisant des signaux observables liés de manière probabiliste à ces états. L’hypothèse fondamentale, connue sous le nom de propriété de Markov, est que la probabilité de l’état caché suivant dépend uniquement de l’état actuel, et non de la séquence complète des états passés.
Imaginez que vous lisiez une ligne de texte. Vous ne retournez pas au début de la page chaque fois que vous arrivez à un nouveau mot ; vous continuez à lire en suivant un enchaînement qui ne nécessite que le dernier point connu pour déterminer le suivant.

Il s’agit là d’une distinction fondamentale en matière d’oculométrie. Les états liés aux mouvements oculaires, tels que les fixations, les saccades et les clignements, ne sont pas observés directement. Ils doivent au contraire être déduits à partir de signaux de regard bruyants, tels que la position, la vitesse et la stabilité du signal. Les modèles HMM offrent une méthode rigoureuse pour effectuer cette déduction en combinant les informations issues des observations actuelles avec des contraintes réalistes sur la manière dont les mouvements oculaires évoluent au fil du temps.
Modèles de Markov cachés pour la classification par suivi oculaire
Les modèles de Markov cachés constituent un modèle statistique destiné aux données de séries chronologiques, qui part du principe que chaque échantillon correspond à l’observation d’un état parmi un ensemble d’états possibles dont les probabilités sont inobservables, c’est-à-dire cachées.
Dans le cadre de la classification des fixations, on part du principe que chaque échantillon d’oculométrie correspond soit à un point de données recueilli lors d’une fixation, soit à une saccade, le profil de mouvement oculaire étant considéré comme un processus de Markov non observable. Le passage d’un état (la fixation) à l’autre (la saccade) est soumis à une certaine probabilité, qui est inconnue et doit être apprise par l’algorithme à partir des données enregistrées.
Comme ce calcul est effectué pour chaque participant individuellement, indépendamment des autres, l’algorithme peut s’adapter aux schémas de mouvements oculaires propres à chacun ainsi qu’aux niveaux de bruit dans les données.
Comment fonctionne le modèle de Markov caché :
Le modèle reçoit un certain nombre d’informations avant d’être confronté à un nouvel ensemble de données. Par exemple, on lui fournit des critères permettant de définir à quoi ressemblent une fixation et une saccade. Le modèle prend également en compte la probabilité de rester dans un état donné ou de le quitter.
Lorsqu’on lui fournit un nouvel ensemble de données, le modèle détermine, à partir de définitions et de probabilités connues, le paramètre de Markov (inconnu) à intégrer dans la classification. C’est cet aspect que le modèle adapte au cas par cas, ce qui lui permet de gérer les problèmes de bruit propres à chaque ensemble de données.
HMM par rapport à d’autres classificateurs dans iMotions
Dans iMotions, le classificateur par défaut pour les données d’oculométrie issues d’une webcam est le modèle de Markov caché.
Étude de validation n° 1 : comparaison entre HMM et I-VT pour un oculomètre à écran
Une étude de validation interne a montré une très grande cohérence entre la classification de la fixation établie par les modèles de Markov cachés et le classificateur de seuil de vitesse de référence, pour des données enregistrées à l’aide d’oculomètres à écran standard. Ce résultat a été observé de manière constante chez un total de 24 participants, avec des oculomètres à écran fonctionnant à des fréquences comprises entre 60 et 600 Hz.
La corrélation interclasses du nombre de fixations sur les zones d’intérêt (AOI) disposées en grille de 6 × 6 était supérieure à 0,99 pour toutes les études, ce qui témoigne d’une excellente fiabilité. L’analyse des matrices de confusion des deux classificateurs a révélé une excellente précision, supérieure à 0,94, et des valeurs Kappa supérieures à 0,8 pour tous les participants.
Étude de validation n° 2 : comparaison entre HMM et I-VT pour le suivi oculaire par webcam
Deux études internes, menées chacune auprès de cinq participants et enregistrées à l’aide de l’algorithme d’oculométrie basé sur une webcam d’iMotions, ont révélé un niveau moyen de cohérence entre les modèles de Markov cachés et le filtre basé sur la vitesse.
Le nombre de fixations relevées dans les zones d’intérêt (AOI) réparties sur une grille de 6 × 6 a montré une bonne fiabilité, avec des coefficients de corrélation interclasses de 0,87 ou plus ; cependant, la prédiction des données I-HMM à partir des données I-VT a affiché une précision d’au moins 0,73, avec des coefficients Kappa variant entre 0,3 et 0,8 selon les participants. L’examen visuel des données a révélé que les modèles de Markov cachés classaient mieux les fixations issues des données d’oculométrie recueillies par webcam.
Ce que le modèle HMM peut et ne peut pas faire
Il est important de noter que le filtre de fixation ou le classificateur ne peut pas corriger les données issues d’une webcam. Le manque de précision et d’exactitude lié à l’absence d’un système de suivi dédié ne sera corrigé par aucun filtre de classification de fixation. Cependant, le modèle HMM s’est révélé plus efficace pour extraire le signal réel du bruit au niveau individuel.
Conclusion
À mesure que l’oculométrie sort des conditions contrôlées des laboratoires pour s’étendre à des environnements plus naturels, évolutifs et à distance, la gestion du bruit au niveau individuel devient un enjeu central. Les classificateurs de fixation traditionnels, qui reposent sur des seuils fixes, fonctionnent bien lorsque la qualité du signal est élevée et constante, mais leurs performances diminuent à mesure que la variabilité augmente, ce qui est courant dans l’oculométrie par webcam.
Les modèles de Markov cachés offrent une approche plus souple et plus rigoureuse en considérant les mouvements oculaires comme un processus latent et séquentiel, et en modélisant explicitement l’incertitude. Plutôt que de forcer toutes les données à s’inscrire dans un cadre unique et rigide, les HMM adaptent la classification des fixations et des saccades au comportement individuel et aux caractéristiques du bruit. Bien qu’ils ne puissent pas surmonter les limites fondamentales du matériel des webcams, ils sont mieux adaptés pour séparer le signal significatif du bruit, ce qui permet une inférence plus fiable de l’attention visuelle dans le cadre de recherches en eye-tracking à distance et écologiquement valides.
Foire aux questions
1. Pourquoi la classification des fixations est-elle plus difficile avec l’oculométrie par webcam ?
L’oculométrie par webcam présente généralement une précision spatiale moindre et une plus grande variabilité que les oculomètres spécialisés. Les différences d’éclairage, les mouvements de la tête, la qualité de la caméra et le comportement des participants introduisent un bruit au niveau individuel, ce qui rend les classificateurs à seuil fixe plus enclins à confondre ce bruit avec des fixations ou des saccades.
2. En quoi les modèles de Markov cachés diffèrent-ils des classificateurs de fixations basés sur la vitesse ?
Les classificateurs basés sur la vitesse s’appuient sur des seuils fixes pour distinguer les fixations des saccades, en partant du principe que la qualité du signal est constante. Les modèles de Markov cachés, quant à eux, traitent les mouvements oculaires comme des états cachés générant des observations bruitées, ce qui permet de déduire la classification de manière probabiliste et de s’adapter aux variations au sein de chaque ensemble de données.
3. Les modèles de Markov cachés permettent-ils de corriger des données d’oculométrie de mauvaise qualité ?
Non. Les modèles HMM n’améliorent pas la précision ni l’exactitude intrinsèques de l’oculométrie par webcam. Ils ne peuvent pas récupérer des informations qui n’ont jamais été capturées. Leur atout réside dans leur capacité à mieux distinguer les signaux pertinents du bruit, compte tenu des limites des données.
4. Pourquoi les modèles HMM sont-ils particulièrement adaptés à l’analyse des mouvements oculaires au niveau individuel ?
Les modèles HMM sont entraînés et appliqués au niveau individuel, ce qui permet aux probabilités de transition et aux définitions d’états de s’adapter aux schémas de mouvements oculaires et aux caractéristiques de bruit propres à chaque participant. Cela les rend particulièrement utiles dans les études où les participants et les conditions d’enregistrement sont hétérogènes.
5. Dans quels cas les chercheurs devraient-ils privilégier les modèles de Markov cachés plutôt que les classificateurs traditionnels ?
Les modèles HMM sont particulièrement avantageux dans les études d’oculométrie menées à distance, en ligne ou en conditions réelles, où la qualité du signal varie d’un participant à l’autre. Dans les enregistrements de laboratoire de haute qualité réalisés avec du matériel dédié, les classificateurs traditionnels peuvent offrir des performances similaires, mais les modèles HMM garantissent une plus grande robustesse lorsque la cohérence ne peut être assurée.