iMotions社のウェブカメラ型アイトラッキングシステム「WebET 3.0」が、世界中の参加者を対象に、実際のオンライン環境下でどのように大規模な検証試験を受けたのかをご紹介します。
Table of Contents
当社のすべてのリモートデータ収集機能の全面的なアップデートに加え、初の完全ブラウザベースのヒューマンインサイトプラットフォーム「iMotions Online」のリリースを控え、ウェブカメラベースのアイトラッキングアルゴリズム「WebET 3.0」の最新版をリリースいたします。これに伴い、iMotions史上最大規模となる検証研究、ひいてはウェブカメラベースのアイトラッキング分野においても最大規模となる検証研究を実施し、本アルゴリズムの性能を検証することにしました。
この記事では、検証研究の結果について解説し、人口統計学的属性、照明条件、接続の問題、および関心領域(AOI)内における精度を検証します。この記事をお読みいただければ、当社の独自開発のウェブカメラ用アイトラッキングアルゴリズムやiMotions Onlineにご関心をお持ちの方々は、本ソフトウェアの精度についてより深くご理解いただけるはずです。
引用および出典資料に関する注記。
この記事の一部は、こちらからご覧いただけるウェブカメラによる視線追跡検証レポートからの抜粋であり、その他の部分は、こちらからダウンロードできるウェブカメラによる視線追跡に関するホワイトペーパーからの抜粋です。

ウェブカメラを利用した視線追跡とは何ですか?
ウェブカメラを用いたアイトラッキングは、一般的なウェブカメラを使用して眼球の動きや注視パターンを追跡・分析する技術です。コンピュータビジョンアルゴリズムを活用することで、コスト効率が高く、手軽に利用できるアイトラッキング手法を提供し、専用のハードウェアを必要とせずに、神経科学、研究、ゲーム、および人間とコンピュータの相互作用などの分野で活用されています。
なぜアルゴリズムの検証を常に行う必要があるのでしょうか?
iMotionsの歴史上最大規模かつ最も多様な対象者を対象とした検証研究を実施することにした理由は、アルゴリズムの信頼性、有効性、そして倫理的な利用を確保する上で、その検証が極めて重要であるためです。
これらの研究は、アルゴリズムの性能を評価し、偏りや欠点を特定し、その意図された機能を検証する上で極めて重要な役割を果たしています。アルゴリズムを厳格な検証プロセスにかけることで、さまざまなデータセットやシナリオにわたって、その精度、堅牢性、および汎化能力を評価することができます。
さらに、検証研究は、アルゴリズムのバイアスや差別的な結果といった予期せぬ影響を明らかにするのに役立ち、こうした問題に対処し、是正することを可能にします。最終的に、検証研究の実施は、アルゴリズムシステムに対する信頼を醸成し、透明性を高め、責任ある導入を促進することで、ユーザーやステークホルダー間の信頼を築き、潜在的なリスクや悪影響を最小限に抑えることにつながります。
アルゴリズム、特にデータ収集用に作成されたアルゴリズムを検証すべきもう一つの重要な理由は、それがホワイトペーパーの知見に新たな視点をもたらす可能性があるからです。 ホワイトペーパーでは、このケースではウェブカメラを用いたアイトラッキングにどのような要因が影響し得るかを詳細に評価していますが、検証研究のような大規模な調査を行うことで、研究者にとって代表的なサンプルがどのようなものになるか、またホワイトペーパーで特定された要因のうち、大規模なサンプルではどの要因が希薄化し、どの要因がより顕著になるかが明らかになります。
方法論、データ収集、および結果
私たちは、世界中のユーザーにとって極めて重要であると認識している5つの疑問に答え、ウェブカメラを活用したアイトラッキング機能を通じてユーザーがどのような価値を得られるかを明らかにすることを目指しました。このセクションでは、調査の進め方、データの収集方法、そして収集したデータから得られた知見について解説します。
研究の目的と方法論
私たちが可能な限り大規模な検証研究を行うことに固執したのには、いくつかの理由がありました。もちろん最も重要なのは、ウェブカメラによるアイトラッキングの精度を確認することでしたが、それだけではありませんでした。
私たちは、アルゴリズムのバイアス(特に人間中心の手法ではよくある落とし穴)を排除し、世界中で利用可能なアルゴリズム、ひいてはプラットフォームを確実にリリースしたいと考えました。 そのため、私たちは、人種、性別、年齢、さらには眼鏡の着用やひげの有無といった要素を含め、真にグローバルかつ代表的な参加者グループを対象にアルゴリズムの検証を行いました。これらはすべて、多くのWebベースのアイトラッキングアルゴリズムにおいて、データ収集プロセスに支障をきたす可能性のある要因です。
遠隔データ収集プロセス
合計35日間の実施期間を経て本調査を終了した時点で、255名の参加者からデータを収集していました。当社のクライアントの大多数がオンラインで参加者を募集する際に行っている手法を模倣するため、自社の外部メーリングリストや地域をターゲットにしたメール、および有料パネルプロバイダーであるProlificを通じてデータを収集しました。
実際に調査への参加を促す過程を通じて、データ収集プロセスについて興味深い知見が得られました。これは、遠隔でのデータ収集を計画している方々にとって参考になるかもしれません。まず第一に、調査への回答を参加者の善意に委ねると、大多数の参加者が調査を完了する前に途中で離脱してしまうことがわかりました。
月刊ニュースレターを通じて第1弾の調査参加案内を配信したところ、調査を中断する割合が参加する割合の2倍に達しました。その後、アジアおよび中央アジアの特定の地域層を対象にメールでのアプローチを試みたところ、効果は向上しましたが、それでもなお中断率は高いままでした。最終的に、有料パネルプロバイダーのProlificを利用することに決め、その結果、世界中のあらゆる層を網羅するという目標を達成することができました。

したがって、このプロセスの結果は、私たちにとって特に目新しいものではありませんでした。クライアントからのフィードバックによれば、調査の中途離脱や、それに伴う過剰な被験者募集は、遠隔データ収集において避けられない現実であり、受け入れて準備しておく必要があるとのことでした。意外だったのは、その離脱率がこれほど高かったという点です。
私たちは、ニュースレターに登録してくれた人々は、この分野への関心から調査にも進んで参加してくれるだろうと考えていました。しかし実際には、調査にやりがいを感じられなかったり、何らかの形で報われなかったりすれば、参加者が継続する動機は生まれません。だからこそ、参加者に報酬を支払ったところ、必要なデータをすべて収集することができたのです。
検証試験の結果
このセクションでは、前述した検証研究の質問項目に関する結果について解説します。本記事では主な結果のみを掲載します。報告書全文をご覧になりたい方は、こちらからダウンロードしてください。
質問1 – WebET 3.0で収集されたデータセットの精度分布はどのようなものですか?
前述の通り、アイトラッキングの検証は、完全にとは言わないまでも、主に精度に関するものです。精度検証の観点から、我々は許容可能なデータの上限として、精度(DVA)5.5度という厳格な基準値を設定することにしました。 5.5 DVA未満のデータはすべて「正確なデータ」とみなされました。当社のホワイトペーパーに基づき、ウェブカメラを用いたアイトラッキングをご利用のすべてのお客様に対して、これが一般的な推奨値となります。これは、参加者の大多数がこのカットオフ値を大幅に下回ると予想されるためです。
アイトラッキングにおいて、DVAを低く保つことがなぜ重要なのでしょうか?
アイトラッキングにおいて、精度は「DVA」(視角度)で測定されます。これは視野内の2点間の角度距離を指します。アイトラッキングにおいてDVAが低いということは、わずかな眼球の動きであっても、アイトラッキングシステムが視線の方向を高い精度で正確に特定できることを意味します。 画面上では一度に1か所しか見ることができませんが、その位置を特定するのはアイトラッカーの役割です。したがって、特定できる範囲が狭いほど性能が高く、それが正確なアイトラッカーの証となります。
収集された255名の参加者のうち、235名(92%)が5.5 DVAの閾値を下回っていました。さらに、70%にあたる179名の参加者が3.0 DVAを下回っていました。この精度レベルは非常に満足のいくものであり、iMotionsのウェブカメラによるアイトラッキング機能が業界の最先端技術であることを確固たるものとしています。

精度指標に関するコメント。
アイトラッキングの分野はすでに確立されており、100年以上にわたって発展を遂げてきましたが、ウェブカメラを用いたアイトラッキングの分野はごく新しいものであることに留意する必要があります。つまり、さまざまなソフトウェアを開発している各社間で、測定指標の報告方法に関する確固たる合意がまだ形成されていないということです。その結果、精度の表示方法には多くのばらつきがあり、自身のニーズに最適なソリューションを見極めようとする際に、大きな混乱を招く恐れがあります。
iMotionsでは、「従来の」アイトラッキング(画面ベースおよびメガネ型)の分野で確固たる基盤を築いてきました。そのため、精度の指標として、業界で合意された「視角度(DVA)」を採用することを明確に決定しました。
ただし、これにはいくつかの注意点があります。オンライン調査を実施する場合、参加者が調査の指示通りに回答しているかどうかを管理する手段がありません。 参加者が画面からどのくらいの距離にいるかを追跡する手段がないため、データを確実に収集するためには、ほとんどのシナリオに当てはまる距離について仮定を立てる必要があります。これにより、必然的に未知の誤差が生じることになります。そのため、本検証調査では複数の角度に関するデータも報告しており、十分な情報に基づいた判断を下せるようにしています。
質問2 – 個人変数や人口統計学的変数は精度に影響を与えるか?
この検証研究のもう一つの重要な目的は、アルゴリズムの精度が、主要な人口統計学的変数のリスト全体において同等に有効であるかどうかを確認することでした。具体的には、人種、性別、年齢、瞳の色、ひげの有無、眼鏡の着用有無などの変数です。
これらすべてのパラメータにおいて高い精度を確保することは極めて重要です。なぜなら、それがウェブカメラベースのアイトラッキングアルゴリズムを、肌の色、瞳の色、年齢、性別を問わず、世界中で活用できるかどうかを左右するからです。また、これらのパラメータは、被験者集団において常に前述の変数のいくつかが混在する環境で作業することが多いユーザーにとっても極めて重要です。

データ分析を終えた結果、我々のアルゴリズムが人口統計学的変数にかかわらず、その精度を維持していることが明らかになった。要するに、本研究のような大規模なサンプルを用いた調査では、参加者の自己申告による人種、瞳の色、ひげの有無、性別、年齢といった要因による有意な差異は見られなかった。
調査の精度に影響を与えた唯一の要因は、参加者が眼鏡をかけていたかどうかでした。これは、眼鏡の厚みや、データ収集中に周囲の光や画面の光が眼鏡に反射することで、虹彩の正確な識別を妨げる可能性があったためと考えられます。したがって、ウェブカメラを用いたアイトラッキングを行う際には、参加者が眼鏡をかけているかどうかを考慮すべき要素となるでしょう。

質問3 – 照明は精度にどの程度の影響を与えますか?
リモートデータ収集における課題の一つは、管理された実験室環境のように、参加者の直近の環境を制御できない点にあります。WebET 3.0が統合されているiMotions Onlineを通じて配信されるすべての調査には、座り方、コンピューターへの向き、および参加者が座っている部屋の照明の調整方法に関する事前説明が付属しています。
たとえ指示が詳細かつ簡潔で、分かりやすいものであったとしても、実際にはオンラインで実施された調査を完全に管理したり、やり直したりすることはできず、得られた結果に基づいて対応せざるを得ない場合がほとんどです。最悪の場合、参加者が不適切な環境下で調査を行ったと判断された場合、データをすべて削除しなければならない可能性もあります。
私たちにとって重要なのは、オンライン調査を作成し、参加者に配布する際に研究者やデータ収集者が直面する不確実性のいくつかを、当社のアルゴリズムが解消できるかどうかを検証することでした。分析の結果、自己申告による照明条件が異なる環境下で回答した参加者間において、回答の正確性に有意な差は見られませんでした。
ただし、これは「照明が重要ではない」という意味ではないことに留意する必要があります。照明や室内の環境に関するデータは、すべて自己申告によるものでした。つまり、実際の照明状況については、間接的な情報しか得られていないことになります。さらに、調査中に屋外にいたと報告した参加者は1名のみであり、このデータは分析から除外されました。そのため、屋内と屋外の照明条件がアイトラッキングの精度に影響を与えるかどうかについては、断定できません。
質問4 – 精度は時間の経過とともにどのように変化しますか?
オンラインでデータを収集する際のもう一つの不確定要素は、参加者が調査に回答する実際のプロセスであり、これには「遅延」の影響が生じる可能性があります。ここでいう「遅延」とは、調査に研究者が想定していたよりも時間がかかってしまうあらゆる技術的な要因を指します。私たちは、アンケート、GIF、画像、動画で構成され、所要時間が10分未満となるタスクを設計しました。調査の所要時間や刺激の組み合わせは、現在iMotionsのクライアントの多くが採用している標準的なものです。
データを詳しく分析したところ、発生した遅延は参加者側のインターネット接続に起因するものであるようです。特に、12秒または19秒の動画を視聴するのに25秒以上かかった参加者(予定より5秒長くかかった場合)において顕著でした。確かに一部の参加者にはインターネットの遅延問題が見られましたが、これらの問題は研究の精度に重大な影響を与えるものではありませんでした。

グローバルな研究を実施する際には、遅延の問題が生じることは想定内ですが、人的要因を念頭に置くことが重要です。どのような問題であれ、研究体験に影響を及ぼす恐れがあり、参加者の遵守率を低下させたり、落ち着きのなさや移動、あるいは研究の中途離脱につながる可能性があります。
質問5 – その精度は、AOIの使用においてどのように反映されるのでしょうか?
測定精度において不可欠な要素の一つは、画面上の特定の箇所への注視を検知する能力です。これを再現するために、画面上の9か所にグリッド状に配置した猫のGIF画像を使用しました。各実験で個々のGIF画像が画面に表示されることで、注視の精度を評価することができました。
本研究のデータから、視線の固定が検出できる参加者の数は画面の中央で最も多く、画面の下隅に向かって減少することが判明した。同様に、研究の進行に伴い、視線を特定できず、したがって分類できなかった参加者の割合が増加した。
これはおそらく、参加者がユーザー体験に不満を感じている場合、研究の進行に伴い参加者の遵守度が低下するためです。そのため、研究の中途放棄や、完了した研究における正確性の問題を避けるために、研究期間はできるだけ短くすることをお勧めします。
結論
収集したデータと分析結果には、大変満足しています。私たちは、総合的な精度において業界水準を上回り、かつ人口統計学的要因の影響を受けないアルゴリズムを開発しました。これは、iMotionsのリモートデータ収集機能を利用するユーザーが、人口統計学的背景を問わず一貫した精度で動作するため、代表的なデータが十分に得られないというリスクを心配することなく、世界中の参加者に安心してプラットフォームを適用できることを証明しています。