データ品質の管理方法

Listen to this article

データ品質管理を徹底することで、人間行動研究から信頼性の高い結果を得る方法をご紹介します。明確なプロトコルの策定やパイロット研究の実施から、iMotionsに組み込まれた指標を用いたシグナルの検証に至るまで、適切な計画立案を行うことで、EEGからアイトラッキングに至るマルチモーダル実験から、実用的な正確なデータを確実に得ることができます。データの欠損やノイズ、いわゆる「不純な」データを未然に防ぐ方法を学び、iMotionsが研究のあらゆる段階をどのようにサポートし、信頼できる研究を実現するかをご覧ください。

データ品質とは何か、そしてなぜ重要なのか

データ品質の管理方法。人間行動の研究は、その性質上、非常に多くのデータを必要とします。データはあらゆる研究において中心的な役割を果たしており、マルチモーダル実験では、高サンプリングレートのさまざまなセンサーを用いて収集されるほか、参加観察による定性データや、参加者の記録から得られる音声・映像データと統合されることもあります。これほど大量のデータが蓄積されるため、iMotionsによる平均的な研究でも、数十ギガバイト、場合によっては数百ギガバイトものデータが容易に生成されるのは当然のことです。 

この規模のデータセットには固有の課題が伴うものの、研究者が留意すべき重要な点は、収集するデータの品質に関するものである。データ品質の「良質」とは何かを明確に定義する方法は存在しない。データ品質に関する文献では、データが「利用に適している」のであれば受け入れられるべきであるとし、文脈に応じたアプローチを提唱している(1,2)。

データの質は、あらゆる実験において不可欠な要素であり、正確かつ信頼性の高い結果を得るためには、綿密に管理する必要があります。なぜなら、不正確または不完全なデータは、誤った結論や信頼性の低い結果につながる恐れがあるからです。 

文脈が質を左右する

データサイエンスの世界には、「ガベージ・イン、ガベージ・アウト(ゴミを入れれば、ゴミが出る)」という古い格言があります。これは、扱うデータが「不良」であれば、分析結果も必然的に不良なものになってしまうという意味です。この言葉は印象的ですが、実際には非常に重要な側面を隠してしまう単純化でもあります。 まず第一に、「ゴミ」や「質の悪いデータ」とは具体的に何を指すのかを定義すべきです!その答えは決して自明ではなく、状況や用途によって大きく異なる可能性があります。 例えば、脳波活動を測定する脳波データ(EEG)を用いて、新たな誘発電位の存在を証明しようとする場合、そのデータ品質に対する基準は、表情を研究するために動画データを使用する場合よりもはるかに高くなるでしょう。前者の場合、許容される誤差の余地は極めて小さいのに対し、後者の場合であれば、動画フレームの一部が低品質であっても許容範囲内である可能性が高いのです。 

データ品質の管理方法
脳波(EEG)データは、最も入念に整理・管理すべきデータの一つです。そうしなければ、研究をやり直さなければならないリスクがあります。

重要なのは、完璧なデータ品質を目指すことではなく、取り組みたい効果の種類や研究課題に見合ったレベルのデータ品質を目指すことである(3)。この点を踏まえ、データ品質に関する検討は研究計画のプロセスの一部とすべきであり、少なくとも以下のデータ品質に関連する潜在的な課題を考慮に入れる必要がある:

  • データ不足:実験が順調に進み、予定通りのデータを問題なくすべて収集できたとしても、そのデータ量が計画通りに分析を行うのに十分かどうかを自問する必要があります。研究対象の効果の存在を立証または否定するためには、データモデリングの手法や統計手法によって必要なデータ量が異なることを念頭に置いておくことが重要です。 前述のEEGの例で言えば、少数の被験者に対して刺激を3~4回しか繰り返さない実験では、データ量が不十分になる可能性が極めて高いでしょう。
  • データの欠落:これは驚くほど多くの要因で発生する可能性があります。電極の接続が緩んでいる場合や、センサーのBluetooth接続が切断される場合などです。その結果、研究対象者1名以上からデータが欠落することになります。
  • データの誤り:例えば、センサーの設定が不適切であったり、データ収集チームとの意思疎通の行き違いにより電極が誤った位置に設置されたりした場合、収集したデータには系統的な誤差が含まれている可能性があります。
  • 「不純な」データ:これは非常に広範なカテゴリーです。不純なデータやノイズの多いデータは、様々な要因による過剰なアーチファクトやノイズによって引き起こされることがあり、その結果、収集された信号に含まれる情報量が減少します。

ここで重要なのは、実験の詳細や用途によって求められるデータ品質のレベルが決まるということであり、データ品質に対する適切な期待値を設定できるよう、実験を計画する際にはこれらを核心的なポイントとすべきです。

iMotionsでのデータ品質管理の方法

iMotionsソフトウェアは、データ収集プロセスを効率化し、最高水準のデータ品質を確保するためのさまざまなツールを提供しています。 

事前の計画は、データクレンジングの労力よりもはるかに価値がある!綿密な計画は、データ品質を向上させる最良の方法の一つだ。ベストプラクティスには以下が含まれる:

  • データ収集に関する明確な手順を定め、実験に関わる全員がそれを完全に理解するようにしてください。
  • 実際の実験に先立ち、パイロット試験を計画してください。パイロット試験では、参加者が実際の被験者ではないという点以外は、本実験と全く同じ手順で実施する必要があります。その目的は、データ収集計画が実際に機能すること、およびプロトコルに抜け漏れがないことを確認することにあります。 また、パイロット参加者のデータから第一印象を得ることができ、それによって実際の実験で得られるデータに対する期待値を設定することができます。パイロット段階で何らかの問題が明らかになった場合は、躊躇せずにプロトコルに解決策を盛り込み、新たなパイロット段階を実施して改善を繰り返してください。
  • 事前に、すべての機器が揃っており、正常に動作することを確認してください。実験の前日に最終的な動作確認を行うのは非常に良い方法です。テストが成功したら、機器はそのままで、ドアに鍵をかけておきましょう!直前の変更は、信頼性の高いデータを得る上での大敵です。
  • 参加者に適切な説明を行ってください。多くの場合、参加者は生体認証について何も知らないことを念頭に置いてください。実験の仕組みや、参加者が何をすべきかを確実に理解してもらうのは、あなたの役割です。オンライン調査を実施し、回答者パネルを利用して参加者を募集する場合は、要件に合った参加者を確保できるパネルサービスを選ぶことも検討する価値があります(4)。
  • 収集したデータはデータ品質指標を用いて確認してください。iMotionsでは、データの品質を検証するためのさまざまな方法を提供しています。例えば、EDAデータを使用する場合、当社の信号対雑音比(SNR)分析を利用することで、収集した信号が予想される周波数範囲にどの程度収まっているかを確認できます。その他のチェック機能では、収集したデータが予想されるサンプリングレートを満たしているかを確認します。 私たちは、すべてのユーザーが人間の行動に関する研究をより身近に感じられるよう、データ品質を確認する新たな方法を常に追加するよう努めています。 

データ収集が完了したら、通常、データ分析の最初のステップとして前処理の段階に進みます。これには、例えば、設定した閾値を下回る品質のデータを提供した参加者や刺激を除外することが含まれます。また、除去可能な特定の種類のノイズをデータから除去するなどのデータクレンジングも、この段階の一部となります。

データ品質の管理方法 - iMotionsによるサポート
iMotionsは皆様の研究活動を全面的にサポートいたします。また、当チームは皆様からのご質問にいつでもお答えいたします。

研究プロジェクトの遂行は、多大な時間とリソースを要する非常に困難な作業です。多大な労力を費やしたにもかかわらず、データの品質が低いために目的を果たせない結果となってしまうことは、関係者全員にとって非常に悔しい経験となるでしょう。そのため、適切な計画を立て、プロジェクトの全工程においてベストプラクティスを確実に遵守することが極めて重要です。 iMotionsは、データの潜在的な問題を特定するお手伝いをするソフトウェアと、いつでもご質問にお答えする体制が整ったチームを通じて、お客様の研究活動を全面的にサポートいたします。このアプローチにより、お客様の研究プロジェクトが成功することを確信しております。iMotionsがお客様をどのようにサポートしているか、またiMotionsのお客様としてどのようなメリットが得られるかについてご興味をお持ちの方は、以下のリンクからぜひお問い合わせください。 

参考文献

  1. Wang, R. Y., & Strong, D. M. (1996). 正確性を超えて:データ利用者にとってのデータ品質の意味. Journal of management information systems, 12(4), 5-33. リンク.
  2. Cai, L., & Zhu, Y. (2015). ビッグデータ時代におけるデータ品質とデータ品質評価の課題. Data Science Journal, 14. リンク.
  3. Haug, A., Zachariassen, F., & Van Liempd, D. (2011). データ品質の低さがもたらすコスト. Journal of Industrial Engineering and Management (JIEM), 4(2), 168-193. リンク.
  4. Eyal, P., David, R., Andrew, G., Zak, E., & Ekaterina, D. (2021). オンライン行動調査向けプラットフォームおよびパネルのデータ品質. Behavior Research Methods, 1-20. リンク.

Get Richer Data

About the author


See what is next in human behavior research

Follow our newsletter to get the latest insights and events send to your inbox.