選択バイアスとは何か?(そしてそれを克服する方法)

研究が始まる前から、選択バイアスがどのようにして知らぬ間に研究結果を歪めてしまうのかを探ります。第二次世界大戦中のアブラハム・ウォルドによる航空機分析の事例を通じて、目に見えるデータのみに依存することがいかに誤解を招く結論につながり得るかを解説します。サンプリングバイアス、事前スクリーニング効果、参加者の脱落といった選択バイアスの主な種類と、それらが実際の実験結果にどのような影響を与えるかを学びます。バイアスを軽減し、調査結果の信頼性と代表性を高めるための実践的な手法をご紹介します。

優れた研究は、最初の実験が始まるずっと前から始まっている。

第二次世界大戦中、アブラハム・ウォルドという統計学者が、自身の専門分野からは少々意外な任務を任された。それは、米軍の航空機の生存率を向上させるというものであった。ウォルドは聡明な人物であり、これまでに行われた分析を精査した。以前の調査担当者たちは、航空機が受けた損傷や破壊状況を目の当たりにし、防護力を高めるために、最も損傷の激しい箇所に装甲を追加するよう提言していた。特定の部位が被弾して破損していたため、そこに新たな装甲が追加されていたのである。

しかし、生存率は向上しなかった。むしろ、新しい装甲が重量を増やし、機体の機動性を低下させたため、生存率は低下し、機体は依然として同じ箇所に損傷を受けた状態で帰還していた。 ウォルドはこうした状況をすべて観察し、空軍に対し、損傷の痕跡が全くない部分、つまり無傷の箇所にのみ装甲を追加するよう助言した。彼は、生存率に関する唯一のデータは生存した機体そのものから得られるものであり、損傷を負って帰還した機体は、致命傷とならない攻撃がどこに与えられるかを正確に示していると論じた。

その助言を取り入れたことで生存率は向上し、その後の展開は、まあ、ご存知の通りです。これは横断的思考の好例であると同時に、データ収集における極めて重要な問題、すなわち「選択バイアス」についても示唆しています。

選択バイアスとは、被験者の集団や得られたデータが対象集団を適切に代表していない場合に生じる実験誤差のことである。

選択バイアスにはいくつかの種類があり、その多くは結果が発表される前に防ぐことができます。正確さを期すために、必ずしも全軍を動員するような大掛かりな取り組みが必要とは限りませんが、それでも質の高い研究を行う上では不可欠なことです。

いくつかの例を見ていきながら、最初のデータポイントが収集される前に、このバイアスが生じるのを防ぐために何ができるのかを探ってみましょう。

サンプリングバイアス

サンプリングバイアスにはいくつかの側面がありますが、それらはすべて、結局のところ、調査対象の母集団からは、結論を導き出すために必要なデータが得られないことを意味します。

実務において、この現象がよく見られる例として「自己選別」が挙げられます。特定のグループの人々は、自己選別的な特性によって、ある特定の研究への参加に惹かれることがあります。刺激を求める傾向やスリルを求める傾向のある個人は、特定の研究に参加する可能性が高いことが知られており、もしその研究がそうした性格特性を調査している場合(そしておそらく他の研究においても)、データに偏りが生じる可能性があります。

選択バイアス

このバイアスを回避する最善の方法は、自己選別されていない標本からデータを抽出することです。もちろん、実験上の制約(特にボランティアを必要とする研究の場合)により、これが常に可能とは限りませんが、異なる性格タイプを検証する際には、このバイアスが生じる可能性を避けるよう特に配慮すべきです。実験の対象が心理生理学的測定など、より一定した要素である場合は、このバイアスの影響がそれほど深刻になる可能性は低いと考えられます。

事前審査

実験者が陥りやすいもう一つの落とし穴は、参加者を事前に選別することです。これには正当な理由がある場合もあります(例えば、適切な対照群を確保するためなど)が、一方で、対象集団の構成を歪めてしまう恐れもあります。その結果、結果に影響を与える共通の特徴を持つ参加者だけが選ばれてしまう可能性があります。

これは結果における自己選別と似ていますが、研究者によって主導されるものです(通常は善意に基づいています)。これを回避するためには、参加者の選別を行う必要がある二重盲検実験が必要となる場合があります。つまり、研究の目的とは独立した人物が選択を行うことになります(これにより、実験者バイアスも回避されます)。

参加者の離脱

実験の進行中に、実験設定がサンプルに影響を与える可能性もあります。もし参加者が偏った形で脱落した場合――つまり、脱落に非ランダムな理由がある場合――、残った参加者は元のサンプル集団(ましてや母集団全体)を代表するとは考えにくいでしょう。

この脱落率は「参加者の脱落」と呼ばれ、継続的な介入と複数の測定が行われる調査において最もよく見られる現象です。例えば、臨床試験では、薬が効果を示さない(あるいは被験者に体調不良を引き起こす)場合、多くの参加者が研究から脱落することがあります。このように、実験の終了時には、残った(あるいは前述のウォルドの事例で言えば「生き残った」)参加者だけが調査対象となります。

したがって、研究から脱落した参加者については、脱落後に追跡調査を行うことが重要である。そうすることで、その脱落が他の参加者との共通要因によるものなのか、それとも実験とは無関係な理由によるものなのかを明らかにすることができる。

秘密の/機密の

参加者が少なすぎると、導き出せる結論の信頼性が低下するのは(そもそも結論が導き出せるとしても)当然のことだが、多くの研究では依然として標本群の抽出範囲が不十分であるという問題を抱えている。

したがって、十分な数の参加者を確保し、事前に選定しておくことが極めて重要です。これは事前に算出できるため、それに応じて研究計画を立てることができます。もし脱落者によって参加者が大幅に減ってしまった場合、研究をやり直す必要が生じる可能性があります。

さらに留意すべき点は、たとえ十分な数の参加者が集まったとしても、彼らが正しく分類され、適切な実験群に割り当てられていることを確認する必要があるということです。バイリンガルとモノリンガルを対象とした研究を行う場合、もし一部の参加者が、割り当てられたグループの想定よりも1つ多い(あるいは少ない)言語を話していることが判明すれば、当然ながら研究の進行に支障をきたすことになるでしょう。

これは、群の定義が不明確になりがちなさまざまな精神障害を扱う研究において、特に重要な点である。例えば、不安障害に関する研究では、全般性不安障害と診断された参加者とパニック発作に苦しむ参加者を区別する必要があり、さらには参加者に臨床的ではない症状や前駆症状が見られる場合でも、その区別が必要となる場合がある。

したがって、研究を開始する前に、サンプルが明確に定義され、十分に特徴付けられていることを確認することで、得られた知見が対象集団にとって関連性のあるものとなることが保証される。

サクランボ狩り、データの掘り起こし

選択バイアスの大部分はデータ収集前に生じるものですが、事後に行われるいくつかの段階においても、誤った歪みが生じる可能性があります。これらの段階は、標本そのものではなく、データの選定方法に関連するものです。

都合の良いデータだけを選ぶ

チェリーピッキングは、パイを作るには間違いなく良い方法ですが、実験者が期待したり望んだりしている結果に合致するデータだけを選りすぐる行為を指す言葉でもあります。

これは、研究者の不手際や、あるいは単なる願望的思考が原因で生じることがある。しかし、いずれにせよ、最終的には不適切な科学的な結果につながってしまう。研究者はデータの内容に対して常に偏見を持たず、自身の解釈の仕方を常に問い直す必要がある。また、複数の人(できれば独立した立場の人)が研究データを検証することも有効だろう。

前述と同様、データ・ドレッジング(データ漁り、あるいはpハックとも呼ばれる)とは、実験終了後に有意なデータのみを取り上げ、その理由について事後的に結論をでっち上げる行為を指す。これは通常、調査対象となる変数が多数ある場合に生じやすく、偶然の要因による結果が有意であるかのように見えてしまうことがある。

データセットから有意な変数のみを取り出すことは、本質的に、同じ実験を何度も繰り返し、有意な差が認められた結果だけを公表することと同じである。

実験の再現性は、データドリリングの可能性がある場合でも維持されるべき、科学における特に重要な原則である。十分な回数の再現実験を行うことで、その研究が正しいか誤りであるかが明らかになる。

トリック・スプリット

最後に、実験前に参加者を誤って分類してしまうのと同様に、実験後にデータを誤って分類してしまう可能性もあります。データの誤った分割とは、誤った仮定に基づいてデータの一部を切り分けたり、あるいは使用しなかったりすることです。

これは明らかに不正なデータ操作の域に入りますが、意図的な不正行為ではなく、技術的なエラーが原因で発生することもあります。

その主張を裏付けてください

上記の手順に加え、iMotionsを用いたデータ収集には、特にデータ収集が完了した後において、選択バイアスの落とし穴を暗黙のうちに防ぐいくつかの方法があります。

複数の生体センサーと同様に、複数のデータソースを活用することで、各記録が互いに一致しているかどうかを確認し、データを検証する別の手段を得ることができます。 例えば、GSRとECGの両方を使用することで、生理的覚醒のレベルを確認するのに役立ちます。また、表情分析はアンケート調査を補完する役割を果たします(アンケートでは反対の回答をしているにもかかわらず、表情が不機嫌に見える場合、そのデータには注意が必要である可能性があります)。こうした測定手法を用いることで、収集されたデータに対する信頼性を高めることができます。

さらに、記録されたデータをリアルタイムで、視覚的かつ直感的な形式で確認できることで、数字だけを見て誤解してしまうリスクを減らすことができます。延々と続く数字が並ぶスプレッドシートでは、混乱を招く可能性も同様に高くなりますが、実際のデータを分かりやすい形式で表示することで、調査の明確さが確保されます。

秘密にしないことで、あらゆる問題を解決する方法

iMotionsを活用することで、データの選択バイアスを防ぐのに大いに役立ちますが、参加者の選定は、何よりも優れた実験設計にかかっています。

サンプリングバイアスの発生を是正しようとする試みが、必ずしも常に完全に実現可能とは限らないものの、そのバイアスを食い止めるためにできる最も重要なことが一つある。それは、結果を明確に示すことだ。調査結果を述べる際には、その結果が誰に当てはまるのかについて、透明性を保つことが重要である。

参加者バイアスに関する記事では、実験の結果は一見正しいように見えても実際にはバイアスが働いているため、実験の内的妥当性に問題が生じ得ることを説明しました。一方、選択バイアスの場合、問題となるのはむしろ外的妥当性であると考えられます。つまり、結果は一般集団にも適用可能に見えるものの、実際にはバイアスが働いており、そのような一般化を行うには妥当性を欠いているのです。

したがって、実験の信頼性を確保するためには、被験者に関する情報、データ分析、そしてそこから導き出された結論を、可能な限り公開し、明確にする必要があります。

研究におけるバイアスについてさらに詳しく知りたい方、あるいはiMotionsが皆様の研究にどのように役立つかについて知りたい方は、お気軽にお問い合わせください。

研究における選択バイアスを回避する方法について、お読みいただきありがとうございました。優れた研究を行うためのヒントやコツをもっと知りたい方は、以下の実験計画法に関する無料ポケットガイドをご覧ください。