当社の実験計画法に関する包括的なマニュアルでは、研究に最適な実験設計を立てる際に、よくある間違いや落とし穴を回避するための指針を提供しています。

実験手法の概要

人間は実に好奇心旺盛な生き物です。私たちは新たな領域を開拓し、製品やサービスを改良し、物資の生産や輸送をより迅速かつ安全に行う方法を見出し、世界的な疾病の謎を解き明かしています。こうした活動のすべては、適切な問いを立て、適切な場所で答えを探し、適切な判断を下すことによって導かれています。学術研究や産業研究は、私たち自身や周囲の世界に対する知識と洞察を求めるこの探求を、専門的なものへと発展させてきました。

世界中の研究機関では、毎日、実験を通じて、シナプスやニューロンの細胞レベルから、惑星や太陽系といった巨視的なレベルに至るまで、宇宙の仕組みを解明しようとしています。端的に言えば、実験とは、疑問に答え、因果関係を特定し、予測因子や結果を明らかにするための専門的な手法です。こうした知見は、物事がなぜ、どのようにしてそのようになっているのかを理解する助けとなり、最終的には、良いものをさらに良くし、悪いものを克服することで、世界を変えるために活用されるのです。

注：この記事は、当社の『実験計画ガイド』からの抜粋です。以下のリンクから無料版をダウンロードして、実験計画の世界についてさらに深く理解を深めてください。

科学研究の黎明期とは対照的に、現代の実験は、科学者が仮説を無作為に検証し、たまたま適切な場所にいて適切なタイミングで結果を観察できたという単なる幸運の産物ではない。

今日の科学的知見は、綿密な考察と実験計画、適切なデータ収集、そして妥当な結論の導き出しによって得られたものです。

実験計画法の例

研究者たちは、実験を通じて世界について新たな知見を得たり、疑問に答えたり、理論的な仮定を検証したりする。

人間の認知行動研究における典型的な研究課題の例としては、次のようなものがある：

• 感覚刺激は人間の注意力にどのような影響を与えるのでしょうか？例えば、動くドットのパターンや音、あるいは電気刺激は、私たちの世界に対する認識をどのように変えるのでしょうか？

• 情報を処理する際、人間の生理機能にはどのような変化が生じるのでしょうか。例えば、正しい情報や誤った情報を思い出す際、心拍数や皮膚電気反応はどのように変化するのでしょうか。

• 仮想現実（VR）と実際の物理的環境では、人間の行動にどのような違いが生じるのでしょうか？人間は、VRに比べて現実世界の方が学習速度が速いのでしょうか？

• ストレスは、職場における同僚や機械とのやり取りにどのような影響を与えるのでしょうか？

• 製品のパッケージは、買い物客のストレスレベルにどのような影響を与えるのでしょうか？新しいパッケージは直感的に開けられるものでしょうか。もしそうでない場合、それは消費者の行動にどのような影響を与えるのでしょうか？

• 新しいテレビCMは、感情表現やブランド記憶にどのような影響を与えるのでしょうか？CMを見た後の購買決定に、性別は影響するのでしょうか？

• ウェブサイトは、皮膚電気反応、心電図、および表情の観点から、ユーザーのストレスレベルにどのような影響を与えるのでしょうか？

• 町内のどの交差点が、自転車利用者にとって最もストレスの原因となっていますか？

• 大統領選挙の演説において、有権者の判断を左右する要素は何でしょうか？

ご覧の通り、研究課題は多少漠然としたものになりがちです。実験は、こうした課題をより標準化された枠組みの中で明確にするためのものです。そのためには、研究課題をより検証しやすい形に絞り込むために、いくつかの手順を踏む必要があります：

ステップ1：仮説を立てる

まず、一般的な研究課題を、検証可能な仮説、あるいは複数の仮説に細分化する。仮説とは、原因と結果に関する明確な記述であり、特定の要因を操作した際にどのような結果が生じるかを扱うものである：

仮説は、1つ以上の独立変数と1つ以上の従属変数との関係を記述するものである：

•独立変数

独立変数（IV）は、実験者によって戦略的に変更、あるいは操作される。独立変数は「因子」とも呼ばれる。

• 従属変数（DV）

従属変数（DV）は実験者によって測定される。従属変数が1つの実験は単変量実験と呼ばれ、2つ以上の従属変数を持つ実験は多変量実験と呼ばれる。

「ストレスは他者との関わり方にどのような影響を与えるのか」という一般的な研究課題は、ストレス（独立変数）が他者との関わり方（従属変数）にどのように影響するかについて、次のような仮説につながる可能性がある：

1) 「1時間に100通以上の受信メールに返信しなければならないため、同僚との口頭でのやり取りが減ってしまう。」

独立変数：1時間あたりのメール
数　従属変数：1時間あたりの同僚との口頭でのやり取りの数

2) 「1晩に8時間以上睡眠をとると、同僚
との気軽なスポーツ活動が増える。」

独立変数：1晩あたりの睡眠
時間　従属変数：同僚とのスポーツの集まりの週あたりの回数

3) 「夕方に定期的に運動を行うと、ビジネスミーティングで他者と話す際に笑顔
を見せる回数が増える。」

独立変数：週あたりの夜のスポーツ
活動回数　従属変数：他者と会話中の笑顔の回数

仮説は、原因と結果の間の観察可能な関係を明示することで、研究課題をより明確にする。また、仮説は、どのような刺激を用いるか、被験者にどのような刺激を与えるかを決定する。

刺激とは、単に画像や音だけではありません。それ以外にも、アンケート、ウェブサイト、動画、話し言葉や他者との会話、運転中の視覚的・固有受容感覚的な情報など、さまざまなものが刺激となります。刺激については、以下でさらに詳しく説明します。

ステップ2：サンプルグループ

サンプルグループを定義する

仮説を定めた後は、実験の対象となる回答者グループの特性を明確にする必要があります。このステップは、実験データの収集結果に影響を与える可能性のある副次的な要因を排除するために不可欠です。年齢、性別、学歴、収入、婚姻状況、職業などの人口統計学的特性が、回答者全体を通じて一貫していることを確認してください。健康状態や特定のライフイベントへの曝露といった個人の特性も、実験結果に影響を与える可能性があるため考慮すべきです。例えば、子供を持つ母親は、子供を持たない女性とは異なる反応をベビー玩具のテレビCMに対して示す可能性があります。また、PTSDに苦しむ兵士は、ソフトウェア開発者とは異なる反応をストレスを誘発する刺激に対して示す可能性があります。

ステップ3：被験者をグループに割り当てる

このステップでは、被験者をさまざまな実験条件に無作為に割り当てます。例えば、職場でのストレスに関する研究では、2つの実験群を設定し、グループ1には1時間に10通のメールを、グループ2には1時間に100通のメールを送信するようにします。その後、次の6時間以内に、2つのグループ間で他者との社会的交流にどのような違いが生じるかを分析することができます。理想的には、実験グループへの割り当てはランダムに行われ、すべての回答者が利用可能な実験グループのいずれかに割り当てられる確率が均等になるようにします。特定の回答者を特定のグループに割り当てるような偏りがあってはなりません。

ステップ4：サンプリング周波数を決定する。

回答者からどのくらいの頻度で情報を収集したいですか？臨床試験では通常、数ヶ月から数年かけて、月に1回患者の健康状態を測定します。ユーザビリティ調査では、セッションの最後に回答者に、口頭またはアンケートを通じていくつかの質問を一度だけ行うことがあります。

ただし、回答者が特定の課題に取り組んでいる間に、EEG、EMG、ECG、GSR、その他の生体センサーから認知行動データを収集する場合、1秒あたり数十から数百ものデータポイントが収集されます。とはいえ、こうした1秒未満のサンプルはすべて、特定の認知状態や感情状態を反映する総合スコアを算出するために使用される可能性があります。特定の認知行動指標を収集するのに最適なセンサーについては、このガイドの後半で取り上げます。

ステップ5：実験を行い、データを収集する。

このステップでは、選択した方法に従って実験パラダイムを実行します。データ収集中に発生した重要な事象については、必ず観察・監視し、報告してください。実験を実施する前に、パイロットテストを行い、データ収集中に発生しうる問題（刺激の長さが不適切、無作為化されていない、最適でないなど）を排除してください。

ぜひご覧ください：実験をスムーズに進めるための7つのヒントとコツ

ステップ6：データの前処理を行い、指標を分析する。

人間の認知行動研究において、生データには自己報告や生体センサーからのデータが含まれることがある。もちろん、フォーカスグループやインタビューなどの実験セッションの映像記録も生データの一種であり、コーディング手法を用いて分析する必要があります。生データや測定値を分析するための統計手法は多岐にわたるため、本ガイドではこのステップについては扱いません。ただし、ここで一つ重要な点を挙げておきます。データ分析に用いる具体的な統計手法の選択は、常に当初の仮説と収集されたデータに基づいて行われるべきです。

もちろん、すべての実験において、これらすべての段階を厳密に規定する必要があるわけではありません。研究者であるあなたが特定の要因を制御できない場合や、特定の回答者集団にアクセスできない場合もあります。原因と結果の関係に対してどの程度制御できるかによって、実験は以下の種類に分類されます：

実験計画法の種類

1. 実験室での実験

実験について気軽に話すとき、白衣を着た研究者が片面鏡越しに被験者を観察し、予測のつかない機械の前でキー入力タスクを行う人間の被験者のパフォーマンスや行動を細かく記録するような、実験室での実験を思い浮かべるかもしれません。実際、人間の認知行動研究はまさにこのようにして始まったのです（ミルグラム実験を参照）。

幸いなことに、無菌的な実験室環境の時代はとっくに過ぎ去り、今ではお気に入りのセーターを着たまま研究を進めることができます。しかし、依然として重要な点は変わりません。それは、影響を及ぼしうるあらゆる要因や条件を制御できるということです。例えば、実験室での実験では、特定の被験者グループを選定して異なる実験条件に割り当てたり、あらゆる刺激の正確なタイミングや構成を決定したり、問題となる副作用を排除したりすることが可能です。

実験について知っておくべきこと……

強み。

実験結果に影響を及ぼす可能性のある、あらゆる外的および内的要因を厳密に管理すること。
回答者を実験群に無作為に割り当てること。理想的には無作為化の手法を用いる。
原因と結果の関係を最高の精度で特定することができます。
すべてが標準化されているため、他の研究者もあなたの研究を再現することができ、標準化されていない場合と比べて、あなたの研究の「信頼性」が高まります。

制限事項。

統制された実験は現実の世界を反映していない。実験室は自然な環境を再現していないため、回答者は自然な反応を示さない可能性がある。専門用語で言えば、実験室での実験には生態学的妥当性が欠けている。
観察者の存在が被験者の行動に影響を与える可能性があります。被験者のすぐ隣に座っている、あるいはウェブカメラを通じて被験者を観察している実験者は、実験結果に偏りをもたらす恐れがあります（ホーソン効果について調べてみてください）。

2. 野外実験

実験室での実験とは対照的に、野外実験は被験者の自然な環境下で行われる。実験者は「原因」となる要素を操作するが、結果や成果に影響を及ぼしうるその他の要因（ミルグラムの研究に基づくホフリング病院実験など）については制御できない。

エンジニアは、先行する実験室でのテスト結果を検証し、実生活における被験者からより幅広いフィードバックを得るために、ソフトウェアやハードウェアのプロトタイプを用いた実地テストを行うこともよくあります。

野外実験について知っておくべきこと……

>> 強み。

野外実験は、実験室での実験よりも実生活に近い状況を反映している。それらは生態学的妥当性が高い。
実験が秘密裏に行われ、被験者が観察されていると感じない場合、その行動は実験室での状況に比べて、実生活により近いものとなる。

>> 制限事項。

結果に影響を及ぼす可能性のある外的要因を制御できない。そのため、結果には大きなばらつきが生じる。このばらつきを補うためには、より多くの回答者が必要となる。
他者が真似するのは難しい。
回答者からインフォームド・コンセントを得る能力が限られている。

3. 自然実験。

自然実験とは、実験者がいかなる制御も行わないという点で、純粋な観察研究である。対象グループはありのままに観察され、異なる実験条件に戦略的に割り当てられることはない。

既存のiPhoneユーザーとAndroidユーザー、チェルノブイリ近郊の住民とその他の地域の住民、あるいはがん患者と健康な人々などを比較したい場合もあるでしょう。この場合、比較対象となるグループはもともと存在しているため、わざわざ作成する必要はありません。

自然実験について知っておくべきこと……

強み。

自然実験における行動は、実生活の実態をよりよく反映している。
グループ分けを人為的に操作することが倫理的に許されない状況（例えば、回答者に放射線を被ばくさせるなど）において理想的である。

制限事項。

実験室での実験よりも費用と時間がかかる。
いかなる要因についても制御できないということは、他者による再現がほぼ不可能であることを意味する。

人間の行動をどのように測定すればよいでしょうか？

実験室での実験、野外調査、自然実験には、いずれも共通する点がある。それは、知見が経験的に得られるという点だ。「経験的」とは、研究課題や仮説に対する答えが、単なる考察や思考実験によって導き出されるものではないことを意味する。

人間の認知行動科学の研究者たちは、椅子に深く腰掛けて思考実験のあり得る結果を思索するのではなく、人間の行動の根底にあるプロセスや究極の「原動力」を解明するために、環境を積極的に観察し、探求することで研究を進めている。

ここ数十年の間に、研究者たちは精巧な実験手法や手順を開発してきた。これらは、新製品やサービスの感情面、認知面、注意力への影響、あるいは性格特性や問題解決戦略がブランドの好感度や消費者の嗜好にどのような影響を与えるかといった点を検証する商業的な調査にも活用されるようになっている。

人間の行動を学ぶ2つの方法

人間行動に関する質的研究

質的研究は、観察に基づく知見を収集するものである。その例としては、日記の分析、自由記述式のアンケート、非構造化インタビュー、あるいは観察などが挙げられる。数値化や計量化が行われず、あらゆる観察結果がそのまま記述されるため、質的データは記述的データとも呼ばれる。

例えば、質的フィールド調査やユーザビリティ調査では、研究者は被験者がその技術をどのように使用しているかを直接観察し、質問を投げかけたり、行動について詳しく尋ねたり、場合によっては被験者の行動に合わせて実験手順を調整したりすることも可能です。質的調査の焦点は、主に被験者が世界をどのように捉えているか、そしてなぜ特定の反応を示すのかを理解することにあります。

質的研究について知っておくべきこと……

強み。

「なぜ」や「どうすれば問題を解決できるか」といった疑問に答えるのに最適です。
回答者の個人的な体験に焦点を当てる。
少人数の回答者サンプルで十分です。

制限事項。

その特定の研究で得られた知見は、他のグループには応用できない可能性がある。
回答者1人あたりのデータ収集に時間がかかる可能性があります。
研究者の偏見や好みが結果に影響を与えるリスク。

代表的な利用例。

UX、Webおよびソフトウェアのユーザビリティテスト（ユーザージャーニーの説明）。
伝記的事項に関する自由回答形式のインタビューおよびアンケート調査。
実験者の同席の有無によるフォーカスグループ。

「感情検出を活用してUXを向上させる方法」をご覧ください

定量的研究

対照的に、定量的研究とは、統計的、数学的、あるいは計算機的手法を用いて、観察可能な現象を体系的に実証的に調査することを指す。言い換えれば、定量的研究では、数値を用いて人間の行動を記述し、特徴づけるのである。

定量的手法の例としては、構造化されたアンケートやインタビュー、専用のコーディング体系を用いた観察（例：1日あたりの喫煙本数のカウント）、あるいはEEG、EMG、ECG、GSRなどの数値出力を生成するセンサーによる生理学的測定などが挙げられる。研究者が定量的手法を用いる場合、行動の観察結果を数値や統計的な出力に変換する。これらすべては、実験の制御性を最大限に確保するために行われる。

定量的研究について知っておくべきこと……

強み。

「いくつ」や「いくら」といった質問に答えるのに最適です。
大規模な回答者グループの分析に有用であり、対象集団全体に焦点を当てています。
標準化の度合いが高いため、質的研究よりも時間がかからない。
統計的に分析可能な数値データを提供します。

制限事項。

測定手段の範囲が狭すぎるため、実験者は現象を見逃してしまう可能性がある。
文脈的な要因は、しばしば無視されたり、見落とされたりしている。
研究には費用と時間がかかる。

代表的な利用例。

コーディング手法を用いた行動観察（例：特定の時間枠内における表情や行動の発生状況など）
構造化面接および、単一選択式や複数選択式の質問、ならびに尺度を含むアンケート調査。
身体機能の生理学的測定（EEG、EMG、GSRなど）

「定性調査と定量調査」をご覧ください

人間の認知行動研究において、私たちの複雑な内面の仕組みや知能、性格特性、あるいはスキルレベルを説明するために、どのような数値が活用できる可能性があるだろうか？例えば、ある人が買い物依存症であることの測定可能な指標とは何だろうか？

数値化できる指標としては、1週間のデパートでの平均滞在時間、特定のライフスタイル商品への累計支出額、あるいは階段下のクローゼットに積み上げられた靴箱の数などが挙げられる（測定や数値・事象の割り当てに関する推奨文献を参照のこと）。

基本的な考え方は、人格の潜在的な要素を、数値的に計数可能な、実現可能で具体的、かつ把握・観察可能な単位に分解することで、可視化（ひいては測定可能）にできるというものです。人格やアイデンティティの潜在的な構成概念をこのように「可視化」することを、操作化と呼びます。

ある測定法は潜在的な特性を捉えるのに適している一方で、他の測定法ではそれができない場合もある。そこで問題となるのは、一体何が適切な測定法なのかということである。

バイアスを回避するための対策

これは一般的に、以下の基準に基づいて説明される：

客観性

客観性は最も一般的な要件であり、誰が使用しても同じ結果が得られるべきであるという事実を反映しています。また、測定結果は外部からの影響を受けずに、常に同じ結果となるべきである。例えば、多肢選択式の性格診断アンケートや調査は、回答者が口頭で答えるか書面で答えるかに関わらず、同じスコアが得られる場合に客観的であると言える。さらに、結果は実験者の知識や態度に左右されることなく、回答者のパフォーマンスのみに基づいて導かれるものでなければならない。

信頼性

ある測定法は、一貫した条件下で同じ値を返す場合、信頼性が高いとされる。信頼性にはいくつかの分類がある。例えば、「再検査信頼性」は測定法の経時的な安定性を表し、「評価者間信頼性」は、異なる実験者が同じ行動に対してどの程度一貫した評価を下すかを反映する。一方、「分割信頼性」は、テストを2つに分割し、その2つの部分がどの程度同一の結果を生成するかを検証するものである。

有効期間

これが最後にして最も重要な基準です。これは、測定指標が本来収集すべき情報をどの程度正確に捉えているかを反映するものです。例えば、幸福度との関連性を測定するために体格データを収集する実験を想像してみてください。明らかに、この測定指標は客観的かつ信頼性が高い（体格の測定値は、誰が測定してもほぼ一貫している）ものの、幸福度という概念の妥当性（すなわち、その根底にある変数を真に捉える能力）という点では、実に不適切な指標であると言えます。

客観性、信頼性、妥当性の基準をすべて満たす測定手法を見出せれば、既存の知識の限界を押し広げる実験結果を生み出すための正しい道筋に乗ったことになる。

回答者の管理

アイスランドでは、実験対象を国民全体に拡大する研究プログラムが存在しますが、他の国や状況では、全人口を対象とした調査を行うことは不可能です。もちろん、そうすることで研究課題に対する最大限の知見が得られるでしょうが、時間やリソースの制約から、研究や実験は一般的に全人口ではなく、特定の回答者グループを対象に行われます。

最も難しいのは、対象集団全体を真に代表する回答者を見つけ、調査グループの結果から対象集団全体へと一般化（推論）できるようにすることです。「代表性のある標本」という言葉を耳にしたことがあるかもしれません。これは、母集団のすべての構成員が、実験の対象として選ばれる可能性が等しくある回答者グループを指します。母集団は必ずしも国全体である必要はありません。この用語は、単に、実験に関連すると考えられる特定の特性（身長、体重、BMI、ヘモグロビン値、経験、収入、国籍など）を共有する「すべての人々」を表しているに過ぎません。

代表的な例としては、次のようなものがある：

米国在住の30歳から40歳の女性研究者で、平均年収が5万ドルの者
C#での開発経験が5年以上あるソフトウェア開発者
犬の飼い主
二次進行型多発性硬化症を患っている患者
仕事帰りの買い物客（年齢・性別を問わず）
50歳までのデンマーク人母親
メガネをかけている人
50歳までのデンマーク人母親
メガネをかけている人

サンプルとは、例えば多発性硬化症の患者100名や、犬の飼い主20名といった集団を指します。「代表的なサンプル」を見つけることは、ほとんどすべての研究に何らかの偏りがあるため、それほど簡単ではありません。サンプルは次のような方法で見つけることができます：

無作為抽出ではない回答者抽出

一般化が重要ではない初期の予備調査段階では、非無作為抽出を行うことができます。その場合、実験結果は調査対象となった回答者グループにのみ適用されます。
抽出は次のように行われます：

ボランティア。通りすがりの人に声をかけ、参加を承諾した人は全員、検査を受けることになります。
スノーボールサンプリング。ある事例が、同種の他の事例（例：HSEの買い物客）を特定する。
便宜的標本。同僚や他の容易にアクセスできるグループを対象に調査を行う。
割当抽出。複数のグループから所定の数（例：男性30名、女性30名）を任意に抽出する方法。

無作為抽出による回答者選定。

無作為抽出とは、実際には母集団のすべての構成員に、実験の対象となる同じ機会を与えることです。一般市民から得られた少数の回答者による調査結果から結論を導き出せるという利点がある一方で、これには多大な時間とリソースが必要となります。無作為抽出には
、以下のような手法があります：

単純無作為抽出

無作為抽出では、誰もが調査対象に含まれる確率は等しくなります。つまり、例えば、米国内で年齢が30歳から40歳、平均年収が5万ドルの女性研究者全員、あるいは犬の飼い主全員を特定する必要があります。その後、無作為に標本を抽出し、その対象者にのみ連絡を取ります。無作為抽出を行う
ことで、自発的な参加や協力に基づく選択バイアスを排除することができます。

系統的抽出

完全にランダムに選択するのではなく、回答者の年齢、罹病期間、所属、距離などに基づいて並べ替えられた既存のリストから、n人ごとに体系的に選択します。

多段階抽出

サンプリングは複数の段階に分けて行うことができます。例えば、調査対象として代表的な生徒を見つけるために、まず郡を無作為に抽出し、次に市、学校、学級を順に無作為に抽出します。最後に、観察や記録の対象となる生徒を無作為に選びます。

クラスター抽出

特に自己申告による調査の場合、地理的に分散した大規模な集団を対象に研究が行われる。検査に必要な回答者数を確保するため、クラスターを特定し、そこから無作為に抽出することがある。その後、抽出されたサンプルの全構成員に対して検査が行われる。
例えば、世帯単位でクラスター化を行う場合、その世帯の全構成員が検査対象となるため、検査にかかる時間とリソースを大幅に削減できる。

どのサンプリング手法を採用するかは、一般的に時間やリソースの面での実現可能性によって決まります。特にフィールド調査においては、真に無作為な標本を得ることが難しい場合が多いでしょう。代表性のあるサンプリングに関する推奨手順の詳細については、Banerjeeら（2007; 2010）を参照してください。

回答者は何人必要ですか？

サンプリング戦略は、実験の標本サイズと密接に関連しています。単一のケーススタディを行う場合、当然ながら必要な回答者は1人だけです。しかし、その場合は、得られた結果を母集団全体に一般化することはできません。一方で、母集団全体からサンプリングを行うことは不可能です。そこで問題となるのは、実験に適した回答者の数はどれくらいか、そして理想的な標本サイズはどれくらいかということです。

Martinezら（2014）およびNiles（2011）は、いくつかの提言を行っている。統計学的な詳細には立ち入らないが、その主なメッセージは次の通りである。常に必要な数の回答者を確保すること。定量的ユーザビリティテストでは20人の回答者で十分かもしれないが、期待される効果が小さい場合、例えば異なる刺激条件間の違いがごくわずかな場合には、より多くの回答者を対象にテストを行うべきである。

だからこそ、学術研究者は数十人から数百人、あるいは数千人規模の調査を実施するのです。回答者の数を増やすことで、実験結果に影響を与えた可能性のある個人差による不確実性を低減できるからです。ページトップへ

自信

調査結果の信頼度は通常、信頼度を用いて表され、これはおおむね次の式で表されます：

Nは標本サイズです。ご覧の通り、回答者の数が増えると信頼区間が狭くなります（これは望ましい結果です）。つまり、より多くの人を対象に調査を行うほど、より正確な結果が得られます。

例えば、10,000人の回答者のうち10人に新製品の好みを調査した場合、信頼度は32%となります。もし回答者の10人中7人（70%）が新製品を好んだ場合、母集団における実際の割合は最低でも48%（70－32）、最高でも100%（70＋32、100%を超えることはできない）となります。48%から100%という幅がある場合、このテストはあまり役に立たないかもしれません。

もしサンプルサイズを10,000人中100人に増やした場合、信頼度は10%となります。100人の回答者のうち70人がその製品を気に入っているとすれば、母集団における実際の値は60%から80%の間にあることになります。これでかなり正確な値に近づきました！

信頼水準をさらに5%に引き下げたい場合は、少なくとも500人の無作為に選ばれた回答者を対象に調査を行う必要があります。要するに、結論を導き出すには、多くの回答者を対象に調査を行わなければならないということです。詳細については、Creative Research Systemsのウェブサイトをご覧ください。そこでは、より正確な計算式や標本サイズ計算ツールをご利用いただけます。

横断的研究と縦断的研究

実験デザインや研究の実施方法は、研究課題の性質によって異なります。新しいテレビCMが、一般大衆から注目度、認知、感情の面でどのように受け止められているかに興味がある場合、研究を設計する方法はいくつかあります。同じ時点において、低所得世帯と高所得世帯という異なる集団間で、その広告の認知・行動的効果を比較したいのでしょうか。それとも、特定のデモグラフィック特性を持つ高所得の男性買い物客といった単一の集団を対象に、長期間にわたってテレビ広告の効果を測定したいのでしょうか。前者のアプローチは一般的に横断的研究デザインと呼ばれます。後者は縦断的研究デザインと呼ばれます。これら2つを組み合わせることも可能です（混合デザイン）。

横断的研究デザイン

横断研究では、ある特定の時点において2つ以上のグループを比較します。まるでスナップ写真を撮るように、各回答者は一度だけ調査に参加し、テストを受けます。この例で言えば、低所得世帯と高所得世帯の回答者に新しいテレビCMを見せます。しかし、1週間後に再び彼らを招いて、同じテレビCMを見せるようなことはしません。

横断研究のその他の例としては、次のようなものがある：

ゲーム。ビデオゲームが、健常児とADHDの児童の感情的反応性に及ぼす影響を比較する。
ウェブテスト。若者、中年層、高齢者の買い物客を対象としたウェブサイトのユーザビリティ評価を比較する。
心理学。母親と父親の子育てスタイルの評価を比較する。

横断的実験デザインの最大の利点は、多くの異なる変数を同時に比較できる点にある。例えば、追加コストをほとんど、あるいは全くかけずに、年齢、性別、経験、学歴などが、テレビCMに対する回答者の認知的・感情的な評価に与える影響を調査することができる。必要なのは、データ（例えば、インタビューやアンケートを通じて）を収集することだけである。

縦断的研究デザイン

縦断研究では、同じ回答者グループに対して、数時間から数日、数ヶ月、さらには数年にわたって、繰り返し観察を行います。これにより、一連の事象を把握し、個々の測定値に影響を及ぼす可能性のあるノイズを最小限に抑えることができます。言い換えれば、潜在的な副作用の影響を受けにくく、結果の信頼性を高めることができるのです。

例えば、ターゲット層（高所得の男性消費者）に対してテレビCMを数回放映し、時間の経過とともにそのCMに対する彼らの好みがどのように変化するかを確認することができます。

縦断的研究のその他の例としては、次のようなものがある：

メディア／パッケージテスト。2つ以上のメディア予告編やパッケージを回答者グループに順次提示し、提示された各アイテムに対する好感度を評価してもらう。
食品および風味のテスト。被験者には、2つ以上の風味が順番に提示され、その感想を尋ねられます。
UIおよびUXテスト。回答者は2つ以上のウェブサイトを閲覧し、ユーザビリティに関する質問についてインタビューを受けます。
心理学と研修。専門研修に参加している回答者グループが、研修の前、最中、および終了後に、感情的な幸福感に関するアンケートに回答する。
生理学。被験者に画像、音声、または動画の刺激を提示しながら、脳波（EEG）、皮膚電気反応（GSR）、筋電図（EMG）、表情などを測定します。

縦断的研究の主な利点は、同一の回答者グループにおける値の経時的な変化を把握できる点にある。たとえ実験的介入の前後における認知・情動テストの得点のみを取得したとしても、介入が既存の注意力、認知機能、あるいは情動の水準に与える影響を理解しやすくなる。したがって、縦断的研究は横断的研究よりも、因果関係を明らかにしやすい。

混合デザイン

混合デザインは、複数のグループにわたって縦断的データを収集できるため、両方の手法の長所を兼ね備えています。厳密に言えば、異なる集団を比較するために複数の被験者グループから生理学的データ（EEG、GSR、EMG、ECG、表情など）を収集する場合、それはすべて混合研究デザインとなります。データ自体は縦断的（時間の経過に伴う複数のサンプル）である一方、グループ間の比較には横断的な側面があります。

混合設計の代表的な例としては、次のようなものがある：

製品／メディアのテスト。製品またはサービスの2つ以上のバージョンを、2つ以上のグループ（例：初心者と専門家、男性と女性、若年層と高齢層）の認知的・行動的成果について比較する。
A/Bテスト。ウェブサイトやアプリの2つのバージョンを、2つ以上のグループにおける認知・行動上の成果について比較する。

混合デザインの実験は、複数の対象グループにわたる経時的な変化を収集するのに最適であり、横断的研究や縦断的研究のいずれか単独で行う場合よりも、人間の行動の要因をより詳細に調査することが可能になる。

結局のところ、どの研究デザインを選ぶかは、主に研究課題によって決まります。もちろん、まず横断研究を行って結果に影響を与える可能性のある要因を把握し、その後、より詳細な縦断研究を行って因果関係を詳しく調べることも可能です。

次のセクションでは、刺激をどのように配置すべきか、またどのセンサーが関連するかについて、より詳しく説明します。

刺激の選択と配置

人間の認知・行動研究における実験では、通常、被験者から反応を引き出すために何らかの刺激が用いられる。刺激に関して最も重要な2つの問いは、次の通りである。どのような刺激が必要か？刺激はどのような順序で提示すべきか？

刺激の種類

刺激には、聴覚、視覚、触覚、嗅覚など、さまざまな感覚モードがあります。多感覚刺激とは、複数の感覚モードを組み合わせたものです。人間の行動に関する学術研究や商業研究では、以下の刺激が用いられています：

画像 / 写真
動画
ウェブサイト
ソフトウェアのインターフェース
機器（車内、航空機のコックピット、ミルクシェイクマシンなど）
電話、ウェブ、または対面での他者とのコミュニケーション
複雑なシーン（VR、実環境）
音（正弦波、複合音、話し言葉、音楽）
嗅覚（味、香り）
触覚刺激（触覚による物体の探索、圧力センサー、振動センサー、触覚ロボット）
アンケートおよび調査（ウェブまたはソフトウェアベース、紙と鉛筆によるもの）

刺激配列

刺激は通常、特定の順序で被験者に提示されます。人間の認知行動研究では、どのような順序が一般的に用いられていますか？

固定刺激シーケンス

ランダムな順序が適切でない場合や採用できない場合は、固定順序が必要となります。例えば、ウェブサイトテストとウェブサイトに関するインタビューを組み合わせる場合、まずウェブサイトに関する質問をしてから、回答者に実際にウェブサイトを利用するよう指示するのは不適切です。

ここでは、まずウェブサイトを閲覧し、その後にアンケートに回答するという順序が唯一の適切な手順となります。例えば、ウェブサイトAとBといった異なるバージョンの刺激を比較する場合にも、固定された順序を用いることができます。

ランダムな刺激シーケンス

これまで学んできたように、すべての回答者に刺激を同じ順序で提示すると、順序効果が生じるリスクがあります。回答者は、まだ意欲や関心が高く、好奇心も旺盛なため、最初の刺激を常に高く評価してしまう可能性があるからです。

実験室で2時間もの長い時間を過ごした後には、疲労が蓄積している可能性があり、たとえテスト対象の製品やサービスがこれまでの予想をはるかに上回るものであっても、評価が低くなってしまうことがあります。これは、刺激をランダムな順序で提示することで回避できます。

相殺シーケンス

完全無作為化に伴う問題を回避するため、対照化設計では、実験の刺激提示枠全体に条件が均等に配分されるよう工夫されています。以下の例では、2つの刺激条件AとBが6名の被験者間で対照化されており、3名の被験者は最初に刺激Aを提示され、残りの3名の被験者は最初に刺激Bを提示されるようになっています。

ブロックの設計

刺激リスト全体をランダム化するのは、そこに何らかの内部的な論理や順序がある場合、意味がないこともあります。例えば、複数の食品パッケージを開封する際の回答者の行動を評価したい場合を考えてみましょう。

各パッケージについて、(a) パッケージを開封し、(b) 回答者にその連想を口頭で説明してもらうという、決まった評価手順が設けられています。その後、(c) 回答者はパッケージを手に取り開封し、(d) その体験について述べる。ステップ(a)から(d)までのこの一連の流れは、実験上の「ブロック」とも呼ぶことができ、テスト対象となるすべてのパッケージに対して繰り返されることになっている。

パッケージの表示順序はランダムですが、各ブロックの内容は変わりません。

繰り返しデザイン

脳波（EEG）やその他の生理学的記録では、同じ刺激を繰り返し提示する必要がある場合があります。これは、刺激によって引き起こされる脳活動の変化が、通常の脳活動に比べてはるかに小さいためです。同じ刺激を数回提示することで、有効な結論を導き出すのに十分なデータが得られるようになります。

ただし、視線追跡研究においても刺激の反復は可能である。この場合も、前述の無作為化手順が適用される。

結果が出るまでに必要な反復回数について、ご関心をお持ちかもしれません。残念ながら、これについては一概に答えることはできません。なぜなら、予想される効果の大きさや2つの条件間の差、刺激のモダリティ、対象とする生理学的効果、その他実験結果に影響を与える要因など、いくつかの要素に左右されるからです。

また、この一般的な紹介の範囲を超える、統計学上の重要な考慮事項も存在します。

測定法とセンサー

人間の認知・行動研究のために実験を設計する際には、どの生体センサーからデータを収集するかを必ず検討すべきです。人間の行動は、感情反応の完全な無意識的な調節から、意識的な思考や認知に基づく意思決定に至るまで、多種多様なプロセスの複雑な相互作用によって成り立っています。実際、私たちの感情的・認知的反応の一つひとつは、その瞬間のウェルビーイングに影響を与える覚醒度、作業負荷、環境条件といった要因によって左右されています。

こうした人間行動のあらゆる側面は、自己報告（インタビューやアンケートによる）、特定の機器（アイトラッカー、EEGシステム、GSRやECGセンサーなど）、あるいはカメラを用いた表情分析によって捉えることができる。

アイトラッキング

テレビCM、ビデオゲーム、映画、ウェブサイト、各種デバイス、さらには私生活や職場での対人関係――これらすべては、視覚がなければ処理することができません。人間の脳は、視覚情報を受け取り、眼球運動を制御するように精密に調整されています。したがって、アイトラッキングを用いて視線の位置や瞳孔の拡張に関する情報を収集することは、極めて理にかなっています。画面上に視覚的刺激を提示する際は、回答者がどこに視線を向けているか、そしてそれが認知処理にどのような影響を与えているかを確実に把握するために、常にアイトラッキングデータを収集すべきです。第二に、瞳孔の拡張をモニタリングすることで、回答者の覚醒度やストレスレベルに関する貴重な知見が得られます。瞳孔の拡張は自律神経によるプロセスであるため、意識的に制御することはできません。アイトラッキングの記録を利用すれば、感情的または認知的に負荷の高い刺激に直面した際、回答者の関与度や意欲、そして覚醒レベルの両方をモニタリングすることが可能になります。

GSR/EDA

皮膚電気反応（GSR）または皮膚電気活動（EDA）は、皮膚の汗腺からの発汗量を反映しています。発汗が増えると、皮膚の導電率が高くなります。感情的な刺激にさらされると、私たちは感情的な発汗を起こします。GSRの記録をEEGと組み合わせると、極めて強力な分析が可能になります。なぜなら、皮膚の導電性は無意識下、すなわちEEGでモニタリングされる認知プロセスよりも深く、より古い脳構造によって制御されているからです。したがって、GSRを追加することで、回答者のフィルタリングされていない、偏りのない感情的興奮について、非常に深い洞察を得ることができます。

表情分析

表情分析を用いることで、回答者が観察可能な行動において、真に肯定的な態度を示しているかどうかを評価することができます。表情分析は、回答者の正面に設置したウェブカメラを用いて、頭の位置や向き（これにより、回答者が刺激に対してどのような位置にいるかを常に把握できます）、表情（眉を上げる、口を開けるなどの動作）、および基本的な感情（喜び、怒り、驚きなど）の全体的な表情を評価する、非侵襲的な手法です。表情データは、関与度、フラストレーション、または眠気のモニタリングに極めて有用です。

（顔面）筋電図

筋電図センサーは、身体の動きによって生じる電気信号を測定します。 EMGセンサーは、あらゆる種類の刺激材料に対する顔、手、または指の筋反応をモニタリングするために使用できます。意識的に制御された手や指の動きに伴う微細な活性化パターン（驚愕反射）でさえ、EMGを用いて評価することが可能です。同期したEMGデータの収集は、眼や四肢の動きがどのように準備され実行されるかだけでなく、動きがどのように阻止され、行動が抑制されるかに関心を持つすべての人にとって重要です。

心電図／PPG

胸に装着した心電図（ECG）電極や指先に装着した光学式心拍センサーを用いて心拍活動をモニタリングすることで、回答者の身体状態、不安やストレスのレベル（覚醒度）、そして生理状態の変化が行動や意思決定にどのように関連しているかを追跡することができます。ECGセンサーを用いて回答者の身体的疲労を追跡することは、身体に負荷がかかる活動下における認知・情動プロセスに関する有益な知見をもたらすことができます。

脳波

脳波検査（EEG）は、携帯型のセンサーと増幅システムを用いて、頭皮表面から脳が生み出す電気的活動を測定する神経画像診断法です。知覚、認知行動、感情プロセスに関連する脳活動を評価する上で、間違いなく最適な手法と言えます。EEGは、関与、動機付け、フラストレーション、認知的負荷といった1秒未満の脳の動態や、さらに刺激処理、行動の準備、実行に関連する指標について、重要な知見をもたらします。端的に言えば、EEGは、私たちが課題を遂行しているときや特定の刺激材料にさらされているときに、脳のどの部分が活動しているかを驚くほど明確に示してくれます。

自己申告

どのような実験においても、セッションの開始時、データ収集中、そして終了時など、自己申告によるデータ収集の段階を設けるべきです。人口統計データ（性別、年齢、社会経済的地位など）を収集することで、回答者グループをより詳細に把握することができます。また、インタビューやアンケートによる自己申告データは、生体センサーが報告する定量的な数値を超えて、回答者の主観的な世界（自己認識による注意力、動機付け、関与度など）を理解する上で極めて有用です。もちろん、アンケート結果は、分析のために回答者を特定のグループ（例：若年層対高齢層、男性対女性、初心者対経験者）に分類するために活用できます。

iMotionsで実現する理想的な実験計画

適切に設計された実験を行うことで、対象集団が物理的な物体や刺激に直面した際の、注意、認知、および感情の処理プロセスについて深い洞察を得ることができます。実験研究では、実験者バイアスやセグメンテーションバイアスを防ぐための具体的な指針が示されており、回答者や刺激の選択における無作為化戦略は、そのための優れた出発点となります。

次の人間の認知行動実験の設計に取り掛かる前に、最大限の知見を得るために、刺激をどのように配置するか、被験者をどのように選定するか、そしてどの生体センサーを使用するかについて、しっかりと検討しておく必要があります。

もし、あらゆる種類の刺激を（例えば、固定順序やランダムな順序で）読み込んで配置し、さらにEEG、アイトラッキング、表情分析、その他の生体センサー（GSR、ECG、EMGなど）からのデータを記録できるマルチモーダルなソフトウェアソリューションがあったとしたらどうでしょうか。しかも、それらを手作業で一つずつ組み合わせる必要がないとしたら？

iMotionsプラットフォーム

iMotionsプラットフォームは、試験設計、マルチセンサーのキャリブレーション、データ収集、および分析を簡単に行えるソフトウェアソリューションです。

iMotionsは、導入直後から、表情分析、GSR、アイトラッキング、EEG、ECG、EMGなど50種類以上の主要な生体センサーに加え、マルチモーダルな人間行動研究のためのアンケート調査にも対応しています。

参考文献

Banerjee, Chaudhury 他 (2007). 『Statistics without tears – 標本サイズ計算のための指針』. 『Indian Psychiatry Journal』, 16, 150–152.
Banerjee & Chaudhury (2010). 『統計学、怖くない：母集団と標本』. 『Industrial Psychiatry Journal』, 19(1), 60–65.
Creative Research Systems (2003). 標本サイズ計算ツール。2016年8月6日に https://www.surveysystem.com/sscalc.htm から取得。
Cooper、Camic ほか（2012）。『APA心理学研究方法ハンドブック』第1巻：基礎、計画、測定、および心理測定学。
Cooper, Camic ほか（2012）。『APA心理学研究方法ハンドブック』第2巻：研究デザイン：量的、質的、神経心理学的、および生物学的。
Farrington (1991). 縦断的研究戦略：利点、課題、および展望. Journal of the American Academy of Child and Adolescent Psychiatry, 30(3), 369–374.
Hofling et al. (1966). 「看護師と医師の関係に関する実験的研究」. 『Journal of Nervous and Mental Disease』, 143, pp. 171-180.
McLeod (2007). 『ミルグラム実験』. 2016年7月31日に www.simplypsychology.org/milgram.html から取得。
Martinez-Mesa、Gonzalez-Chica ほか（2014）。「サンプルサイズ：研究には何人の参加者が必要か？」『Anais Brasileiros de Dermatologia』89(4)、609–615。
Monahan & Fisher (2010). 「観察者効果の利点：現場からの教訓」『Qualitative Research』, 10(1), pp. 357-376.
Niles (2014). 「サンプルサイズ：調査対象者は何人必要か？」 2016年8月6日に https://www.sciencebuddies.org/science-fair-projects/project_ideas/Soc_participants.shtml から取得。
ライアン（2006）『現代実験計画法』（第2版）。ニューヨーク：ワイリー・インターサイエンス。

🍪 Use of cookies

Settings

『実験計画法：完全ポケットガイド』

Table of Contents

実験手法の概要

実験計画法の例

ステップ1：仮説を立てる

•独立変数

• 従属変数（DV）

ステップ2：サンプルグループ

サンプルグループを定義する

ステップ3：被験者をグループに割り当てる

ステップ4：サンプリング周波数を決定する。

ステップ5：実験を行い、データを収集する。

ステップ6：データの前処理を行い、指標を分析する。

実験計画法の種類

1. 実験室での実験

実験について知っておくべきこと……

強み。

制限事項。

2. 野外実験

野外実験について知っておくべきこと……

>> 強み。

>> 制限事項。

3. 自然実験。

自然実験について知っておくべきこと……

強み。

制限事項。

人間の行動をどのように測定すればよいでしょうか？

人間の行動を学ぶ2つの方法

人間行動に関する質的研究

質的研究について知っておくべきこと……

強み。

制限事項。

代表的な利用例。

定量的研究

定量的研究について知っておくべきこと……

強み。

制限事項。

代表的な利用例。

バイアスを回避するための対策

客観性

信頼性

有効期間

回答者の管理

無作為抽出ではない回答者抽出

無作為抽出による回答者選定。

単純無作為抽出

系統的抽出

多段階抽出

クラスター抽出

回答者は何人必要ですか？

自信

横断的研究と縦断的研究

横断的研究デザイン

縦断的研究デザイン

混合デザイン

刺激の選択と配置

刺激の種類

刺激配列

固定刺激シーケンス

ランダムな刺激シーケンス

相殺シーケンス

ブロックの設計

繰り返しデザイン

測定法とセンサー

アイトラッキング

自己申告

iMotionsで実現する理想的な実験計画

iMotionsプラットフォーム

参考文献

fNIRSとEEG：非侵襲的脳イメージング技術の比較

iMotionsの4つの行動カテゴリーについて

人間の行動を測定する7つの方法 [図表]

行動心理学とは何か？人間の行動の背後にある科学

iMotions Lab 活用のコツとテクニック：第1巻

Affectiva Emotion SDKがAndroidで利用可能になりました

新たな「痛み」と「あくび」の指標

オンライン調査における不正対策：回答者が実在しない場合の対処法

🍪 Use of cookies

Settings