生成AIが、モデレーションから合成データに至るまで、研究ワークフローをどのように変革しているかをご紹介します。AIはスピードと規模の拡大に寄与しますが、合成データにはバイアスや変動性の低下といったリスクが伴います。重要なポイントは、AIの効率性と実際の人間によるデータを組み合わせることで、精度と洞察の質を維持することです。
Table of Contents
先ごろ開催されたESOMAR総会では、多くのトピックが取り上げられ、特に商業調査業界がジェネレーティブAI技術の導入においてすでにどれほど進歩しているかという点について、示唆に富む内容でした。 1年前の同会議では、AI企業によるプレゼンテーションが数多く行われ、AIがもたらす影響に対する不安も大きかった。それから12ヶ月が経過した今、より現実的な姿勢が見られるようになった。依然として不安は残っているものの、業界がこれらのツールをどのように導入していくかという方向性は、はるかに明確になってきている
。AIは主に以下の4つの方法で活用されているようだ:
- モデレーションツール – 大規模言語モデルを活用して、アンケートやディスカッションガイドの作成だけでなく、短いインタビューの進行管理まで、面接プロセスの各段階を自動化する
- オペレーショナル・エージェント – 調査の実施プロセスを自動化し、コストと時間を削減
- 自動分析 – 逐語記録データからテーマを抽出し、数値データを抽出・可視化することで、インサイトの創出プロセスを加速させる
- 合成データ – 過去の回答パターンや広範な学習に基づいて新しいデータを作成し、実際の人間から収集したデータを補完する。
これらの用途にはそれぞれ一長一短がありますが、これから見ていくように、とりわけ議論を呼んでいるのは合成データです。
合成データの活用
合成データは、他の分野でも大きな成果を上げています。自動車業界では、危険でコストのかかる実地衝突試験を行うことなく、何千もの事故シナリオをシミュレートするのに役立っています。医療分野では、患者のプライバシーを保護しつつ、希少疾患の検出や治療における画期的な進展を可能にする膨大なデータセットを研究チームに提供しています。金融機関では、機密性の高い取引情報を公開することなく、不正防止のモデル構築に活用しています。
しかし、商業調査における課題は、おそらく異なるものだ。画像やシナリオ内の特定のパターンに焦点を当てるのではなく、ここでは、その行動が極めて混沌としており、気まぐれで非論理的であることで知られる「実在の人間」が、何を言い、何をするかを予測しようとしている。そして、調査業界の本質は、仮説的なモデルではなく、真実や行動の現実を明らかにすることにある。しかし、こうした課題があるにもかかわらず、現在、合成データはさまざまな形で活用され始めている:
- 「ペルソナ」、すなわち自然言語で対話可能な大規模言語モデル(LLM)ベースのツールを構築し、研究データセットを分析することで、個々の研究内および研究横断的にデータを掘り下げ、クライアントの重要な疑問に答える。
- データセットの「空白を埋める」こと――つまり、インタビューで回答されなかった項目について、回答した人々の回答や、過去に同様の質問が行われた研究結果に基づいて推定すること。
- 特に接触が困難な集団を対象とする研究において、参加者全体の「デジタルツイン」を作成することでサンプルサイズを拡大し、小規模なグループから得られる知見の信頼性を高めることを目指す。
そのメリットは明らかです。調査業界では長年にわたり自動化が進められてきましたが、実在する対象者を探し出し、インタビューを行うことは、依然として比較的費用と時間がかかる作業です。手元にあるデータからより多くの価値を引き出すためにAIを活用するのは理にかなっています。そして、調査結果をより身近で活用しやすいものにする取り組みは、すべて有益なことです。
現実を見据える
しかし、ここで合成データをめぐる熱狂に流されないことが重要です。 特に、デジタルツインや合成回答といった「新しい」データの生成に関してはなおさらです。言うまでもありませんが、これらは実際のデータではありません。これらは推定値であり、推定値には誤差が伴います。こうしたデータを単なる人間のデータと同等に扱うことは、良くてリスクが高く、悪くて欺瞞的です。こうしたアプリケーションにおいて透明性が必須条件となるよう、研究業界のガイドラインが更新されたと聞き、安心しました。
しかし、この現実には、認識しておくべき重要な点がいくつかあります:
- どのモデルも平均値に回帰する傾向があります。つまり、合成データは、実在の人々が示す回答の幅を反映するのではなく、「平均的な」回答に収束してしまうということです。Affectiva / iMotionsでは、予測されたアイトラッキングと実際のアイトラッキングを比較した際、この現象を実際に確認しています。 予測値は画面上で強い中心バイアスを示す傾向があります。これは平均的には正しい値であるため、有意な相関関係は得られますが、その結果、実在する人々のデータを見ると明らかになる、周辺部における多くの洞察を見逃してしまうことになります。
- モデルは極端な値を見落としがちであり、その結果、合成データの分布は実際のデータよりも狭くなりがちです。しかし、興味深い結果は往々にして極端な値に現れるため、これは大きな課題となります。特に、広告テストや新製品開発など、斬新なアイデアや新しいアイデアに対する反応を測定しようとする研究においては、AIにこれまで見たことのない新しいアイデアを評価させると、誤りが減るどころか、かえって増える可能性があり、これが大きな課題となります。
- データ内の相互関係が希薄化してしまう。すべてのモデル推定値には誤差が含まれるため、例えば特定のブランドイメージの認識と購買行動との間の関係性が弱まり始める可能性がある。もしそのデータを用いて、さまざまな属性の重要性や行動の要因を理解しようとするのであれば、これは好ましくない事態である。
- 合成データの質は、その学習に用いられるグラウンドトゥルースデータの質に左右されます。AIはデータ量に左右される分野であり、実データが多ければ多いほどモデルの精度も向上します(だからこそ、Affectivaの顔表情コーディング技術は高い精度を発揮するのです。当社では、学習用に数百万件ものデータにアクセスできるからです)。グラウンドトゥルースデータに存在するバイアスは増幅されてしまいますが、これは特に学習用データが不足している場合に顕著です。
- おそらく最も重要な点は、大規模言語モデルやAIツールには、統計の法則が適用されないような統計的な「魔法」など存在しないということです。いくらでもデジタルツインを作成することはできますが、それらは依然として手元にあるデータに基づいています。特に、発生頻度の低いサンプルを補完するために使用する場合、この問題はさらに深刻になります。 たとえ170体のデジタルツインを作成したとしても、30人から始めた場合、最終的には依然として30人しかいないことになります。合成データを含むデータから標準誤差を算出することはできません。ツインは複製であり、たとえその複製が曖昧なものであったとしても、その概念は適用されないからです。
- 皮肉なことに、合成データを作成する方が、実データを収集するよりもコストがかかる場合があります。合成ツインを作成する事業は費用がかさみます。実在の人物にアンケートを実施するのに1ドルもかからないのであれば(それが良いことかどうかは別の記事で論じるとして)、なぜそうしないのでしょうか。AIは常に処理が速いですが、必ずしもコストが安いとは限りません。
いくつかの指針
以上のことは、合成データが商業調査において全く役立たないと言っているわけではありません。もし合成データによってデータの利便性やアクセス性が向上し、処理が高速化されるのであれば、調査の最終的な利用者にとって、時に非常に単調で時間のかかるプロセスである調査業務において、それは大きな前進となるでしょう。しかし、私たちは注意を払い、以下の点に留意する必要があります:
- 現実的であること:何が「実際のデータ」で何がそうでないかを明確に区別し、拡張された結果に対しては適切な注意を払うこと。
- 現実的になりましょう。深く掘り下げて実在の人々とアイデアを練り、時間をかけて熟考する必要がある場合もあれば、迅速で「ほぼ正しい」答えで十分である場合もあります。 例えば、新しい広告キャンペーンの核心となるアイデアや実行方法を検討するには、実際に人と向き合う必要があります。しかし、その後の数百回に及ぶキャンペーンの改良案をAIモデルでテストすることは、メディアプランを最適化する上で十分であり、調査を全く行わないよりははるかに良い結果をもたらします。
- 機械にデータを供給し続けなければならない。最悪のシナリオは、業界がモデルだけに依存し、合成データばかりを投入することで、それが必然的に現実から乖離してしまうことだ。AIが自らの排気ガスで窒息するような事態は、決して許してはならない。
生成AIの登場は、商業研究にとって変革的な転換点です。業界が柔軟な姿勢で臨めば、より優れた知見をより迅速に、かつより大規模に得られるようになるでしょう。しかし、私たちはこれらの技術の現実をしっかりと認識し、実際の人間のデータも引き続き活用していく必要があります。