Affectivaの表情分析ツールが、世界最大級の感情データベースをどのように活用しているかをご紹介します。同社の革新的な技術の原動力を探り、感情知能にどのような変革をもたらしているかを学びましょう。Affectivaの最先端ツールの複雑な仕組みと、感情認識能力の向上に与える影響について詳しく見ていきましょう。
Table of Contents
Affectivaの感情データベースは、現在90カ国で分析された約600万枚の顔画像を収録するまで拡大しました。正確には、1,300万本以上の顔動画を集め、総計38,944時間分のデータとなり、分析された顔のフレーム数は70億枚以上に達しています。

このグローバルデータセットは、同種のものとしては最大規模を誇り、消費者が様々な活動を行う際の自然な感情的反応を捉えたものです。現在、当社のデータベースの大部分は、メディアコンテンツ(広告、映画の予告編、テレビ番組、オンラインのバイラルキャンペーンなど)を視聴している人々のデータで構成されています。この1年間で、当社はデータリポジトリを拡充し、車の運転中の様子、会話中の様子、アニメーションGIFなどの新たなシチュエーションも取り入れるようになりました。
Affectivaでは透明性を非常に重視しているため、このデータをどのように収集し、どのように活用しているかについてご説明したいと思います。基本的に、この膨大なデータを活用することで、極めて精度の高い感情指標を作成できるほか、人間の感情的な行動に関する興味深い知見を得ることができます。それでは、さらに詳しく見ていきましょう。
では、この感情データはどのように収集するのでしょうか?
このデータはどこから得られたものですか?
これまでに、5,313,751本の顔動画(合計38,944時間分)を収集し、約20億フレームの顔データを分析しました。 「顔動画」とは、オンライン動画の視聴や車の運転など、何らかの活動を行っている人々の様子を録画したものです。Affectivaは、Millward Brown、Unruly、Lightspeed、Added Value、Voxpopme、LRWといった市場調査パートナーや、自動車、ロボット工学、人事分野のパートナー企業との協業を通じて、これらの顔動画を収集しています。
このデータは、自宅や職場のデスク、車内など、自然な環境下で自発的に収集されたものです。実際、私たちはすでに、車を運転している人々から収集した440万フレーム以上の感情データを分析しています。
オプトインの重要性
重要な点として、顔の分析対象となったすべての方に対し、顔の記録および感情表現の分析への参加について、事前に明確な同意を求めています。参加を拒否する選択肢は常に用意されています。感情は個人のプライバシーに関わるものであり、誰もが顔の記録を希望するわけではないことを私たちは認識しています。また、データ収集は匿名で行われるため、その顔が誰のものかを知ることは決してありません。
自然発生的なデータ、実地で収集されたもの
Affectivaの膨大な感情データベースは、実社会で収集された自然発生的なデータ、すなわち私たちが「イン・ザ・ワイルド」と呼ぶデータに基づいています。このデータは、バンコクの台所やリオデジャネイロのソファなど、世界中のどこにいようとも、コンテンツを視聴するといった活動に従事している人々の様子を如実に反映しています。 また、これらの顔動画は、本物の自然な表情を捉えています。つまり、人々が視聴しているコンテンツや行っている行動に対する、フィルターのかかっていない偏りのない感情がそのまま反映されているのです。さらに、このデータは、照明の変化、頭の動きの違い、人種、年齢、性別、ひげ、眼鏡による顔の特徴の差異といった、撮影環境が厳しい状況下でのデータも網羅しています。

他にも、学術的な場で開発されることが多いデータセットが存在し、それらはほぼ例外なく、カメラや照明の条件が管理された実験室環境で収集されています。また、こうしたデータセットには誇張された表情が捉えられていることも多く、被験者に特定の感情を表すよう求められた結果、いわゆる「ポーズをとった」データが生み出されるのです。
こうした学術的なデータセットには、被験者が学生層から選ばれ、特定の人口統計学的属性(例:大学生、18~22歳、白人、男性など)を代表していることが多いため、しばしばバイアスが生じます。こうした人為的に構成されたデータセットを用いて学習や評価を行うと、精度は高くなるかもしれませんが、データにバイアスがかかっているため、その結果として作成されたソフトウェアにもバイアスが生じ、実世界での性能は低下してしまいます。
当社のデータのグローバルな多様性
前述の通り、私たちはこのデータを75カ国以上で収集しました。このデータには非常に多様な要素が含まれています。これは重要な点です。なぜなら、世界中の人々の外見は一律ではなく、年齢、性別、民族などに違いがあるからです。そして、私たちのデータは、そうした人口統計学的特徴や文化的多様性を反映したものとなっています。
当社は米国に本社を置く企業であるため、データの大部分が北米や西ヨーロッパから集まっていると思われがちです。しかし、実際はそうではありません。実際、当社が最も多くの動画を収集している国の上位10カ国は以下の通りです:
アジア諸国でこれほど多くのデータを収集できたことは極めて重要です。これらの地域では、感情表現を控えめにすることが多い文化(例えば「礼儀正しい笑顔」など)が見られます。これは、米国のような個人主義的な西洋諸国とは対照的であり、そうした国々では、特に集団の中で人々が感情を大げさに表現することがよくあります。その結果、文化が感情表現の強さに影響を与えることが明らかになりました。 このグローバルなデータを活用してアルゴリズムを学習させることで、当社は微妙なニュアンスを含む感情を高い精度で識別することが可能となります。

このデータの活用方法
アルゴリズムのトレーニングとテストを行います。
当社の科学チームは、機械学習と深層学習の手法を用いて堅牢なインフラを構築し、アルゴリズムを大規模にトレーニングおよびテストできるようにしました。 では、感情を認識し、笑顔とニヤリとした笑いを区別できるように機械を訓練するにはどうすればよいのでしょうか?学習インフラに、笑顔の例を数多く、そしてニヤリとした笑いの例を数多く与えます。システムはそれぞれの感情の重要な特徴を特定し、学習します。そうすることで、次にニヤリとした笑いを見たとき、アルゴリズムは「あ、これ前に見たことある!これはニヤリとした笑いだ」と判断するのです。
当社は、顔の動画データベースを活用して、表情認識アルゴリズム(機械学習の用語では「分類器」とも呼ばれます)の学習および再学習を行っています。当社の技術が正のフィードバックシステムとして機能し、自らのデータをより多く分析することで日々知能を高めていくというのは、実に驚くべき概念です。これを実現するために、私たちは「アクティブラーニング」と呼ばれるソフトウェアシステムの初期バージョンを開発しました。これは、システムの改善をより迅速に進めるのに役立つデータを自動的に判断するシステムであり、まさにビッグデータを活用した機械学習と言えます。
世界中から集めた約600万枚の顔画像データセットを分析し、笑顔やニヤリとした表情を見せる何千人もの人々を抽出しています。この分析作業の目的は、システムが学習できる表情の例やバリエーションをさらに多く見つけ出すことにあります。このプロセスでは、日々進化を続ける表情検出技術を活用し、システムが判断に迷う事例を特定しています。
当社のFACSコーダーチームがこれらの発現パターンを確認し、増え続けるトレーニングデータプールに追加します。その過程で、発現パターンが存在するかどうかを検証します。このラベル付きデータは、アルゴリズムを評価するための「グラウンドトゥルース(真値)」として機能します。 ある意味、これは教師と生徒が難しい問題を一緒に解いていくようなものです。教師(人間のコーダー)が、生徒(当社のアルゴリズム)に対して積極的に指導を行います。このようにしてシステムは継続的に改善されていきます。このプロセスは「アクティブラーニング」として知られています。
この継続的なデータ収集により、当社のアルゴリズムが学習できる表情の多様性と数が飛躍的に増加しています。当社のモデルは、閉ざされた教室で教わるのではなく、世界中を旅して人々の顔を見てきました。さまざまな人々、文化、表情に触れてきたのです。限られた世界観しか持たない未熟な学生とは異なり、当社の感情認識技術は、長年にわたる世界規模の表情分析を経て、今や経験豊富な世界旅行者となっています。
業界をリードする基準とベンチマークを構築する
また、当社のデータセットを活用することで、世界各地域における反応の傾向を示すベンチマークとなる、現時点で世界最大規模の表情規範データベースを構築することができました。私たちはデータを分析し、文化を越えて感情がどのように表現されるかを解明しており、例えばアメリカ人と東南アジアの視聴者との感情表現の違いなど、興味深い相違点が見て取れます。
また、特定の要因(家庭内でのデータ収集か、会場での収集か)や、視聴者が見ているコンテンツの種類(広告、映画の予告編、テレビ番組など)が、感情の表現にどのような影響を与えるかを検証する際にも、こうした基準値は不可欠です。当社は、市場調査製品においてこれらの基準値を公開しており、クライアントは地域、製品カテゴリー、メディアの長さごとに広告のパフォーマンスをベンチマークすることができます。このような基準値を提供している感情分析ベンダーは、他にはありません。
異文化間の知見の探求
最後に、この感情データを分析することで、実に驚くべき知見が得られます。私たちは、性別、年齢、文化、地域ごとに分類された人間の感情反応に関する、豊富な知見の宝庫を手にしているのです。
ジェンダーや文化的な側面について深く掘り下げてみると、興味深い知見が得られ、世界中の女性と男性がそれぞれ何に反応するのかをより深く理解することができるようになります。
- 女性は男性よりも表情豊かです。これは驚くことではありませんが、私たちのデータによると、女性は笑顔を見せる回数が多いだけでなく、その笑顔の持続時間も長いことがわかっています。
- 私たちが1,862人の参加者を対象に行ったある研究では、女性は男性よりも32%多く笑顔を見せ、男性は女性よりも12%多く「眉をひそめる」(怒りの典型的な表情)ことが実際に確認されました。
- 米国では、女性は男性よりも40%多く笑うが、興味深いことに英国では、男女間にその差は見られなかった。
- 20代の女性は、同年代の男性よりもずっとよく笑う――もしかすると、それは恋愛において欠かせないことなのかもしれない。
- スペイン人はエジプト人よりも感情表現が豊かですが、どうやらエジプト人の方がより肯定的な感情を表しているようです。
- 50歳以上の人は、若い人よりも感情表現が25%多い。私は逆だと思っていたので、個人的には驚いた。
- 実は、一人で端末の前に座っているときでも、私たちはかなり感情を露わにしていることがわかりました!しかも、Facebookで猫の動画を見ているときだけではありません!メールを送ったり、ネットショッピングをしたり、さらには確定申告をしているときでさえ、私たちは常に感情を表しているのです!
- その場の社会的雰囲気が、人々の表情にも影響を与えます。研究室やフォーカスグループのような形式的な集団の場では、アジア文化圏の人々は表情が控えめになる傾向があり、西洋文化圏の人々は表情豊かになる傾向があります。こうした違いは、家庭のような非公式な場でははるかに小さくなります。
ここまで来た道のり
15年前、Affectivaが保有していた顔の動画は約25,000本でした。3年前にはその数が10倍の250,000本に増加しました。そして2013年には100万本の大台に達し、これはAffectivaにとって前例のない成長と普及の証だと捉えました。そしてつい先日、500万本の大台を突破しました。 昨日、報告を受けました。現在、5,313,751件の顔を分析済みです。当社のデータベースは日々拡大し続けています。
次は?
これはまだ始まりに過ぎないと私たちは考えています。私たちのビジョンは、ソフトウェアを通じてテクノロジーに人間味を持たせ、私たちの身の回りにあるスマートデバイスや高度なAIシステムが、私たちの感情を読み取り、それに応じて適応できるようにすることです。そして、消費者がデジタルコンテンツにどのように反応しているかを、引き続き高い精度で測定できるようにすることです。感情データベースを拡充し続ける中で、会話中の様子を捉えた動画やアニメーションGIF、運転中の様子など、特定の状況下でのデータもさらに蓄積されています。
私は、Affectivaによって人々が自身の感情プロファイルを作成し、それを日常生活で使用するあらゆるデバイスやデジタル体験に持ち運べるようになる未来を想像しています。それは、私たちのデジタル体験をよりパーソナライズされ、効果的で、本物らしいものにする「感情パスポート」となるでしょう。
私たちは、この世界最高水準の感情データベースをさらに発展させるため、より多くのデータパートナーシップを構築していきたいと考えています。ご興味をお持ちの方は、ぜひご連絡ください!