Affectiva社のAFFDEX 2.0と、主要なオープンソースの顔表情解析ツールを比較しました。本研究では、1,050万フレームにわたるデータにおいて、AFFDEX 2.0が優れた精度、顔検出能力、および特徴量の網羅性を示しており、スケーラブルな実環境での感情検出や研究用途において、商用AIが無料の代替ツールよりも優れている理由を明らかにしています。

はじめに

AIや感情認識技術の分野はここしばらく勢いを増しており、研究者や開発者はしばしば選択を迫られています。彼らは、オープンソースの無料ツールキットを活用するか、あるいは商用グレードのソリューションに投資してデータを分析し、実用的な知見を導き出すか、という選択を迫られているのです。

無料ツールは、その手軽さという点で魅力的ですが、肝心なのは、大規模な実世界のデータセットを用いて実際に検証した際に、その性能が通用するかどうかです。このブログ記事では、オンライン上で利用可能な最も人気のある無料ツールキットを対象に、当社チームが実施した包括的な社内調査の結果について詳しく解説します。

AFFDEX 対オープンソースホワイトペーパー

最新のホワイトペーパー『大規模な顔面動作コーディングのベンチマーク：AFFDEX 2.0 対オープンソース・ツールキット』では、さまざまな撮影条件下で収集された実世界の顔動画データにおいて、精度、カバレッジ、安定性の面で、Affectivaの表情分析技術が、感情の検出と評価に焦点を当てた研究やアプリケーションにおいて、決定的な選択肢であることを実証しています。本ブログでは、この比較分析における主な結果の一部をご紹介します。

その前に、当社のサービスとAFFDEXについて簡単におさらいしておきましょう：

iMotionsでは、Affectivaの技術は以下のようなさまざまな製品に採用されています：

iMotions 表情分析モジュール
広告およびエンターテインメントコンテンツのテスト向け「Affectiva Media Analytics」
Affectiva フェイシャルコーディング API
Affectiva フェイシャルコーディング SDK

これらのサービスはすべて、Affectivaの現行の中核となる顔表情コーディングAIエンジン「AFFDEX 2.0」によって支えられています。当社のサイエンスチームは、Affectivaの顔表情コーディングAIアルゴリズムの革新と改善に積極的に取り組んでいます。また、技術の透明性と、パートナーの皆様に提供する製品・サービスにおける学術的な厳密性を重視しているため、研究成果を定期的に公開しています。

AFFDEX 2.0に関する最新の公開資料では、当社の技術の仕組みについてさらに詳しく解説するとともに、Affectiva独自の感情状態である「感傷」と「混乱」の2つを紹介しています。また、どのような表情が感情状態の判定結果と関連しているかをより深く理解していただくために、詳細を解説した「AIを活用した感情認識入門」ブログや、iMotionsでの表情分析の活用方法に関する包括的なガイドもご用意しています。

方法：AFFDEX 2.0およびオープンソース・ツールキットの評価手法の策定

我々は、AFFDEX 2.0およびOpenFace 2.0やLibreFaceなど、市場で広く利用されている無料ソリューションを検証し、分析を行いました。この評価の目的は、信頼性、顔認識範囲、および表情検出の精度という観点から、これら各ソリューションの性能を比較・評価することにありました。

各ツールキットを公平に比較するため、性別や人種が異なる7,800本以上の顔動画と約1,050万フレームのデータで構成されるデータベースの一部を用いて、これらのツールのテストを実施しました（性別および人種の分布については後述）。

本分析で使用したAffectivaのデータベースに含まれる顔動画の性別および人種・民族別の分布

3つのツールキットすべての出力を整合させるため、科学チームはバランス精度を算出したほか、連続的な強度ラベルを信頼度スコアとして扱い、OpenFaceおよびLibreFaceの推定値をAFFDEXに整合させることで、行動単位や表情の検出を判定する診断能力の指標であるROC-AUC（受信者動作特性曲線下面積）も算出した。

主な調査結果 #1：オープンソースのソリューションは、AFFDEX 2.0と比較して、包括的な表情認識機能セットを提供していない。

分析を行った結果、オープンソースのソリューションではAFFDEX 2.0の機能セットに匹敵できないことが判明しました。AFFDEX 2.0は、表情アクションユニット（AUとも呼ばれる）に関して、より包括的な機能セットを提供しています：

AFFDEX 2.0は顔全体にわたって20のAUを検出するため、研究者は感情や表情についてより詳細かつ精緻な理解を得ることができます。
OpenFace 2.0は、18のAUに対する存在予測と、17のAUに対する強度推定が可能であるとされている。
最後に、LibreFaceは11のAUに対する推定値と、12のAUに対する強度推定値を提供できます。

これらの初期調査結果に基づき、我々は出力結果のうちより単純なサブセット（例：笑顔、眉間のしわ、鼻のしわなど）に焦点を当て、精度を評価しました。その結果については、当社のホワイトペーパーに記載されています。

さらに、表情だけにとどまらず、AFFDEXが提供する知見には、顔のランドマーク、頭の姿勢、AU（表情単位）、そして高次元の感情状態（喜び、悲しみ、驚きなど）を含む、包括的なシグナルのセットが含まれています。

主な知見 #2：すべてのオープンソースツールキットが、自然な環境下で顔を正確に検出できるわけではない。

これまで紹介してきたテスト動画の多くは、被写体がカメラに向かって正面を向いているものでしたが、分析の結果、ツールキットによって顔検出率が大きく異なることがわかりました。

特筆すべき点：

AFFDEX 2.0とOpenFace 2.0は、我々のデータセットに含まれる全テストフレームの約95%において、顔検出に成功した。
これに対し、LibreFaceは全体で83%の検出率を達成した。

これらの結果から、制御されたデータセットにおいては、AFFDEX 2.0およびOpenFace 2.0がLibreFaceに比べて著しく優れた顔検出性能を発揮することが示されています。ソリューションを検討する際には、データ収集をどのように実施するか（例：実験室環境か遠隔か、車内やシミュレーター内か、あるいはコンピューターの前に座っている状態か）、そしてどのような方法が研究のニーズに最も適しているかを考慮することが重要です。

主な知見 #3：オープンソースのツールキットは、表情の検出において高い精度を発揮しない。

3つのツールすべてを評価した結果、AFFDEX 2.0がほぼすべてのAUにおいて優れた頑健性を示していることが判明した。AFFDEX 2.0、OpenFace 2.0、LibreFaceの間で顔検出率に差異があったため、精度分析では、これら3つすべてが顔の存在を検出できたフレームのみに焦点を当てた。

AFFDEX 2.0とOpenFace 2.0を比較すると：

AFFDEX 2.0は、平均バランス精度において8.5ポイントという顕著なリード（AFFDEX：0.753、OpenFace：0.668）を記録し、平均ROC-AUCにおいても0.907対0.721と大きな差をつけました。

また、AFFDEX 2.0とLibreFaceを比較したところ、以下の点において、これら2つのツールキットの間には顕著な違いが見られました：

AFFDEX 2.0は、バランス精度（AFFDEX：0.753、LibreFace：0.624）およびAUC-ROC（0.907対0.677）において、LibreFaceを12.9ポイント上回った。

これらの知見は、LibreFaceやOpenFace 2.0といったオープンソースのツールキットが分析に有用であったり、制御されたデータセットでは良好な性能を発揮したりする一方で、実際の生活環境（“in-the-wild”）で収集された表情データや、動画内で条件が変化する状況（例：背景の照明の変化、顔や体の動き、動画内の頭の角度の変化など）において、その精度は低下する可能性があることを示している。

個々のアクションユニット（AU）におけるAUのバランス精度およびROCAUCの比較について、AFFDEX、LibreFace、OpenFaceの各システム間の詳細については、すべてのAUの内訳をまとめた当社のホワイトペーパーをご覧ください。

フェイシャルコーディングAIツールキットへの投資が重要な理由

広告のテストを行う場合でも、研究室で学術研究を行う場合でも、あるいは自動車の安全機能の開発に取り組む場合でも、正確な結果と包括的な知見をもたらすツールキットを用意することは、研究の成功に不可欠です。

無料のソリューションは研究コミュニティにとって貴重な貢献となり得ますが、我々の調査結果によれば、AFFDEX 2.0は依然として優れたソリューションであり、さまざまな顔の表情にわたって高い汎化性能と精度が求められる大規模な用途に適していることが示されています。

顔検出機能や精度率は、顔表情解析AIツールの性能を評価する上で重要な要素ですが、もう一つ触れておくべき重要な点は、データがどのように出力されるかということです。Affectivaのシグナルは、AU（表情単位）の有無について0～100の尤度スコアを提供しますが、OpenFace 2.0やLibreFaceといったオープンソースのツールキットは、AUの有無を示す二値ラベルと、0～5の範囲の連続的な強度推定値のみを提供します。

研究のニーズや、データにどの程度の詳細さを求めるか（例えば、微細な表情の動きを捉えるなど）によっては、0～100の範囲の生データスケールを利用することで、市場の他のソリューションでは提供されていない、さらなる詳細な分析が可能になります。また、閾値設定に関心があり、iMotions Labの「iMotions Facial Expression Analysis」モジュールをご利用のお客様には、AFFDEX 2.0の閾値設定と集計を可能にするR-Notebooksをご用意しております。

Affectivaの顔表情解析AIについて詳しく知りたい方は、ぜひ弊社チームによるデモをご予約ください！