声の分析が、声帯の振動や共鳴から得られる音程、音量、発話速度、イントネーションといった音声的特徴を測定し、それらをプロソディ、感情の次元、感情のカテゴリーにマッピングすることで、感情状態、認知、健康状態をどのように明らかにするのかをご紹介します。これにより、臨床研究、行動研究、マーケティング研究、マルチモーダル研究が可能となり、多くの場合、皮膚電気活動(EDA)などの生理学的信号と組み合わせることで、人間の行動に関するより深い洞察が得られます。
Table of Contents
過去1世紀にわたる研究により、声の響きからは、感情の状態や罹患している可能性のある疾患など、自分自身について多くのことが読み取れることが明らかになっています。音声分析は、その汎用性、非侵襲性、そして導入の容易さから、特に有用な手法です。iMotionsは最近、研究用音声分析ソフトウェアの開発をリードする企業であるaudEERINGと新たな提携関係を結びました。
今年の初めから、当社のチームは「音声分析モジュール」と呼ばれる新モジュールの開発に尽力してきました。これにより、すべてのiMotionsユーザーが、マルチモーダルな研究デザインに音声分析を追加できるようになりました。このブログ記事は、研究現場における音声分析の活用事例について詳しくお伝えする一連の取り組みの第一弾となります。
今回はいつもより長めのブログ記事となりますが、ここでは声の生物学的メカニズムについて掘り下げ、研究ツールを活用して行動や心理学の分析に役立つ重要な知見を導き出す方法について解説します。また、これまでに発表された研究において音声分析がどのように活用されてきたか、そして音声分析の研究を行う際に考慮すべき点についても議論します。
声の生物学的メカニズムと、そこから学べるもの
私たちの声は、さまざまな周波数からなる音波の集合体です。この音波は、声帯と呼ばれる2つの筋肉が振動することで発生します。話すとき、肺から送り出された空気が声帯の間を通過する際に、声帯が閉じます。声帯の間を通り抜ける空気が声帯を振動させ、それによって音が生み出されます。
私たちの声は、さまざまな周波数からなる音波の集合体です。これらの音波は発声器官から発せられ、喉頭によって生成されます。喉頭では、筋肉が2枚の声帯(しばしば「声帯」とも呼ばれます)の緊張を制御しています。話すとき、肺からの空気が声帯の間を通過するにつれて、声帯が閉じます。声帯の間を吹き抜ける空気によって声帯が振動し、それによって音が生成されます。
声の音を分類する標準的な方法は、主に2つあります:
- 倍音:倍音とは、音源(声帯)の振動によって生じる高調波のことであり、声帯の形状によって決まります。
- フォルマント:発声器官の大きさや形状によって生じる主要な共鳴周波数です。これらは、/aah/や/eeh/といった音声素の典型的で独特な音を生み出します。発声や歌唱のレッスンを受けると、発声器官を直接鍛え、元の音源を変化させるさまざまなフォルマントを生み出すことができるようになります。
つまり、倍音とフォルマントは私たちの生体構造によって決まるものですが、どちらも訓練によって変化させることが可能です。
音声分析において、私たちが分析・解釈する実際の音響的特徴は、倍音やフォルマントといった特性から推察されるものである。

これらの音声的特徴は、3つの分析レベルに分類できます。ここでは、それらがどのようなものか、またiMotionsのaudEERING音声分析モデルを用いてどのように測定されるのかについて解説します。
レベル1:プロソディ ― 音声分析から導き出される最も基本的な韻律
プロソディ分析は、声を分析するための古典的な手法です。これは通常、臨床研究や言語学的研究に用いられます。プロソディ分析はいくつかの特徴から構成されています。ここでは、iMotionsで利用可能な4つのプロソディ的特徴に焦点を当てます。

図の説明:iMotionsの音声分析機能を用いた音声分析データの可視化例
- 音高:音高とは、音が持つ知覚される周波数、具体的にはその音がどれほど高く、あるいは低く聞こえるかを指します。これは、音波が実際に振動する物理的な周波数である「基本周波数」と密接に関連しています。周波数が高いほど音高は高く感じられ、低いほど音高は低く感じられます。
基本周波数は「F0」と呼ばれ、単位はヘルツ(Hz)で表されます。 これは、1秒間に発生する声帯の振動数、あるいは基本周波数の周期数を指します。iMotionsでは、1つの発話セグメントについて計算される4つのF0統計指標(最小F0、平均F0、最大F0、およびF0の変動)を利用できます。どの指標が最も有益かは、研究課題によって異なります。
例えば、平均F0は、男性の声と女性の声を区別するために利用できます(それぞれ85~155 Hz対165~255 Hz)。平均F0が正常範囲内であるにもかかわらず最大F0が高い場合は、驚きや嫌悪感の表現など、高音域での突発的な発声を示している可能性があります。
- ラウドネス:ラウドネスとは、人間が音をどれほど大きく感じるかを表す尺度です。これは音波の振幅と関連していますが、専門家の間で「心理音響学」として知られる、人間の聴覚の生理学的特性も考慮に入れています。 振幅が2倍の音波でも、私たちはそれを2倍の音量として感じるわけではありません。むしろ、約1.4倍の音量として知覚されます。音波の振幅と知覚されるラウドネスとの関係は、直線的ではなく対数的なものです。さらに、人間の耳は中音域(1~3 kHz)の周波数に対してより敏感であり、同じ振幅であっても低音域や高音域よりも大きく聞こえます。
iMotionsのラウドネス測定値は、こうした人間の聴覚の特性を考慮に入れています。この測定値は、ツヴィッカーの科学的ラウドネスモデルに着想を得たもので、ラウドネスを「ソーン」と呼ばれる単位で測定します。
iMotionsでは、あらゆる種類の音源やマイクに対応できるようモデルが簡略化されているため、音波エネルギーの物理単位への換算は行われていません。したがって、ラウドネス値は0.0(無音)から1.0(最大ラウドネス)までのスコア値として表され、物理的な測定単位は持たないものとなっています。
F0と同様に、ある発話セグメントの音量は、最小値、平均値、最大値、または変動幅として測定することができる。臨床研究では、患者集団を区別するために、音量が頻繁に報告されている。
ラウドネスは信号の振幅と関連しているため、その測定値はマイクの録音レベル(ゲイン)や、マイクと音源(例えば話している人)との距離の影響を受けます。 これらの条件が設定によって異なる場合、異なる条件間で音量値を比較するのではなく、同じマイク(理想的には、口元から一定の距離に固定されたヘッドセットやラペルマイク)や同じ録音レベル(自動録音レベル制御や自動ゲイン制御(AGC)機能は無効にしてください!)といった一定の条件下でのみ比較する必要があります。
- 発話速度:発話速度とは、話す速さを指し、1秒あたりの音節数および1つの発話セグメント内でのその変動として測定されます。発話速度の変動が小さい場合は、声のペースが安定していることを示し、変動が大きい場合はペースが変化していることを示します。例えば、重要な部分では速度を落とし、重要度の低い部分では速度を上げるといった具合です。 変動が大きい場合は、声に出して考えることや認知負荷の高さにより、間(ポーズ)が長く取られたり、「えー」といった躊躇が見られたりする可能性もあります。平均発話速度の値が3~5であれば正常範囲であり、3未満は遅い話し方、5以上は速い話し方となります。発話セグメント内に間(ポーズ)が多い場合、測定された平均値は、実際に感じられる発話速度よりも低くなる可能性があります。
- イントネーション:イントネーションとは、声の抑揚(例えば、1つの発話セグメント内で音高がどれだけ変化しているかを示す指標)を測定するものです。これは、その人の話し方がどれほど単調(イントネーション値が低い)か、あるいは生き生きとしているか(イントネーション値が高い)を測定するのに役立ちます。 文の構造は考慮されません。つまり、イントネーションパターンの包括的な分析は行われません。イントネーションスコアは音程の標準偏差から算出され、通常0.4~1.6の範囲にあります。0.4
未満の値は単調な話し方を示し、1.
6を超える値は生き生きとした話し方を示します
。1.0の値は、標準的で平均的なイントネーションを示します。
レベル2:感情の側面 ― 声に込められた感情表現を捉える
感情次元分析は、性格特性やパフォーマンスに関心を持つ社会・行動科学の研究において特に有用である。感情次元は3つあり、通常は二極軸を持つ3次元空間で可視化される(Xページの図を参照)(図の参照)。これらの感情次元の指標はすべて、-1から+1の範囲の値として報告される。

図の説明:iMotionsの音声分析機能を用いた音声分析データの可視化例
- 覚醒度:覚醒度は、声の音による覚醒レベルを示し、高い値から低い値までの範囲で測定されます。 覚醒度は、ある出来事が人に鎮静・安らぎをもたらしたか、あるいは興奮・動揺を引き起こしたかを推測するために用いられます。
一般的に、覚醒度のスコアが低い(-1に近い)場合は、悲しみ、リラックス、疲労、抑うつ、または満足感を示していると解釈できます。一方、覚醒度のスコアが高い(+1に近い)場合は、通常、喜び、恐怖、憤り、または興奮を示しています。 - ドミナンス:ドミナンスとは、声の力強さの度合いを指し、低い値から高い値までの範囲で測定されます。ドミナンスは、話者がどれほど従順であるか、あるいは支配的であるかを推測するために利用できます。
一般的に、ドミナンスが低い場合は恐怖の状態を示し、高い場合は誇りの状態を示します。 - 価値(ヴァレンス):価値とは、声の感情的ニュアンスを指し、肯定的から否定的までの範囲で測定されます。価値を用いることで、ある出来事がその人に不快・否定的な影響を与えたのか、それとも快・肯定的な影響を与えたのかを推測することができます。
一般的に、否定的な価値は怒り、悲しみ、恐怖、嘆き、あるいは退屈といった状態を示します。対照的に、肯定的な価値はリラックス、満足、幸福、そして興奮といった状態を示します。
レベル3:感情検出
プロソディと感情的次元に基づいて感情状態を導き出す、最も高度なデータレベル。
この指標は、人々のパフォーマンスや出来事に対する感情的な反応を評価する研究において特に有用である。
音声分析の分野では、音声から導き出される4つの感情カテゴリーがあり、これらはすべてAudEERINGの音声分析ソフトウェアを基盤とするiMotionsで利用可能です。それらは、「幸せ」、「中立」、「悲しみ」、「怒り」です。 各感情のスコアは0から1の範囲で表示され、音声セグメントごとに1つの感情スコアが算出されます。スコアが最も高い(つまり1に近い)感情が、その音声セグメントにおける最も支配的な感情となります。

図の説明:iMotionsの音声分析機能を用いた音声分析データの可視化例
感情の次元や感情のカテゴリーは、しばしば二極軸を持つ3次元空間で可視化され、それによって感情の次元のスコアが感情のスコアとどのように相関しているかが示される(図参照)。

研究者たちは音声分析をどのように活用しているのでしょうか?
音声分析はあらゆる分野で活用されていますが、その価値は臨床研究の文脈において特に顕著に発揮されます。例えば、音声分析はパーキンソン病、うつ病、悪性喉頭ポリープのバイオマーカーを特定することができます。また、感情状態の変化を検知できることから、社会科学や行動科学の分野でも音声分析の利用が拡大しています。 iMotionsでは、音声分析が自動車、人間工学、パフォーマンス科学といった新たな研究分野へと進出していることを大変嬉しく思っています。以下では、まず3つの異なる研究分野における音声分析の応用例を紹介し、続いて様々な研究デザインにおける音声分析の活用方法について解説します。
音声分析を活用する主な研究分野は、以下の3つである:
- 臨床研究:臨床研究では、数十年にわたり、臨床集団を区別するために音声分析が活用されてきた。 例えば、構音障害、うつ病、アルツハイマー病、パーキンソン病に関する音声バイオマーカーが、研究によって特定されている(Narendra and Alkul, 2018; Bocklet et al., 2013; Taguchi et al., 2018; Han et al., 2018; Meilan et al., 2013)。 臨床研究において、音声分析は治療効果の評価にも用いられている。例えば、ある研究では、音声分析を用いて社会不安障害の治療効果を評価した(Laukka et al., 2008)。
臨床研究において、音声分析は通常、参加者がコンピュータに向かって発話課題を行う、厳密に管理された実験室での研究の一部として、あるいは臨床面接の一部として発表される。
- 社会・行動科学の研究:社会・行動科学の分野では、声がどのように人格を反映し、周囲の人々にどのような影響を与えるか、あるいはさまざまな要因が他人の声の知覚にどのように影響するかをより深く理解するために、音声分析が広く活用されています。 例えば、月経周期が女性の男性の声の特徴に対する好みにどのような変化をもたらすかを評価した著名な研究(Puts, 2005)や、声の響きを変えることが自己認識にどのような影響を与えるかを評価した研究(Stel et al., 2011)があります。また、音声分析は選挙の結果を予測するためにも利用されています(Banai et al., 2017)。
臨床研究と同様に、社会科学や行動科学においても、音声分析の研究はしばしば管理された実験室環境で行われます。しかし、この研究分野では、事前に録画された動画や音声ファイルを用いて「実生活」の声を分析する方が一般的です。
- マーケティングおよびビジネス調査:マーケティングおよびビジネス調査の分野では、音声分析を活用して、コミュニケーション戦略や販売戦略など、主要な業務のさまざまな側面を最適化しています。商業調査の研究者は、その調査結果を公表することはほとんどありませんが、音声分析がコールセンターやUXデザインにおいて商業的に活用されていることは広く知られています。
- 音声分析は、データ収集の柔軟性が高いという点で特に有用です。そのため、音声分析が極めて多様な研究デザインで用いられることは珍しくありません。音声分析が適用される代表的な研究デザインには、以下のようなものがあります:
- 思考発話テスト:思考発話テストとは、参加者が課題に取り組んでいる間、頭の中で考えていることを声に出して話すよう指示される研究手法を指します。 この手法はユーザーエクスペリエンス(UX)調査でよく用いられており、例えば以下の研究を参照してください:https://dl.acm.org/doi/abs/10.1145/3325281 + https://www.mingmingfan.com/papers/CHI21_OlderAdults_ThinkAloud_UXProblems.pdf
- 二者間の相互作用:二者間とは、コミュニケーションをとる二人の人間を指します。二者間の研究は、インタビュアーと被験者によるインタビュー(後述)とは異なります。なぜなら、二者間の相互作用は通常、同僚、友人、あるいはパネリスト同士の自然な会話として行われるからです。 例えば、音声分析を用いて、チームタスク中の二者間の感情状態を評価したり(https://dl.acm.org/doi/abs/10.1145/3136755.3136804)、地位の低い人と高い人との間の声のトーン(およびその変化)を調査したりすることができる(https://psycnet.apa.org/doiLanding?doi=10.1037%2F0022-3514.70.6.1231)。
- プレゼンテーション:聴衆を惹きつける声でプレゼンテーションを行うことがますます求められており、音声分析はすでに、聴衆を強く惹きつけるスピーカーとそうでないスピーカーを見分ける上で重要な役割を果たしています。 例えば、プレゼンテーション中のスティーブ・ジョブズの声の特徴と平均的な話者の声を比較した以下の研究を参照してください:
https://www.sciencedirect.com/science/article/abs/pii/S0747563216304873 。こうした点から、音声分析がパフォーマンスの最適化やパブリックスピーキングのコーチングに応用されるのは理にかなっています。 - 面接:面接は、職場や医療現場において日常的に行われる活動である。特に臨床面接については、うつ病(https://dl.acm.org/doi/abs/10.1145/2663204)などを例に、音声分析を用いた研究が数多く行われている。2663238)、冠動脈疾患(https://journals.lww.com/psychosomaticmedicine/Citation/1977/07000/Assessment_of_Behavioral_Risk_for_Coronary_Disease.3.aspx.)などが挙げられる。
- 自動車分野:音声分析はまだまだ新しい分野ではありますが、自動車研究において大きな可能性を秘めています。その主な理由は、音声分析が非侵襲的なセンサーであり、被験者に追加のハードウェアを装着させることなく車内で記録できる点にあります(ただし、周囲の騒音によっては、最高品質の録音を得るためにマイクの使用を検討する必要があるかもしれません)。 音声分析は、疲労や薬物使用の検知に活用されており、ドライバーの認知状態を自動的に識別しようとする自動車メーカーにとって、画期的な技術となる可能性があります。当社は、このアプローチの実現可能性を実証するために、社内での研究を実施してきました。
- 思考発話テスト:思考発話テストとは、参加者が課題に取り組んでいる間、頭の中で考えていることを声に出して話すよう指示される研究手法を指します。 この手法はユーザーエクスペリエンス(UX)調査でよく用いられており、例えば以下の研究を参照してください:https://dl.acm.org/doi/abs/10.1145/3325281 + https://www.mingmingfan.com/papers/CHI21_OlderAdults_ThinkAloud_UXProblems.pdf
音声分析調査を行う際に考慮すべき点
他のあらゆる研究と同様、実験を設計し、最高品質のデータを収集する際には、考慮すべき点がいくつかあります。
まず、適切なマイクを使用し、適切な環境で録音を行うようにしてください。マイクに関しては、2020年以降に製造されたほとんどのパソコンには内蔵マイクが搭載されており、分析用の音声録音には十分適しています。ただし、環境によっては、外部マイクの使用を検討した方が良い場合もあります。その場合は、信頼できるメーカー製のUSB接続マイクを使用するようにしてください。 録音環境については、騒音が少ない場所でデータを収集することを常にお勧めします。実験室やオフィス、あるいは参加者の自宅などが考えられます(ただし、テレビの電源を切り、犬は庭に出しておくよう、参加者に伝えておくことを忘れないでください!)。
各刺激について、参加者1人あたり60秒以上の音声データを収集することをお勧めします。また、グループ間でデータを集計する予定の場合は、(グループごとに)20~40人のサンプルサイズを見込んでおく必要があります。もちろん、この推奨事項は研究の目的や提示する刺激によって異なります。
音声分析が自分に適しているかどうかを見極める方法
ここまでで、音声の特徴を測定・活用して、人間の行動、認知、パフォーマンスについてより深く理解する方法や、他の研究者がこの技術をどのように活用しているかについてご理解いただけたかと思います。ご自身の研究においても、音声分析が役立つのではないかと考えているかもしれません。以下に、検討すべきいくつかの質問を挙げておきます:
- あなたの実験では、参加者が自然な形で話す場合(例えば、会話中や体験に対する反応として)と、研究デザインの一環として話す場合(例えば、インタビューや思考発話テスト)のどちらが含まれますか
- 人々の感情の状態を理解することに興味はありますか?
- 新しいバイオマーカーの特定や、さまざまな診断のための予測モデルの構築に関心はありますか
以下の質問のどれか一つでも「はい」と答えられるなら、音声分析があなたにぴったりかもしれません!
しかし、ちょっと待ってください。音声分析は研究に刺激的な要素を加えるものですが、人々の行動や思考、感情を解明できる技術は他にもいくつかあります。音声分析は、他のセンサーでは捉えられない人間行動の独特な側面を捉えることができますが、表情分析、視線追跡、皮膚電気反応などの他のセンサーと組み合わせることで、その威力はさらに高まります。
