北陸先端科学技術大学院大学 先端科学技術研究科知能ロボティクス領域の岡田将吾准教授らの研究グループは、音声対話システムと対話中の人の生体信号を含むマルチモーダル情報から本人の内面状態(システムとの対話が楽しい、あるいは退屈であるといった心理的な状態)を推測する機械学習手法を提案した。
音声認識・言語理解技術の発展により、音声対話システムに関する研究開発が進められ、アマゾンアレクサ、シリといった対話システムのサービスが市民にも利用されている。今後、言語理解に加えて対話者の感情変化を理解し、対話者の心に寄り添う共感機能の実現は重要な研究課題といえる。
マルチモーダル感情分析(Multimodal sentiment analysis)は人の発話内容、声色、表情、姿勢から本人の内面状態の自動分析を行う技術で、共感する対話システム・AIの根幹となる技術の一つとなっている。
現在までに提案された多くの感情推定手法では、対話者の発話内容、声色、表情、姿勢といった外面的な情報だけに焦点を当てており、生体信号のような表出しない情報はあまり考慮されていなかった。対話者の内面状態は必ずしも発話内容などに反映されないが、生体信号は本人による意識的な制御が難しいため、内面状態の推定に有用である可能性が考えられている。
今回、生体信号情報を含むマルチモーダル対話データセット「Hazumi1911」を用いて、システムと対話中の人の発話内容(言語情報)、声色(音声情報)、表情及び姿勢(視覚的情報)、皮膚電位(生体信号情報)からそれぞれ単独、あるいは各情報を効果的に組み合わせる方法を探求。人の内面状態を推定する機械学習モデルを提案し、比較評価を行った。推定はシステムの発話と実験参加者の発話の対(交換)ごとに行い、26人の実験参加者から得られた合計2468交換を分析の対象とした。
分析の結果、実験参加者本人が回答した内面状態(どの程度対話を楽しいと感じているか)の推定には、生体信号情報が音声・表情といった情報より有効であったこと、また言語情報と生体信号情報の組み合わせが最も有効であることを明らかにした。このことは、システム対話時の人の内面状態の推定には外面的な情報だけではなく、目に見えない生理学的な反応も有用であることを示唆している。
一方、第三者による客観的評価に基づいた内面状態(どの程度実験参加者が対話を楽しんでいるように見えるか)の推定には言語情報、音声情報、視覚的情報の組み合わせが有効であることも分かった。
主観的評価に基づいた推定とは対照的に、第三者による客観的評価は実験参加者の外面的な情報にのみ依存している(実験参加者の生体信号情報は第三者には分からない)ことから、このような結果が得られたと考えられる。
人の内面状態の推測に有用
対話時に人は必ずしも本心を明示的には示さないが、自身の生体信号を意識的に変化させることは困難。今回、マルチモーダル対話情報の要素として生体信号が人の内面状態の推定に有用であることを新たに見出したことは、人の感情をより理解し、より人間らしくふるまえる対話システムの創出に寄与すると考えられる。この研究で、AIシステムとの対話時に生体信号の新たな側面が世界で初めて明らかとなった。
この研究成果は、米国電気電子学会の学術誌「IEEE Transactions on Affective Computing」のオンライン版に掲載された。