2024年12月26日 AIによる手話単語の新認識手法 大阪公立大研究Gが提案 精度が15%向上

手話は、手や腕の動き、手指の形、顔の表情などの情報で単語を作り、その単語を組み合わせて会話をする視覚言語。手話単語の多さが手話の習得を難しくしており、AIを用いて動画から手話単語を自動で認識する研究が活発に行われている。これまでの研究で使用されていた手法では、手話を大まかな動きの情報として捉えていた。しかし手話は、手指の形の細かな違いや、手と体の位置関係によっても意味が異なるため、従来の手法では手話単語を高精度に認識できないという問題があった。

大阪公立大学大学院情報研究科の井上勝文准教授、岩村雅一准教授らの研究グループは、アメリカの手話単語のAIを用いた認識手法について研究を進めている。この研究では、従来の認識手法である上半身の大まかな動きの情報に、手や顔の表情などの局所情報と、手と体の位置関係を表す骨格情報を加えた。これにより、手話単語の認識精度が従来手法と比較して10~15%向上した。この研究成果は11月11日に国際学術誌「IEEE Access」に掲載された。

 

聴覚障害者とコミュニケーションを取る方法の一つとして、手話がある。手話は、手や腕の動き、表情、手の形状、手と体の位置関係などの情報を組み合わせることで表現される単語(手話単語)を、さらに組み合わせることで会話を実現する視覚言語の一種。

世界各国独自の手話が体系化されており、どの国の手話も数千個以上の手話単語が存在している。習得すべき手話単語の多さが、手話の習得を難しくしている要因の一つと考えられており、手話単語を表現する話者を撮影した動画から、AIを用いて手話単語を自動で認識する研究が盛んに行われている。

これまでの手話単語認識に関する研究では、手話を「お辞儀をする」「手を振る」などの一般的な動作の一種と見なし、話者の大まかな動きの情報を捉える手法を用いてきた。しかし実際には、手の形の細かな違いや、手と体の位置関係の違いによって意味が異なるため、大まかな動きの情報だけでは手話単語を高精度に認識できないという問題があった。

大阪公立大の井上准教授らの研究では、別の研究グループによる顔認識研究で、顔全体の情報に加えて目や口などの局所領域の情報も組み合わせることにより、顔認識精度が向上したという知見を参考にした。

研究グループは、手話を表現している話者の上半身の大まかな動きの情報に、手や顔の表情などの局所情報と、手と体の位置関係として人物の骨格情報を加えることで、手話単語の認識精度を向上できるではないかと考えた。

これを実現するために、上半身と局所領域の情報には深層学習モデル、骨格情報にはST‐GCNを用いて、情報ごとに手話単語を認識した結果を統合した。さらに、アメリカの手話単語認識データセットで検証した結果、話者の大まかな動きの情報のみを用いた従来手法と比較して、認識精度を10~15%向上できることが判明した。

 

この研究によって手話単語認識の精度を高めることができた。また今回提案した手法は、どの国の手話にも適用できるため、さまざまな国で聴覚障害者の人々とのコミュニケーション活性化に繋がることが期待される。

研究グループでは、今後は手話単語認識のさらなる精度向上や、この研究手法を用いた手話翻訳の構築と精度向上などの課題解決を目指すこととしている。


株式会社官庁通信社
〒101-0041 東京都千代田区神田須田町2-13-14
--総務部--TEL 03-3251-5751 FAX 03-3251-5753
--編集部--TEL 03-3251-5755 FAX 03-3251-5754

Copyright 株式会社官庁通信社 All Rights Reserved.