８言語のリアルタイム識別を実現　ＮＩＣＴ、翻訳アプリに実装しライセンスへ

HOME » 今日の話題 » ８言語のリアルタイム識別を実現　ＮＩＣＴ、翻訳アプリに実装しライセンスへ

2018年11月8日８言語のリアルタイム識別を実現　ＮＩＣＴ、翻訳アプリに実装しライセンスへ

国立研究開発法人情報通信研究機構（ＮＩＣＴ）は、人の発話が何語であるのかを入力音声のみから識別する日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシアの８言語の言語識別技術を開発した。

従来の一般的な方式では、１０秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションではあまり使われていなかった。これに対して、言語識別に必要な発話の特徴を精度よく抽出し、かつ高速演算できるニューラルネットワークを提案し、１．５秒程度の短い発話でも０．１５秒以内に即座に識別技術を開発した。

言語識別の公開アプリケーションとしては、グーグル社が提供する音声翻訳アプリに搭載された２言語識別機能及び４言語識別アプリがある。これらは、スマートフォン用音声翻訳アプリやスマートスピーカにおいて、指定した２言語及び４言語の中から言語識別を行う機能。今回、ＮＩＣＴが開発した方式は、倍の８言語を即座に翻訳できる。

これにより、何を話しているか分からない外国人の言葉も即座に識別し、言語設定の必要もなく音声認識や自動翻訳ができるようになる。今後、識別言語数の拡張、識別精度向上を図っていく。また、音声翻訳アプリケーションに実装するとともに、民間企業にライセンスする予定。

多言語音声認識、機械翻訳、音声合成の研究開発に取り組んでいるＮＩＣＴでは、スマホ用アプリを実証実験のために無料公開している。音声アプリの大半は、入力される言語が何語であるかをあらかじめ指定する必要があるため、ユーザにとって不便だった。さらに、相手が話している言語が分からない場合には、何語かを指定すること自体が困難だった。

これを解決する方法として、入力発話が何語なのかを識別する言語識別技術がある。従来の一般的な方式では、１０秒程度の長い発話ではないと識別が困難であるため、実際の音声アプリでは使いにくいという課題がある。

今回ＮＩＣＴは、この課題を解決するために、言語識別に必要な発話の特徴を精度よく抽出できる長い発話用のニューラルネットワークを変換して、短い発話でも識別精度が高く、かつ、リアルタイムで識別可能な小規模ニューラルネットを構築する方式を提案した。

この方式により、短い発話でも即座に識別できる技術を開発し、８言語で９０％以上の識別率を実現した。この技術により、これまで必要であった入力言語の事前指定が不要となるため、何語を話しているか分からない外国人の言葉も即座に識別し、音声認識、機械翻訳ができるようになる。ＮＩＣＴでは、１０月２５日から２７日まで開催された「けいはんな情報通信フェア」にデモ展示し、注目を集めた。

中央省庁及び都道府県の機関や関連団体などの事務従事者を対象に、執務上の参考に供するための各種情報を正確・確実・迅速にお届けしています。

2018年11月8日 ８言語のリアルタイム識別を実現 ＮＩＣＴ、翻訳アプリに実装しライセンスへ

2018年11月8日８言語のリアルタイム識別を実現　ＮＩＣＴ、翻訳アプリに実装しライセンスへ