情報・システム研究機構の国立情報学研究所(NII)と(株)不満買取センター(FKC)は、研究コミュニティーへの研究用データの提供で新たに提携し、NIIは2月27日、FKCが運営するサービス「不満買取センター」に投稿された「不満」から作成された「不満カテゴリ辞書データ」について、研究コミュニティ―への無償提供を始めた。
「不満買取センター」は、世の中のあらゆる「不満」を買い取るもので、これまで買い取られた「不満」は550万件以上。NIIとFKCは昨年5月から、「不満買取センター」で買い取られた「不満」の投稿と投稿者のデータからなる「不満調査データ」の提供でも提携しており、「不満カテゴリ辞書データ」の提供はこれに続くものとなる。
提供しているデータは、平成27年(2015年)3月18日から平成28年(2016年)12月1日までの間に投稿された「不満」のうち約300万件を対象に、特定のカテゴリの不満の投稿に頻出する単語をカテゴリ別にまとめたもの。
「不満カテゴリ辞書データ」のカテゴリ体系は総務省の日本標準産業分類を参考にFKCがカスタマイズした体系で、今回は17カテゴリのデータを提供する。データに含まれるのは「カテゴリ」「単語」「単語のカテゴリ所属スコア」のみで、特定の企業や個人につながる情報や投稿者を特定できるような個人情報は一切含んでいない。
「不満カテゴリ辞書データ」は、NIIデータセット共同利用研究開発センターの「情報学研究データリポジトリ(IDR)」を通じて提供する。NIIでは22年にIDRを設置し、さまざまな企業や機関が保有する各種データセットを受け入れて情報学分野の研究コミュニティーに提供を行ってきた。
平成27年(2015年)4月、情報学研究に有用なデータセットを整備して研究者に提供するとともに、データセットの構築と活用基盤に関する研究開発を行う同センターを新設。研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいる。
不満カテゴリ辞書データ提供の背景
近年、AIや機械学習の実務への導入が進んでおり、この動きは今後さらに活発化すると予想される。テキストデータに対する機械学習の実務応用も進んでおり、その一例として、テキストデータの「自動カテゴリ分類」が挙げられる。
しかし、自動カテゴリ分類のためには、テキストデータの収集と、個々の特徴に応じた「学習データ」の抽出を行う必要がある。「不満カテゴリ辞書データ」を利用することで、テキストデータのカテゴリ分類を実施する機械学習モデルの作成を容易に行えるようになる。
FKCは不満意見を利用したデータドリブンな意思決定による「不満のない社会の創出」を長期ビジョンにすえ、収集によって、不満意見を利用した意思決定や製品改善の支援を行っている。
「不満買取センター」サービスは一般生活者から最新の世相を反映した意見を収集しており、FKCでは、こうした特徴のある「不満」から機械学習のための「学習データ」を作成すれば、「自動カテゴリ分類」のための有用なデータになると考え、一般向けの公開を決めた。今回のデータ提供により、人工知能および自然言語処理の研究の発展に寄与できることを願っている。
FKCは「不満のない社会の創出」実現のためには社会へのデータ還元が必要不可欠と考え、分析レポートの一般公開をはじめ分析結果の社会へのデータ還元を実施している。今後も、データ還元の取り組みを一層強化していく方針。