□ポイント■
〇AIによる採点誤りの懸念は依然として存在しており、AIによる自動採点品質を保証することが今後の実用化に向けて大きな課題に
〇人間の採点者とAIが自動採点結果の信頼度をもとに採点作業を分担することで採点の品質を保証する実践的な枠組みを構築し、その実現性を確認
〇研究を足がかりにして、AIによる自動採点の品質保証に向けた研究開発の一層の進展が期待
深層学習を用いた機械学習手法の登場により、AIによる記述式答案の自動採点精度は著しく向上している。一方で、学習データに現れたことのない新しい表現を含む答案に対して適切に採点を行うことは依然として難しいため、AIが予期しない採点誤りを犯すことへの懸念が自動採点の実用化に向けての大きな課題の一つとなっている。
東北大学大学院情報科学研究科/理化学研究所の舟山弘晃研究員(博士後期課程)、佐藤汰亮研究員(現在は楽天グループ株式会社所属)、松林優一郎准教授、鈴木潤教授、乾健太郎教授、フューチャー㈱/理化学研究所の水本智也研究員(現在はLINE㈱所属)らの研究グループは、この課題の解決に向けて、人間の採点者とAIが採点タスクを分担することで、採点品質を保証するための実践的なフレームワークの構築を試みこのフレームワークにより採点品質を適切にコントロールできることを明らかにした。
深層学習を用いたアプローチやオンライン百科事典Wikipediaのような大規模データで言語知識の学習を行ったモデルの登場により、AIによる記述式答案の自動採点精度は飛躍的に高まっています。特に、数十字程度で記述される答案を対象とした短答式記述問題の自動採点では、一部の問題で人間の採点者と同等レベルの採点品質を実現できることが報告されている。
しかしながら、採点AIは学習データ中に存在しないような未知の表現を含む答案に対して、適切に採点を行うことが難しいことが知られており、このようなAIによる採点誤りへの懸念は、自動採点の実用化の大きな妨げとなっている。
研究グループでは、この課題の解決に向けて、自動採点システムと人間が協調的に採点を行う採点フレームワークを構築した。
この枠組みでは、採点AIによる採点結果の信頼性を表す尺度である確信度を活用。各答案に対して自動採点結果の確信度を確認し、確信度が低い場合は人間の採点者による再採点を行う。
具体的な手続きとしては、まず少量の採点済み答案データをもとに、所望の採点品質を実現するための確信度の下限を推定し、実際の自動採点の際に確信度がその下限値を下回った場合に人間が再採点を行うことで、所望の採点品質の実現を図る。
この研究では、国内と英語圏の記述式問題のデータセットを用いて、構築したフレームワークが実際の採点データ上で期待通りの効果を示すか確かめるためシミュレーションを行い、その実現性を明らかにした。
また、人間の採点者間の採点結果の一致率が高い問題ほど、このフレームワークを適用することで、より高品質な採点を低コストで実現可能であることを解明した。
この研究は、自動採点を実際の採点現場において導入する上で重要な観点である採点品質の保証を図るための重要な一歩として位置付けられる。研究で明らかになった知見をもとに、今後自動採点の実用化がさらに進むものと期待される。