川崎医科大学医学部の神田英一郎学長付特任教授(データサイエンス・腎臓内科学)らのグループは、同大高齢者医療センターの柏原直樹病院長とともに、医学用語のバーチャル空間をAIによって構築した。この空間内の医学用語のネットワークを詳細に検証したことにより、慢性腎臓病(CKD)患者を文章のように扱うことができることを世界で初めて医学的かつ数学的に証明。CKDの進行を正確かつ容易に予測できるシステムと予後指標を開発した。<研究のポイントは後述の一覧参照>
医学研究では、大量の論文を読むことが不可欠。しかし、CKDに関する論文でも年間1万本以上発表されており、全ての論文から、新しい研究シーズを見つけ出すことは非常に困難といえる。
そこで、同大で医学論文を解析するシステム「Doctor K」を開発したことをきっかけに、神田特任教授らは研究を開始した。
論文が科学的に正しいことを前提に研究は進められる。また、医学用語の関係性は、当然医学概念を反映し、ネットワークを構築していると考えられる。しかし、その正しさは概念的なものであり、どの程度正しいのか、現実の患者データとマッチしているのかについて検討された研究はこれまでなかった。
近年、ChatGPTやBardのようなNLP AIの開発が進められ、話題になっている。もともとWord2Vecというモデルによって、単語をベクトルとして計算できるだけでなく、言葉の意味も保 たれていることが示されたことが、今日の隆盛の始まりとなっている。
そこで、神田特任教授らは、Word2Vecを用いて16万5271本の医学論文を解析し、医学用語のネットワークを構築。さらに、同ネットワーク内の医学用語の関係性を手作業で確認。AIの解析が、医学的な意義とベクトルとしての計算の両方を担保していることを明らかにした。
この作業は、あまりに骨が折れ、大変すぎるため、これまで誰も行ったことがなかった。
続いて、このネットワークと現実のCKD患者データ(2万6433人)の関係を、最新数学の圏論を基盤とした解析方法で確認した。圏論の活用は、物事の関係性を解析する分野で、データサイエンスや認知科学で注目されているが、臨床研究系分野では世界初の試み。
この取り組みにより、論文の医学概念と実際の患者データが、高い精度で一致していることが示された。
患者の予後予測を行うには、誤診を少なくし、高い正確度が要求される。また、どのようにAIが解析しているか明らかにならなければ、信頼することができない。この研究により、NLP AIが正確に現実の疾患病態を反映し、信頼できることが分かった。
<研究のポイント一覧>
・ポイント1 自然言語処理(NLP)
AIの解析が、現実の疾患病態を反映していることを、ビッグデータと最新数学(圏論)で証明。NLP AIの医学的信頼性が示されました。
・ポイント2
患者の情報を、実際の数値が無くても、文章のように扱うことが可能であることが示された。
○活用例1:CKDの進行予測
高齢者、男性、糖尿病、降圧剤Aを使用、尿蛋白ありなどと、入力することで、透析などが将来どれくらいの確率で生じるか、予後を正確に予想できる。この技術は、近年話題になっているNLPAIで容易に実用化することが可能。
○活用例2:CKDの進行の新しい指標
患者データを医学用語バーチャル空間内で解析することで、正確に予後を予測することが可能になった。さらに、患者ベクトルと透析ベクトルの関係(内積)が新しい予後指標であることが示された。
・ポイント3:医学用語のネットワークが、CKDの病態を反映していることを示した。
○活用例:新規治療法のシーズ探索
信頼性の高い研究シーズ探索エンジンの基盤となる。これにより、新規治療法の開発や疾患の病態解明が促進される。