医療AIが医師に追いつく日 ― 最新医療AIの診断技術開発
最近のAIの進歩はめざましく、医学・医療の診療にも徐々に取り入れようとする動きがある一方で、AIの信頼性に対してはまだ懐疑的な声も聞かれます。一体AIは医師の専門性にどれだけ近づけるのか?この命題に医療AIが挑戦をし続けており、近年では、これまで医師の聖域であった医学診断を、正確に行なうことが可能になりつつあります。今回は、その激化する医療AIの開発競争の最前線に迫ります。
近年の医療AIによる医学診断
2020年代に入り、医療AIによる医学診断に関する最新の研究では、専門医と比較したAI診断精度について様々な進歩が示されています。皮膚がん診断において、AIは全ての臨床医と比較して優れた感度(87.0% 対 79.78%)と特異度(77.1% 対 73.6%)を示し、かつ皮膚科専門医と具体的に比較した場合の性能は同等でした1 。超音波検査による甲状腺結節診断では、AIと放射線科医は同等の性能を示し、診断オッズ比に統計学的有意差は認められませんでした2,3。プライマリケアにおいて遠隔バーチャルケアを実践している医療機関においては、102,059の症例の84.2%でAIが出した診断が医師の診断にも採択されており、様々な疾患の診断で高い一致率を示していました4。AI支援は特に非専門医に有益で、若手放射線科医や皮膚科以外の研修医の診断精度を有意に向上させていました5-7。
脳神経内科の領域では、高度な専門知識と時間のかかる作業を必要としていた脳波解析にAIを導入すると、数時間かかる解析が数分で完了するだけでなく、ある研究では専門家と同等の精度で解析できることが示されています8。さらに、時に正確な診断が困難な頭痛の診断に際して、日本の3施設(頭痛センター・脳神経外科)による共同研究チームが、頭痛問診票で得られる17 項目の情報のみから、片頭痛、緊張型頭痛、三叉神経・自律神経性頭痛、その他の一次性頭痛、脳血管障害などの二次性頭痛の 5 種類の頭痛を、正解率 76%、感度 56%、特異度92%で診断できる人工知能(AI)を開発しました。特に専門医の治療が必要な片頭痛の診断精度は 91%、三叉神経・自律神経性頭痛の診断精度は 84%で、さらにこの AI を用いることで非頭痛専門医の頭痛診断精度が 46%から 83%まで向上しました9。
このように、AIは特定の領域においては専門医と同等またはそれ以上の性能を示しつつあるものの、一般的に幅広い領域でより期待されるのは、非専門医の能力を向上させることにありました。
生成AIによる診断性能の実力―医師とAIとの大規模比較研究
こうしたAIの研究事例が積み上がっている中で、現在広く一般に普及しつつあるChatGPTをはじめとする大規模言語モデル(LLM)の臨床応用とその可能性については、OpenAI社のChatGPTの公開が2022年11月で、まだ新しい技術でもあり、エビデンス構築があまりなされてきませんでした。
そんな中、日本を中心とする国際研究チームが、生成AI(ChatGPTやGeminiなど)の医学診断能力を医師と比較した世界初の大規模メタ解析を実施し、その結果を2025年3月にnpj Digital Medicine誌に発表しました10。研究チームは2018年6月から2024年6月に発表された18,371件の研究から、厳格な選定基準により83件の研究を選出し、GPT-4、GPT-3.5、Gemini、Claudeなど多様な生成AIモデルの診断性能を体系的に評価しました。対象分野は一般内科、放射線科、眼科、救急科など幅広い診療科にわたっており、現実の医療現場に即した評価を実現するものでした。
まず生成AIの診断正答率が全体で52.1%(95%信頼区間:47.0-57.1%)を示しました。一見この数値は低く見えますが、実はこの数値は非専門医との比較では統計的有意差がなく(差0.6%、p=0.93)、ほぼ同等の性能を発揮したという結果でした。GPT・Llama・Gemini・ClaudeなどのAIモデルのうち最新モデルは、一部で(統計的有意差は認められなかったものの)非専門医を上回る傾向もみられました。ただし、専門医との比較では、専門医が平均15.8%高い正答率を示し、明確に専門医に軍配が上がりました(p=0.007)。この結果は、生成AIが現時点では専門医の代替にはならないものの、医師不足地域での一次診断支援や医学教育において有用な可能性を示唆していると考えられました。
診療科別では例えば皮膚科などで良好な成績が見られ、これはAIの画像パターン認識能力が皮膚病変の視覚的診断に適していることを反映したものと考えられました。一方で、本研究では分析対象の76%が高バイアスリスクの研究であることも明らかになり、より厳密な外部検証の必要性が浮き彫りとなりました。
この研究での結論としては、生成AIは専門医レベルには達していないが、非専門医レベルの診断支援ツールとしての実用性は十分示されたということです。今後はモデルの専門特化と厳格な検証研究の蓄積が必要なこと、そして今回の成果をふまえ、医療現場でのAI活用の新たな指針を示して行くことが必要と考えられました。
Sequential Diagnosis Benchmark:実臨床に近い診断推論評価AIシステム
このように、先の大規模比較研究では、生成AIは全体として専門医レベルに達していないという結論で、ある意味で医師の優位性が保たれた形になったわけですが、それもつかの間、その4ヶ月後の2025年7月に、マイクロソフトが新たなAI評価システムを発表し、経験豊富な人間の医師の診断精度を遙かに上回る成績を出した、と発表して大きな話題になりました11。
- 従来の診断AI評価の問題点と新しいアプローチ
これまでの大規模言語モデル(LLM)の医療診断評価は、完全な症例情報を一度に提示して多肢選択問題として答えさせる静的な評価が主流でした。しかし、実際の臨床現場では医師は限られた初期情報から始まり、段階的に問診、検査を行い、診断仮説を修正しながら最終診断に至ります。このような現実的な診断プロセスを実現するため、Microsoftの AI研究チームは「Sequential Diagnosis Benchmark(SDBench)」という新しい診断評価システムを開発しました11。
SDBenchは、New England Journal of Medicine(NEJM)の臨床病理カンファレンス(CPC)症例304例を、段階的な診断プロセスを踏んで評価テストしました。システムは「Gatekeeper」(データ提供役)、「診断エージェント」(診断行動役)、「Judgeエージェント」(診断評価役)の三者エージェントによるいわば「合議体」によってブレイン・ストーミングする事によって診断をするアプローチが用いられました。
各症例は簡潔な初期患者情報(2-3文)で始まり、診断エージェント(AIまたは医師)が問診、検査オーダー、診断決定の3つのアクションを選択しながら段階的に診断プロセスを進行します。「Gatekeeper」エージェントは完全な症例情報を保持し、診断エージェントからの要求に対して、実際の臨床現場で取得可能な情報のみを提供しますが、元症例に記載されていない検査結果についても、症例に矛盾しない現実的なデータを合成・補完し、情報の不足によって診断プロセスが進まなくなる失敗を回避する事ができるようになっています。最終的に、Judgeエージェントが診断の正解を判定します。
- コスト効率の評価と品質チェックシステム
仮に診断精度が上がっても、その検査費用が法外に高価であっては、現実的な医療提案となりません。SDBenchの特徴は、診断精度だけでなくコスト効率も評価対象とすることです。検査費用は2023年の米国大規模医療システムの価格データに基づき、アメリカでの医師の診察料(1回300ドル)と各種検査費用を積算します。これにより、質の高い医療を現実的で持続可能なコストで提供するための評価が可能になっています。
今回、研究チームはSDBenchに加え、さらに「MAI診断オーケストレーター(MAI-DxO)」を開発しました。これは単一のLLMがいくつかの専門的役割(鑑別診断、バイアス排除、コスト効率の考案、内部整合性など)を演じる品質チェックシステムで、費用管理(例えば、最小のコストで最大の効果が得られる検査を考えるなど)を含め、SDBenchの性能をさらに向上させることを可能にしています。
これらの結果からは、今回のAIの集合的推論アプローチによる医療AIが、実臨床においても経験豊富な人間の医師を凌駕するほどの診断能力を有する可能性を示しています。
- 臨床診断精度の向上
こうしたLLMのインタラクティブな組み合わせによってもたらされる診断精度に関して、21名の経験豊富な医師(中央値12年)の診断精度と比較されました11。まず、21名の平均診断精度は20%、平均医療コスト2,963ドルであったのに対し、OpenAIのo3モデルとMAI-DxOの組み合わせは80%の診断精度を達成し、医師の4倍の診断性能を示しました。さらに、医療コストの点では、医師より20%、そして既製の未加工o3モデルより70%のコスト削減を実現させました。最高精度設定では85.5%の診断精度を達成し、OpenAI、Gemini、Claude、Grok、DeepSeek、Llamaファミリー全体で平均11ポイントの性能向上を示しました。
これらの結果からは、今回のAIの集合的推論アプローチによる医療AIが、実臨床においても経験豊富な人間の医師を凌駕するほどの診断能力を有する可能性を示しています。
- 研究の限界
まず、開発されたAIシステムが、個々の医師と比較されていますが、このAIシステムが集学的なアプローチを取っていることを考えると、むしろ専門医チーム全体と比較する必要もあるでしょう。さらに、NEJMのCPC症例は診断困難例に偏っており、一般的な外来診療の疾患分布とは異なっており、さらに健常者や良性疾患の症例が含まれていないため、偽陽性率の評価ができておらず、今回の研究結果の一般化には慎重になるべきです。そして、コスト推算も米国の特定医療システムに基づいており、地域差や個別要因が考慮されていません。
おわりに ー 将来への展望
日本神経学会のホームページにもありますが、AIは身体・神経診察を実際に行うことはできず、その点では医師の診断を完全に代替できるものではありません12。また、実臨床での患者の症状の訴え方は極めて多彩で、例えば片頭痛の頭痛を”生理痛がある”と訴えたり、片頭痛に伴う吐き気を”乗り物酔いがある”と訴えることもあり、片頭痛ひとつとっても「頭痛がある」と訴えるとは限らず、AIが実臨床で活躍するためにカバーしなければならない鑑別診断の範囲は膨大なものになります。ただ、上記の様な様々な限界はありつつも、今回マイクロソフト社から発表されたAIシステムは、従来のシステムの問題を克服し、まさに実臨床で行われている集学的・段階的アプローチを実装しつつ、その質を飛躍的に高めていると言う点で、今後の医療AI開発の方向性を指し示すものになりそうです。AI診断が専門医の代わりになるのかーその挑戦はすでに始まっており、もはや夢物語ではなくなりつつあります。


