RSNA 2024からみるAI ...-ICT技術調査 デジタルヘルス情報提供-株式会社テックナレッジハウス
BLOG
/ デジタルヘルスの未来
RSNA 2024からみるAIの医療での活用 – 第2回 医療画像診断のマルチモーダル化 –
前回2/5のブログ(放射線医療でのAI活用をRSNA2024からみる – 第1回 AI活用の現状 –)に続き、今回は、2024/12にシカゴで参加したRSNA 2024で話のあった医療画像診断のマルチモーダル化の進化につき、私個人で調べたことも多少付け加えて簡単に説明したい。
前回の繰り返しになるが、ヘルスケア分野でのAI活用は、画像診断の分野が最も進んでおり、米国の医療機器の認定を行うFDAの審査ではAI診断アルゴリズムはおよそ1,000登録されているが、この内80%近くが医療画像診断に関するものということだ。ただ、生成AIを使ったアルゴリズムでまだ承認されたものはない。
しかし、生成AI活用は、医療の分野では、昨年10/10掲載のブログ(AI応用分野国際学会KDDをふまえた医療へのAI適用動向:診療支援、マルチモーダルAI解析、生成AI)でふれたようにアンビアントコンピューティングから徐々に広がりつつある。これも繰り返しになるが少し振り返ってみると、具体的にアンビアントコンピューティングはAIで患者と医師の会話のテキスト化を行う。ここから更には電子カルテにドラフトとして記入する(必要な個所に必要なことを記入する)ところまで行うようになってきている。また、患者の診療前の準備としての電子カルテのサマリーや退院・勤務引継ぎなど用のサマリー作成などでの利用のトライアルにも広がってきている。
一方、生成AIの活用により画像診断の分野では、画像から診断レポートドラフトを自動で生成するというようなことが、限られた分野で可能になりつつある。今回は、この点につき、これを可能としているマルチモーダル化の進化につき現状と将来の展望を簡単に説明したい。
生成AIは、今はLLMとかファウンデーションモデルと呼ばれる生成AIの基盤が、少し前までは文字用とか画像生成用というように1つの基盤で扱えるデータの種類が1つだったが、徐々に同時に扱えるデータの種類がふえてきた。これを生成AIのマルチモーダル化という。
それだけでなく、本格的に医療に使えるように、この汎用の基盤に、更に大量の医療関係データを読み込ませて学習し、医療に特化した基盤を作成し、医療に特化した画像とテキストを扱うことが可能となってきた。
RSNA2024のキーノート(Plenary Talk)の”ITによる医療変革(AI`s Transformation of Medicine)”でクリーブランド・クリニックに長く勤め教授職にもあった心臓専門医のEric Topol博士は、医療のマルチモーダル化において放射線の領域が最も進んでおり、下の表1のように進化しているとした。この場合、入力できる情報は、医療画像、電子カルテデータ、マルチオミックスデータなど患者ごとの様々な医療情報である。
表1での放射線科のマルチモーダル化の進化は、複数の医療情報を用い、(生成)AIの扱うデータの種類もふえていく過程である。2016年に胸部X線画像診断から始まったのをレベル1として、以降のマルチモーダル化の進化がまとめられている。
表1 放射線科でのマルチモーダル化
マルチモーダル化のレベル | レベル1 | レベル2 | レベル3 | レベル4 | レベル5 |
登場時期 | 2016年 | 2018年 | 2022年 | 2024年 | 2025年以降 |
機能 | 画像分析 | 治療システムとの連携 | レポート作成 | groundedなレポート作成 | 非専門医でも利用可能なシステム |
画像の種類 | CXR | 頭部と胸のCT | より多くの種類の画像が対象となり、検出できる疾病もふえる | ||
検出対象 | 肺結節 気胸 | 脳卒中、肺閉塞症 大動脈解離 | |||
ツールの例 | Lunit, qure.ai | Viz.ai, aidoc, annalise.ai | BiomedGPT, Flamingo-CXR (Google DeepMind) | Microsoft MAIRA-2, MedVersa, a2z | ? |
(出典)Eric Topol氏のキーノートの内容を筆者が日本語化
表1でマルチモーダル化のレベル3以上は、生成AIを用い、レポート作成ができるようになるのでツールのインフラ部分には生成AIの基盤(LLM)が必要となる。
このレベル3のドラフト作成は、画像からの診断レポートのドラフトを作成する。
10/10掲載のブログでは医療向けLLMのMed-Gemini(テキスト、画像、動画、電子カルテ情報などマルチモーダルのデータを扱える)でCTスキャンデータからレポートを作成する例を説明した。この表のレベル3のツール例にあるFlamingo-CXRは、同じGoogleだが、Googleを買収したイギリスのDeepMindが開発したもので、Med-Geminiとは別のものだ。
これが進化し上表のレベル4のgrounded なレポートになると、たとえば、胸部X線画像に特化したMicrosoftのMAIRA-2の場合、図1のように、診断レポートには、問題視される個所を明示するボックスと問題個所のテキストでの説明が表示される。なお、MAIRA-2は、マイクロソフトがLLaVAに対して胸部X線画像のレポート作成及びgroundedなレポート作成の学習をして開発した。LLaVAは、GPT-4並みの性能を持つ大規模な言語とビジョン(画像解析)の両方を解するモデルを構築するために開発が進められているオープンソースの大規模のマルチモーダルなモデルである。
図1 MAIRA-2により出力されたgroundedなレポートの例

(出典) MAIRA-2: Grounded Radiology Report Generation
https://arxiv.org/abs/2406.04449
レベル5になると、システム側で複数のモーダルの疾患関連のデータを読み取るようシステムが汎用化され、非専門医でも扱えるシステムとなる。
たとえば、レベル4にあるMedVersaは、現在はレベル4の機能だが、プロジェクトの目的としては、この表1でいうレベル5で、下記のようにマルチモーダルに様々な画像やテキストを読み込め、画像と言語の両方に関わる複数のタスクと画像に関する複数のタスクをこなすようなアーキテクチャーとして設計されており、現在鋭意開発中のようである。ハーバード大学が中心になり、既出のEric Topol博士も開発に関わっている。
(可能な入力情報)
放射線画像、ダーモスコピー、病理画像、超音波、内視鏡画像、眼底画像、CT、MRI、放射線レポー
ト、診療結果、最終診療結果、専門家によるラベリング
(こなせるタスク)
1)画像・テキスト両方に関わるタスク
レポート作成、画像に関するQ&A、長期にわたる比較、関心ある画像領域に対するコメント出力、胸部病理画像の分類、皮膚の病変の分類
2)画像に関わるタスク
解剖学的構造の検出、胸部の病理画像の位置の明示、器官のセグメンテーション、病変のセグメンテーション
このMedVersaは、合わせて1300万件に及ぶ10の公開されたマルチモーダルな医療データを利用して作成したMedInterpを活用して学習、モデル評価を行っている。現在の評価では、MicrosoftのMAIRA-2やGoogleのMed-PaLM Mをレポート作成などの機能で上回るという。詳細は、文末の参考文献3)を参考にされたい。
(参考文献)
1)Multimodal Foundation Models for Medical Imaging – A Systematic Review and Implementation Guidelines – Shih-Cheng Huang (スタンフォード大) 他 2024/10/23
論文としてのレビュー段階
https://www.medrxiv.org/content/10.1101/2024.10.23.24316003v1
医療画像に特化したマルチモーダルな生成AIの基盤モデル/LLMの比較解説。
2)MAIRA-2: Grounded Radiology Report Generation
Javier Alvarez-Valle (Microsoft), Maria Teodora Wetscherek (Microsoft and Cambridge University Hospitals) 2024/9/20
https://arxiv.org/abs/2406.04449
3)A Generalist Learner for Multifaceted Medical ImageInterpretation
Hong-YuZhou PhD, Subathra Adithan MD, Julián Nicolás Acosta MD, Eric J. Topol MD, Pranav Rajpurkar PhD 2024/5
https://www.semanticscholar.org/paper/A-Generalist-Learner-for-Multifaceted-Medical-Image-Zhou-Adithan/7a5153c86bfab037d6a106f27d9e1aec4b21776d
生成AIを使ったマルチモーダルな医療画像の解析ツールであるMedVersaを解説する論文。本文中の説明は、Eric Topol氏のRSNAでのプレゼンとこの論文ではMedVersaのタスクにつき多少の差異があり、プレゼンでの説明を優先して説明に採用した。
- PROFILE
-
柴柳 健一
大手ITベンダーでの海外ビジネス、アライアンス事業の経験を活かし米国最先端ICT技術の動向調査、コンサルを行っている。
- CATEGORY