医療AIで多数の異種医療画像を解析　診断支援精度が3.04％向上

「パッチベース処理×Mixture of Experts」技術で医療画像診断を革新

早稲田大学

2025/6/16 11:00

2025年6月16日

早稲田大学

医療AIで多数の異種医療画像を解析　診断支援精度が3.04％向上 「パッチベース処理×Mixture of Experts」技術で医療画像診断を革新

詳細は早稲田大学HPでご確認ください。

【発表のポイント】

● 解像度や対象の異なる医療画像を、1つの医療AIモデルで同時に扱える新技術「PatchMoE」を開発しました。

● 画像をパッチ単位に分割し、3次元の位置情報を保持するパッチベース処理※1により、各データセットの特徴を正確に学習できます。医療画像セグメンテーションタスクにおいて、画像を等サイズのパッチに分割し、三次元座標空間で表現するパッチベースの対照学習手法※2を導入した最初の取り組みです。

● データの種類に応じて専門モデルを動的に選ぶMixture of Experts※3を導入し、異なる画像の干渉を回避しつつ高精度な医用画像セグメンテーションを実現しました。

● 本技術は、多様な医用画像データを効率的に統合して学習できるAIモデルの実現に貢献し、限られた医療データでも高精度な診断支援を行う技術基盤として期待されます。

近年、医療現場ではAIによる画像診断支援の導入が進んでいますが、解像度やアノテーション（データへのタグ付け）方法が異なる複数の医療画像を、ひとつのAIで同時に扱うことは困難でした。

早稲田大学大学院情報生産システム研究科博士後期課程のWang Jiazhe氏、同研究科の吉江修（よしえおさむ）教授、家入祐也（いえいりゆうや）講師の研究グループは、この課題に対し、画像を小さな領域（パッチ）に分けたうえで、それぞれのパッチが「どの医用画像データセット（網膜血管、腹部多臓器、など）」に属していて、「どの画像」の、「どの場所」のパッチであるかを3次元で保持する「パッチベースの学習法」と、データ種別ごとに専門的な処理を行う「Mixture of Experts（MoE）」を組み合わせた新手法「PatchMoE」を開発しました。体の部位が異なる4種の異なる医療画像を対象に検証を行い、従来手法を上回る精度を実現しました。

本研究成果は、国際学術誌「Neural Computing and Applications」に2025年5月8日にオンライン公開されました。

論文名： Conducting patch contrastive learning with mixture of experts on mixed datasets for medical image segmentation

図　開発手法の概要
医用画像を小さなパッチに分割し、画像の特徴と3次元の位置情報を組み合わせて処理するAIモデル「PatchMoE」の全体構造を示しています。TransformerとMoE機構により、多様な医療データを高精度に領域分割します。

（１）これまでの研究で分かっていたこと

医療画像における自動セグメンテーションは、診断支援や治療計画の精度向上を目的として広く研究されてきました。これまでの研究では、個別の医療タスクごとに専用のモデルを学習するアプローチが主流でしたが、この手法はタスク間の知識共有が困難であり、モデルの冗長性や性能限界が課題でした。特に近年では、大規模な汎用モデルを事前学習させた上で、医療データへ転移学習する方法が注目されています。この方法により、大量のアノテーションを必要とせず、高い精度が得られることが確認されていましたが、一般画像と医療画像の構造的違いにより、医療画像特有の詳細な特徴を十分に学習できないことが問題でした。また、複数の医療データセットを統合して1つのモデルで学習させる場合、画像解像度の差やアノテーション基準の違いから、最適化の方向性が競合し合う「パレート効果」と呼ばれる問題が発生し、すべてのタスクで高い性能を同時に達成することが難しいとされていました。

（２）新たに実現しようとしたこと、明らかになったこと、そのために新しく開発した手法

本研究では、解像度やアノテーション基準の異なる複数の医療画像データセットを、1つのモデルで統一的に学習できる新たな手法「PatchMoE（Patch-based Mixture of Experts）」を提案しました。

これは、混合データセットに起因する学習の干渉や精度低下の問題を克服することを目指しています。提案手法の主な構成要素は以下の2つです。

①パッチ分割と3次元パッチ位置表現（Patch Position Embedding：PPE）
PPEモジュールにより、画像を固定サイズの小領域（パッチ）に分割し、それぞれのパッチに「データセットID」「画像ID」「パッチID」の3次元情報を特徴空間に埋め込むことで、空間的・構造的な情報を保ったままTransformerベースのモデル※4に入力します。これにより、異なる解像度の画像を扱う際にも空間的関係を維持し、コンテキスト理解を損なうことなく一貫した特徴抽出が可能となります。

②専門家混合型デコーダ（Mixture of Experts：MoE）
デコーダ部分において、データセットIDに基づいて稀疎な構造を持つMoE機構を導入し、各タスクに適した専門家ネットワークの組み合わせを動的に選択することで、マルチタスク学習における最適化の競合（パレート効果）を抑制します。

PatchMoEは医療画像分野で初めて、パッチベースのContrastive Learning（対照学習）を導入しています。対照学習を用いることで、同一画像内の近接パッチの特徴を近づけ、異なる画像やデータセット間のパッチは区別するよう学習させています。これにより、混合データセットにおけるパッチ間の文脈理解が促進され、特徴表現の精度が向上しました。PatchMoEは、網膜血管（DRIVE）、近赤外血管（HVNIR）、消化器ポリープ（Kvasir-SEG）、腹部臓器（Synapse）の4種類のデータセットを用いた画像セグメンテーションにおいて検証され、既存の最先端手法（GCASCADE等）と比較して、平均Diceスコアで3.04％の精度向上を達成しました。

（３）研究の波及効果や社会的影響

本研究で提案したPatchMoEは、解像度や構造の異なる複数の医療画像を1つのモデルで統合的に解析できる点が特徴です。この技術により、特定の臓器や撮影条件に依存しない、より汎用的で柔軟な画像解析が可能となりました。今回、複数の代表的な医療画像データセット（眼底・手血管・消化器・腹部臓器）を用いて、その有効性を検証しています。これにより、従来のように、各タスクに対して異なるAIモデルを用意する必要がなくなり、開発コストや医療データ活用の効率が大きく向上する可能性があります。また、学習データが限られている疾患や施設間で画像仕様が異なるケースにおいても、本手法は高い適応性を示すことが確認されており、将来的には多施設間で共有可能な診断支援AIの基盤技術として活用が期待されます。

（４）課題、今後の展望

本研究で提案したPatchMoEは、異なる医療画像データセットに対して高精度なセグメンテーション性能を示しましたが、現状では各データセットに識別ID（dataset ID）を明示的に付与して処理を分けています。この仕組みは既知のデータセットには有効ですが、将来的に未知のデータやより細かなタスク分類への対応を目指すには、より柔軟で汎化可能な専門家選択手法の構築が必要です。

また、現行の検証は2D医療画像を対象としており、CTやMRIといった3D画像への拡張などについては今後の検討課題のひとつです。これらに対応することで、PatchMoEはより幅広い医療応用への展開が可能となります。今後は、より多様なデータセットを用いた検証や、実医療環境下での臨床的有効性の評価も進めていく予定です。

（５）研究者のコメント

医療現場では、異なる解像度や注釈基準を持つ画像が日常的に扱われていますが、それらを一つのAIモデルで解析するのは非常に困難でした。本研究では、複数の異なる画像を統合的に扱える新しい学習フレームワークPatchMoEを設計し、現実的な医療画像の多様性に対応できる可能性を示しました。今後は、より多様な画像形式や臨床現場での応用に向けて、実装と検証をさらに進めていきたいと考えています。

（６）用語解説

※1　パッチベース処理

画像を小さな領域（パッチ）に分割し、それぞれを独立した単位として処理する方法。解像度や画像サイズの違いがあっても、統一的に学習が可能になる。

※2　対照（コントラスト）学習

似た特徴を持つデータを近づけ、異なる特徴を持つデータは遠ざけるようにAIが学習する手法。教師なし学習の一種で、特徴の違いを明確に識別するのに有効。

※3　 Mixture of Experts（MoE）

複数の「専門家（Expert）」と呼ばれる処理ユニットを用意し、入力の特性に応じて最適なユニットを選んで処理するAI構造。複雑なタスクに柔軟に対応できる。

※4　 Transformerベースのモデル

自然言語処理のために開発された「Transformerアーキテクチャ」を、画像処理（特にセグメンテーションなど）に応用したモデル。

（７）論文情報

雑誌名：Neural Computing and Applications

論文名：Conducting patch contrastive learning with mixture of experts on mixed datasets for medical image segmentation