AI醫師來了?微軟AI診斷準確率飆85%「真人僅20%」:哪個AI最懂醫學?醫生也要失業了?
AI醫師來了?微軟AI診斷準確率飆85%「真人僅20%」:哪個AI最懂醫學?醫生也要失業了?

重點一 :微軟公布旗下AI診斷協調MAI-DxO於304例複雜病例中,正確診斷率達85.5%,遠超21位資深真人醫師的20%。

重點二 :該研究指出,MAI-DxO不僅診斷更精準,也能有效降低診斷成本,展現AI協助醫療決策的經濟效益。

重點三 :但MAI-DxO目前僅供研究用途,尚未獲臨床認證,未來將展開更多真實場域測試與安全驗證。

Microsoft AI團隊最新研究顯示,其開發的Microsoft AI Diagnostic Orchestrator (MAI-DxO,微軟AI診斷協調器)在醫學診斷領域取得突破性進展。

MAI-DxO以《新英格蘭醫學雜誌》(簡稱NEJM)每週發布的真實病例記錄為基準, 其正確診斷率高達85.5%,遠遠超越由美國與英國21位臨床經驗5至20年的資深醫師組成的對照組,後者平均僅達20%。 此一成果不僅展現AI在面對醫療難題時的精準度,也突顯成為臨床決策輔助工具的潛力。

採用真實病例!讓AI按照真實情境問診

過去AI醫療系統多以美國醫師執照考試(USMLE)等選擇題作為評測標準,但這類題型偏重記憶力,難以反映臨床推理與決策能力。微軟AI團隊認為,AI若要真正幫助醫療現場,必須具備逐步分析與決策能力。

因此,團隊開發出「序列診斷基準」(Sequential Diagnosis Benchmark, SD Bench),利用NEJM發表的304個複雜病例,讓AI或醫師從初步病徵出發,逐步詢問、選擇檢查並整合新資訊,最終給出診斷。 同時,AI模型的每一次檢查都要設定虛擬成本,模擬真實醫療資源消耗,讓評估同時考量診斷準確率與成本效益。

微軟團隊據此方式測試了多款生成式AI模型,包括GPT、Llama、Claude、Gemini、Grok與DeepSeek,並進一步開發MAI-DxO系統。 它的運作方式可以理解為,一個由多位醫師組成的虛擬團隊,AI 會根據病人的症狀,主動提出追問、選擇合適的檢查,並逐步推進診斷流程,最後給出診斷結果。

簡單來說, MAI-DxO 不只是單一 AI 系統,而是能整合多個不同 AI 模型,像醫師討論一樣協作解決問題,目標是幫助醫療人員更快、更準確、也更省錢地解決困難病例。

MAI-DxO .jpg
MAI-DxO 會像醫師一樣,根據病人症狀逐步詢問、安排檢查、分析結果,並在考量成本下推理出最合理的診斷。
圖/ 微軟

MAI-DxO正確率高達85%!單一模型o3正確率最高

研究結果顯示, MAI-DxO搭配OpenAI最新模型,在SD Bench上正確診斷率高達85.5%,而21位美國與英國臨床經驗5至20年的醫師,平均僅達20%。

圖表右下方有一個紅十字,標示為「Physicians (Overall)」,即為人類醫師團隊的20%正確診斷率的對照組,成本約為 $3,000 美元。

Pareto-Chart-v3-1.jpg
依照微軟研究結果,MAI-DxO不但正確診斷率高,在各個成本區間的表現也遠比單一模型更好。
圖/ 微軟

X軸:平均診斷檢查成本(美元)
Y軸 :診斷準確率(%)
紫色線條 :描繪MAI-DxO在不同設定下的表現(即在不同成本約束下的準確率變化)
紅色叉號 :21位臨床醫師的平均表現

令人驚訝的是, 單一模型的表現,除了成本較低的 GPT 3.5 Turbo 外,幾乎所有 AI 模型和系統都在診斷準確率上超越了人類醫師基準。 尤其 MAI-DxO 系統,即使是0成本,其準確率和成本效益也比人類醫師的平均表現更高。

至於各家語言模型的表現, 可看到OpenAI旗下的o3、o4 mini,以及Anthropic旗下的Claude 4 opus、Claude 4 sonnet為領先群,在70%正確診斷率的基礎,將平均診斷檢查成本控制在7000美元以下。其次表現較佳的則為Google旗下的Gemini 2.5 Pro,在逼近70%的正確診斷率上,成本在5000美元以下。

連醫師都要被AI取代了?微軟曝人類醫師「無可替代」關鍵

微軟研究強調,一般醫師多為全科或專科,難以同時兼顧廣泛與深入的專業領域。但AI可同時整合多專業知識,展現橫跨多領域的臨床推理能力,為醫療帶來全新可能。

微軟AI團隊認為,AI有潛力協助病患自主管理健康,也能成為醫師在複雜疾病診斷上的決策輔助工具,進一步提升醫療效率, 更重要的是,降低高昂的醫療成本。

研究強調,AI在診斷過程中不會一味要求所有檢查,而是能以較低成本達到高準確率,解決過度檢查導致的醫療浪費。美國目前醫療支出已近GDP的20%,其中高達四分之一被認為是無效支出,而AI有機會協助醫療體系更有效分配資源。

微軟表示,MAI-DxO目前僅為研究性質,尚未取得臨床應用認證,未來將持續與全球醫療機構合作,於真實臨床環境進行嚴格測試與驗證,並配合監管機構制定安全、可靠的應用標準。

微軟也強調「AI不會取代醫師」,而是成為醫師與病患的助手。臨床醫師在建立病患信任、處理不確定性等方面仍具不可取代的角色。

延伸閱讀:AI能代替心理諮商嗎?當ChatGPT變成「情緒樹洞」:絕不插話、永遠懂你,卻暗藏危機?

資料來源:微軟

往下滑看下一篇文章
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局

汎定科技(FindingsTech)成立於2020年,以力學模擬、人工智慧與數據分析三大核心技術為基礎,迅速在智慧醫療領域打出名號,目前公司的主力產品有二:分別是小心肝 AI(HepatoWell.ai)與 AI Foundry 服務,前者透過 NVIDIA MONAI 為框架的 MRI 影像訓練,開發計算量化脂肪肝程度的 AI 軟體;後者則是因應客戶需求、使用情境提供最佳 AI 架構與解決方案,例如跟豐藝母公司和醫學中心合作開發的 OmniSurgery 手術房 AI 器械盤點平台,用來協助醫院器械供應中心自動偵測與盤點醫療機械設備。

汎定科技之所以會聚焦 AI 醫療影像市場,與創辦人的學經歷背景息息相關。汎定科技總經理許駿鵬表示:「10多年前,我曾在麻省理工學院的電腦科學與人工智慧實驗室擔任科學家,當時的計畫主持人都聚焦在醫療影像跟重症數據分析,在過程中深刻感受到,我們雖然不是第一線醫護人員,但依然可以透過科技實現『曲線救人』。」這段經驗以及教授鼓勵,讓其決定創立汎定科技,目標是以 AI 科學幫助醫療體系更快找到精準答案,無論是物理實驗、醫療輔助判別與撰寫報告都可以即時掌握關鍵發現 (Findings)。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

卓越的創新與技術能量,不僅於參加 NVIDIA Inception 新創計畫後獲得更多 AI 技術資源,更在2024年獲得豐藝集團的投資支持,正式成為集團旗下成員,接下來,汎定科技除持續深化產品服務,也會透過集團資源、以軟硬整合等方式擴展在醫療產業的服務能量。

聚焦脂肪肝 MRI 影像分析,汎定科技小心肝 AI–HepatoWell.ai– 進入臨床試驗階段

研究機構 Fortune Business Insight 預測,全球 AI 醫療影像市場規模將從2025年的392.5億美元快速成長到2032年的5,041.7億美元,年複合成長率高達44%,其中,「解決方案」類型的產品需求最高,其次才是平台型服務,顯示市場最需要的是能夠真正解決臨床痛點的應用。

在眾多 AI 醫療影像市場中,汎定科技會鎖定脂肪肝 MRI 影像分析、推出小心肝 AI(HepatoWell.ai)的原因有三:

首先是 AI 全自動量化計算肝臟脂肪密度。 全球脂肪肝盛行率高。目前的檢測脂肪肝的方式多為質化判斷不夠精準;即便現行的量化分析,也需要人工圈選。HepatoWell.ai 藉由讀取 MRI-PDFF(質子密度脂肪分數)訊號,AI 自動計算全肝臟體積脂肪分數(VLFF),可更精確的計算脂肪肝程度。

其次是整合新藥臨床試驗平台。 過去脂肪肝無藥物可治療,第一線治療方式多以飲食與調整生活習慣為主。因此,國際藥廠紛紛投入新藥臨床試驗。小心肝 AI 能提供標準化 MRI-PDFF 數據,可整合進臨床試驗工具。

最後是帶動產業鏈發展。 全球專注脂肪肝AI醫療影像的業者極少。小心肝 AI 的出現,讓醫療機構、健檢中心、臨床試驗公司、國際醫材設備商乃至國際藥廠有新的合作選擇,有助於形成更完整的產業生態系。

汎定科技總經理許駿鵬表示:「我們自從2023年7月展開前期研究(Pilot Survey),2025年進入臨床試驗、預計將於今年底完成,明(2026)年正式取證、將小心肝 AI 推向全球市場。」值得特別注意的是,醫療產業特性使然,「有技術」不等於「能落地」,研發實力、客戶需求,以及品牌能見度缺一不可,而藉由 NVIDIA Inception 新創計畫的支援,汎定科技不僅強化了產品開發速度,如以 MONAI Core 選擇適切的演算法、MONAI Label 加速影像標註等,也在品牌行銷與市場拓展上獲得關鍵性的極大推力。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

以2025年獲邀參展 COMPUTEX InnoVEX 大會中的 NVIDIA Inception for Startup Pavilion 新創展區為例,汎定科技在展會期間收到超過100個客戶諮詢,會後有逾50家潛在客戶表達興趣,其中10多家已進入洽談階段,對正在推進的臨床試驗與未來市場擴張極具幫助。「我們的計畫是在取證後三年將小心肝 AI 推向20家健診中心,並且積極發展亞洲市場商機,而後再一步一腳印地擴展歐美市場。」關於小心肝 AI 的未來規劃,許駿鵬如是說道。

善用集團與 NVIDIA 技術資源,加速智慧醫療布局

在加入 NVIDIA Inception 新創計畫後,新創團隊可在 NVIDIA Inception 新創計畫網站清楚寫下產品服務等資訊,NVIDIA 全球各個部門便都可以查詢到新創團隊資訊,更有機會取得 NVIDIA 軟體產品的早期試用(Early Access),並能免費下載使用各種 NVIDIA 軟體套件(SDK),以及受邀參加地區活動曝光等。至於新創公司擴展最重要的資金環節,新創團隊則可透過 Inception Capital Connect 與全球 NVIDIA Inception VC Alliance 創投夥伴接觸,加速募資流程。

汎定科技與豐藝集團即是透過 NVIDIA Inception 新創計畫而結識。

豐藝集團策略長陳少翎表示:「汎定科技擁有絕佳的技術實力與發展潛力,瞄準的市場與豐藝集團的布局方向一致,很快就決定投資團隊。目前雖由豐藝集團100%持股,但仍維持汎定科技的獨立營運彈性,鼓勵其以新創速度深耕市場,同時,透過鏈結集團資源等方式深化對智慧醫療產業的佈局。」舉例來說,當豐藝集團與 GE、飛利浦、西門子等全球醫療大廠進行產品藍圖與市場規劃討論時,也會同步介紹汎定科技的產品服務與實務經驗,進而創造更多跨國合作的可能性。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

展望未來,汎定科技除持續推進小心肝 AI 的產品與市場布局、也將與 NVIDIA Inception 新創計畫更緊密連結到全球新創與創投網絡以強化產品的海外布局,也會透過跟集團子公司與客戶合作等方式,更好布局未來市場。

NVIDIAxFindingsTech
圖/ 數位時代

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓