AI醫師來了?微軟AI診斷準確率飆85%「真人僅20%」:哪個AI最懂醫學?醫生也要失業了?
AI醫師來了?微軟AI診斷準確率飆85%「真人僅20%」:哪個AI最懂醫學?醫生也要失業了?

重點一 :微軟公布旗下AI診斷協調MAI-DxO於304例複雜病例中,正確診斷率達85.5%,遠超21位資深真人醫師的20%。

重點二 :該研究指出,MAI-DxO不僅診斷更精準,也能有效降低診斷成本,展現AI協助醫療決策的經濟效益。

重點三 :但MAI-DxO目前僅供研究用途,尚未獲臨床認證,未來將展開更多真實場域測試與安全驗證。

Microsoft AI團隊最新研究顯示,其開發的Microsoft AI Diagnostic Orchestrator (MAI-DxO,微軟AI診斷協調器)在醫學診斷領域取得突破性進展。

MAI-DxO以《新英格蘭醫學雜誌》(簡稱NEJM)每週發布的真實病例記錄為基準, 其正確診斷率高達85.5%,遠遠超越由美國與英國21位臨床經驗5至20年的資深醫師組成的對照組,後者平均僅達20%。 此一成果不僅展現AI在面對醫療難題時的精準度,也突顯成為臨床決策輔助工具的潛力。

採用真實病例!讓AI按照真實情境問診

過去AI醫療系統多以美國醫師執照考試(USMLE)等選擇題作為評測標準,但這類題型偏重記憶力,難以反映臨床推理與決策能力。微軟AI團隊認為,AI若要真正幫助醫療現場,必須具備逐步分析與決策能力。

因此,團隊開發出「序列診斷基準」(Sequential Diagnosis Benchmark, SD Bench),利用NEJM發表的304個複雜病例,讓AI或醫師從初步病徵出發,逐步詢問、選擇檢查並整合新資訊,最終給出診斷。 同時,AI模型的每一次檢查都要設定虛擬成本,模擬真實醫療資源消耗,讓評估同時考量診斷準確率與成本效益。

微軟團隊據此方式測試了多款生成式AI模型,包括GPT、Llama、Claude、Gemini、Grok與DeepSeek,並進一步開發MAI-DxO系統。 它的運作方式可以理解為,一個由多位醫師組成的虛擬團隊,AI 會根據病人的症狀,主動提出追問、選擇合適的檢查,並逐步推進診斷流程,最後給出診斷結果。

簡單來說, MAI-DxO 不只是單一 AI 系統,而是能整合多個不同 AI 模型,像醫師討論一樣協作解決問題,目標是幫助醫療人員更快、更準確、也更省錢地解決困難病例。

MAI-DxO .jpg
MAI-DxO 會像醫師一樣,根據病人症狀逐步詢問、安排檢查、分析結果,並在考量成本下推理出最合理的診斷。
圖/ 微軟

MAI-DxO正確率高達85%!單一模型o3正確率最高

研究結果顯示, MAI-DxO搭配OpenAI最新模型,在SD Bench上正確診斷率高達85.5%,而21位美國與英國臨床經驗5至20年的醫師,平均僅達20%。

圖表右下方有一個紅十字,標示為「Physicians (Overall)」,即為人類醫師團隊的20%正確診斷率的對照組,成本約為 $3,000 美元。

Pareto-Chart-v3-1.jpg
依照微軟研究結果,MAI-DxO不但正確診斷率高,在各個成本區間的表現也遠比單一模型更好。
圖/ 微軟

X軸:平均診斷檢查成本(美元)
Y軸 :診斷準確率(%)
紫色線條 :描繪MAI-DxO在不同設定下的表現(即在不同成本約束下的準確率變化)
紅色叉號 :21位臨床醫師的平均表現

令人驚訝的是, 單一模型的表現,除了成本較低的 GPT 3.5 Turbo 外,幾乎所有 AI 模型和系統都在診斷準確率上超越了人類醫師基準。 尤其 MAI-DxO 系統,即使是0成本,其準確率和成本效益也比人類醫師的平均表現更高。

至於各家語言模型的表現, 可看到OpenAI旗下的o3、o4 mini,以及Anthropic旗下的Claude 4 opus、Claude 4 sonnet為領先群,在70%正確診斷率的基礎,將平均診斷檢查成本控制在7000美元以下。其次表現較佳的則為Google旗下的Gemini 2.5 Pro,在逼近70%的正確診斷率上,成本在5000美元以下。

連醫師都要被AI取代了?微軟曝人類醫師「無可替代」關鍵

微軟研究強調,一般醫師多為全科或專科,難以同時兼顧廣泛與深入的專業領域。但AI可同時整合多專業知識,展現橫跨多領域的臨床推理能力,為醫療帶來全新可能。

微軟AI團隊認為,AI有潛力協助病患自主管理健康,也能成為醫師在複雜疾病診斷上的決策輔助工具,進一步提升醫療效率, 更重要的是,降低高昂的醫療成本。

研究強調,AI在診斷過程中不會一味要求所有檢查,而是能以較低成本達到高準確率,解決過度檢查導致的醫療浪費。美國目前醫療支出已近GDP的20%,其中高達四分之一被認為是無效支出,而AI有機會協助醫療體系更有效分配資源。

微軟表示,MAI-DxO目前僅為研究性質,尚未取得臨床應用認證,未來將持續與全球醫療機構合作,於真實臨床環境進行嚴格測試與驗證,並配合監管機構制定安全、可靠的應用標準。

微軟也強調「AI不會取代醫師」,而是成為醫師與病患的助手。臨床醫師在建立病患信任、處理不確定性等方面仍具不可取代的角色。

延伸閱讀:AI能代替心理諮商嗎?當ChatGPT變成「情緒樹洞」:絕不插話、永遠懂你,卻暗藏危機?

資料來源:微軟

往下滑看下一篇文章
從客服到數位員工:宏華國際如何用 AI Agent 幫企業把握每一筆商機?
從客服到數位員工:宏華國際如何用 AI Agent 幫企業把握每一筆商機?

隨著生成式 AI 與 AI Agent 的快速發展,企業導入 AI 應用,早已不是「要不要」的是非題,而是「如何選對解決方案」的決策題。

以 AI 客服為例,市場上雖然有眾多解決方案,但真正能夠拉開差距的,不是技術本身,而是對產業場景、服務流程與顧客需求的理解,這是決定AI 能否改善營運效率、提升顧客體驗,並創造實際商業價值的關鍵。

深耕客服領域多年的宏華國際,憑藉著長期累積的第一線服務經驗,以及對產業應用場景的深刻洞察,打造出適用多元產業的 AI 客服代理人,透過將客服經驗模組化、場景化,協助企業降低 AI 導入門檻與試錯成本,讓 AI 不只是技術工具,而是真正能快速落地、創造營運效益的虛擬助手。

宏華 AI 客服
圖/ 宏華國際

有溫度的 AI 服務,成為企業競爭力的新關鍵

宏華國際資深技術顧問李宗遠指出,對企業、尤其是服務業而言,客服的價值早已不只是接聽電話或回覆訊息,而是建立顧客信任、優化服務體驗的重要平台。透過客服,企業不僅能維持對外溝通的一致性與完整性,也能延伸服務時間與服務範圍,進而即時掌握顧客需求,有效承接每一次商機。

然而,過去要打造全天候客服,企業往往需要投入大量人力與管理成本。如今,AI大幅降低了建置與維運成本,24 小時服務不再是大企業的專利。透過 AI 客服代理人,即使是資源有限的中小企業,也能在不額外增加人力的前提下,快速建立客服機制,提供更貼心、更有溫度的服務,而這也將成為未來服務業的重要競爭力。

以餐飲業為例,消費者有聚餐需求時,通常會透過網路訂位系統同時向多家餐廳預約,等到接近用餐日時,再做出最終選擇。此時,餐飲業者若能在網路訂位流程中整合 AI 客服代理人,主動提供完整且貼心的一條龍服務,例如:推薦適合餐點、提醒停車資訊、確認特殊飲食需求,甚至提前規劃包廂與慶生活動等,讓顧客到店前就有好的服務體驗,自然有機會打動顧客的心、成為最終選擇。

李宗遠認為,AI 的價值不只是提升效率,更在於協助企業打造更有溫度的服務,這不僅有助於降低臨時取消率、提升訂單轉換率與顧客黏著度,更能建立差異化競爭優勢,讓 AI 從工具真正成為企業夥伴。

宏華國際
宏華國際資深技術顧問李宗遠
圖/ 數位時代

AI 客服下一階段,比的不是技術,而是誰更懂服務場景

然而,AI 要打造有溫度的服務,關鍵不在於採用了哪些技術,而是 AI 能否真正理解不同產業的服務場景與顧客需求。為此,宏華將多年來服務不同產業、不同場景所累積的第一線經驗,轉化為開發 AI 客服代理人的重要基礎,讓 AI 不只是回答問題,更能理解企業的服務流程,以及客戶的情緒與潛在需求,提供更貼近人性的互動體驗。

李宗遠認為,宏華 AI 客服代理人可以為企業帶來三項價值。第一項是將原本仰賴人工處理的流程自動化。AI 客服代理人不僅能線上服務客戶,完成訂位、預約、報修等流程,還能自動執行後續作業,例如:生成維修派工單,並通知師傅前往服務。

第二項則是優化顧客體驗。AI 客服代理人以多模態 AI 作為核心,可以進行語音、文字與影像的互動,因此,顧客透過電話、LINE、社群平台、網站或實體門市等留下的互動記錄,都能整合至同一平台,避免在服務過程中產生斷點。

第三項是延長服務時間與擴大服務範圍,承接更多商機。AI 客服代理人支援國語、台語、英語 24 小時應答,無論顧客在任何時間、透過何種管道聯絡,甚至使用外語,都能獲得即時回覆。

十多年客服經驗,如何成為宏華 AI 的護城河?

當 AI 客服的技術能力逐漸成熟,真正難以複製的,不是模型,而是背後累積的服務經驗,而這正是宏華最大的競爭力。

宏華國際新事業處協理曾世忠指出,宏華國際深耕客服領域超過十年,累積全台數一數二的服務量能與顧客互動經驗。從客服、門市到到府服務,這些第一線服務經驗,不僅讓團隊更理解真實客服情境,也更熟悉不同產業的服務流程與需求,成為 AI 客服代理人得以持續優化的關鍵。

宏華國際
宏華國際客服新事業處協理曾世忠
圖/ 數位時代

這些第一線經驗讓宏華非常清楚顧客互動過程中的各種變數,包括臨時修改需求、跳躍式提問、說話帶有情緒等。曾世忠表示,真實世界的客服互動很少按照既定腳本進行,許多AI在面對顧客突然改變想法或偏離原本的對話流程時,容易陷入重複問答或無法理解語意的困境,進而影響使用體驗。
也正因此,宏華訓練的不只是 AI 的智商(知識理解、順暢對話),更重視服務情商(情緖分析),讓 AI 能理解對話情境、顧客情緒與需求變化,可以「秒問秒答、邊聽邊想」,而非只是依照固定腳本機械式回應。

除了理解真實客服互動情境外,長期服務不同產業客戶的經驗,也讓宏華更了解各產業面臨的服務情境與需求差異,並將這些產業 Know-how 模組化,發展出餐飲、技術服務、專業服務等產品包,企業只要完成需求完成設定,便能快速導入,大幅降低建置時間與試錯成本。

宏華國際
圖/ 數位時代

「AI Agent 的價值不只是協助企業服務客戶,更將成為企業營運的重要基礎設施。」曾世忠認為,未來,AI Agent 除了協助企業回應外部客戶需求,也將進一步應用於員工服務、人資諮詢等內部場景,成為串聯企業內外部溝通的重要角色。而宏華國際也將持續投入相關技術發展,協助企業在 AI 時代建立更穩定、更具韌性的營運能力。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓