醫師也要被取代了？哈佛實證研究：AI在臨床推理測驗上已超越人類，但離接手醫療決策還很遠|數位時代 BusinessNext

重點一：哈佛醫學院團隊在《Science》發表大規模實測，OpenAI 的 o1-preview 與 o1 模型在六項臨床推理任務、對照數百名醫師的成績單，整體勝出人類醫師。

重點二：在波士頓貝斯以色列女執事醫療中心的真實急診案例中，o1 模型在「初步分流」階段給出近正確診斷的比例為 67.1%，兩位內科主治醫師分別僅 55.3% 與 50.0%。

重點三：但 AI 在「不可錯過診斷」這道安全底線並未顯著勝出，加上研究只測文字、實驗用的模型版本已過時，論文同步呼籲先做臨床試驗才能談導入。

2026 年 4 月 30 日，由哈佛醫學院、波士頓貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center, BIDMC）等機構組成的研究團隊在《Science》發表論文，把 OpenAI 的 o1 系列模型直接拉進來跟數百名醫師同台較量。

其結果顯示，在六項臨床推理任務裡，這個 AI 模型整體表現勝過人類醫師基準，也勝過上一代 GPT-4。

但這不是「AI 全面超車人類醫師」這麼簡單的故事。研究團隊在論文同步點名多項侷限，《TechCrunch》報導也引述急診醫師指出，這份研究的對照組是「內科主治醫師」而非真正在急診現場執業的醫師，因此不應過度延伸結論。

對台灣讀者來說，重點不在「AI 贏了沒」，而在於這份研究示範了什麼樣的臨床 AI 評估標準，以及距離真正進到診間還差多遠。

研究設計：六種任務、不只是教科書題目

過去多數 LLM 醫療測試的問題在哪裡？多半只測「窄定義的診斷任務」或「整理乾淨的教學病例」，而且很少有醫師基準作為對照。

研究團隊這次把六種任務一次評完，包含 NEJM 臨床病理會議（Clinicopathological Conferences, CPC）的鑑別診斷、NEJM Healer 虛擬病人課程的推理過程、Grey Matters 的處置決策、地標型診斷案例、機率推理估算，以及最受矚目的 BIDMC 急診部 76 例真實病歷。

換言之，研究設計刻意挑了一組從「教科書經典題」到「未經整理的電子病歷」都涵蓋的測試組合。研究中使用的模型主要是 o1-preview，急診部那一段則使用 o1 與 GPT-4o，並對照兩位內科主治醫師。

值得注意的是，研究團隊在分析中提到，o1-preview 在訓練截止日前後的病例表現沒有顯著差異（前 79.8%、後 73.5%，p=0.59）。這個細節回應了一個常見質疑：模型成績好是不是因為背過考古題。

急診部 76 例：差距最大的是「資訊最少」的階段

這份研究最有產業意涵的段落，是 BIDMC 急診部的實測。

研究團隊把 76 位真實急診病人的病歷，依「初步分流（triage）」、「急診醫師接手」、「住院或加護病房」三個時間點切分，分別讓 o1、GPT-4o、兩位主治醫師各自開出鑑別診斷清單，再由另外兩位主治醫師「盲評」這些診斷的品質。

兩位盲評醫師被問到診斷出自人類或 AI 時，分別有 83.6% 與 94.4% 答「分不出來」。這代表評分過程本身沒有被「我猜這是 AI」這類偏見污染。

成績如何？以下為「給出正確或非常接近的診斷」（Bond 評分 4 至 5）的標準：

o1 在三個時間點分別拿下 67.1%（初步分流）、72.4%（急診醫師接手）與 81.6%（住院）

對照醫師 1 為：55.3%、61.8%、78.9%

對照醫師 2 為：50.0%、52.6%、69.7%。

也就是說，AI 在三個階段都贏過醫師，但領先幅度在資訊最少、時間最急的初步分流階段最大；而人類醫師的資訊越完整，與AI的差距就越小。

圖 1｜急診真實個案中，人類醫師與 AI 做「第二意見」的診斷表現比較（盲評結果）

在資訊最少、決策壓力最大的急診分診階段，o1 約有 67% 個案給出正確或非常接近的診斷，顯著優於兩位主治醫師與 GPT‑4o（*P ≤ 0.05）。進入急診醫師正式評估階段後，兩個 AI 模型（GPT‑4o 與 o1）整體表現優於人類醫師組合，但 GPT‑4o 與 o1 彼此差異未達顯著。等到病人已被收治至病房或 ICU、資訊最完整時，四者的表現都接近 80% 左右，AI 與人類之間、以及兩個 AI 彼此間差異皆標示為「ns」（not significant），代表此階段準確率已大致拉平。

圖／ Science

NEJM 經典題：o1 把 GPT-4 甩開一截

光看 NEJM 每期刊出的 CPC 罕見病例題庫（醫學界公認的高難度推理測驗），o1-preview 把正確答案列進鑑別清單的比例是 78.3%；只看「第一順位的猜測」是 52%。跟前一代 GPT-4 同題對打的 70 題中，o1-preview 答對「精確或接近」的比例為 88.6%、GPT-4 是 72.9%，這個差距已具備統計顯著意義。

圖 2｜NEJM CPC 個案上，不同診斷系統與臨床醫師的正確率比較（2012–2024）

最新的 o1-preview（2024）在 NEJM CPC 個案中約有 77% 個案將正確診斷納入鑑別診斷，表現優於 GPT‑4（約 64%）與所有傳統 DDx 系統；Google 研究中的臨床醫師基準約為 34%。2012 年的多款 DDx 系統不僅平均表現較低，誤差範圍也明顯較寬，顯示早期工具在這類高難度個案上的穩定性與準確度都有限。

圖／ Science

更關鍵的是另一道叫做 R-IDEA 的「論證過程」評分。這個評分不看醫師（或 AI）最後猜對沒有，而是看推理的過程是否完整：有沒有列出鑑別、有沒有提出佐證、有沒有規劃下一步。而在 80 個案例中拿到滿分的數量，o1-preview 是 78 題、GPT-4 是 47 題、主治醫師 28 題、住院醫師 16 題。換句話說，AI 不只是「答案猜對」，連醫師寫病歷該有的推理流程，也被評為更完整。

但這份成績單有一個轉折，而且這個轉折對病人來說意義最大。

研究另外測了一道叫「不可錯過診斷」的指標，也就是「AI 有沒有漏掉那種一漏就會出人命的疾病」，例如心肌梗塞、肺栓塞、主動脈剝離這類致命診斷。而在這道安全底線上，o1-preview 並沒有顯著勝過 GPT-4，也沒贏過人類醫師。

研究團隊自己在論文中坦承，這項關鍵指標的進步「並不穩定」。因此，雖然 AI 在「答對題目」的賽道上贏了，但在「不能漏掉那個致命答案」這條真正攸關性命的底線上，它還沒拉開差距。

圖 3：AI 在「寫推理」這件事已經像教科書，但「不能漏的診斷」還沒明顯超車人類

上半部（A）在看的是「寫病歷推理的分數」（R‑IDEA），可以把它想成老師改住院醫師入院紀錄那種 0–10 分評分。o1‑preview 幾乎每一題都拿 10 分滿分；GPT‑4 大多在 7.5–10 分之間，人類主治和住院醫師的成績就分散很多，從低分到高分都有。白話講：在 NEJM Healer 這種標準化個案裡，o1 不只看得懂題目，而且會寫「教科書等級」的推理過程。下半部（B）看的不是文筆，而是安全邊界：在急診初篩時，鑑別診斷裡「不能漏掉的關鍵診斷」有幾成被列進去。o1 的中位數大概 0.9，意

圖／ Science

AI可以取代人類醫師了？答案是「並沒有」

把這份研究讀完，最值得台灣讀者留意的，反而是研究團隊自己列出的研究限制：

模型版本已過時：實驗主要使用 o1-preview，目前已被 OpenAI 的 o3 系列取代。雖然團隊預期效能會「持平或提升」，但仍需新一輪驗證。
只測文字輸入：臨床醫療充滿非文字訊號，包括病人語氣、表情、影像判讀。現有研究顯示，基礎模型在非文字輸入上能力仍受限。
科別偏窄：六項任務集中在內科與急診，不能外推到外科、影像醫學等需要不同技能組合的科別。
急診實測只是「概念驗證」：論文明寫，急診現場決策的核心是「分流、安置與立即處置」，不是診斷準確度。這份研究最多只能說「AI 在第二意見場景有潛力」，而非「AI 可以單獨值班」。

同時急診醫師 Kristen Panthagani 也指出，這項研究比較的是 AI 與「內科主治醫師」，不是真正在急診室執業的醫師。她比喻：「LLM 大概可以贏皮膚科醫師的腦外科考試，但這沒什麼意義。」

研究團隊最後在結論裡指出：「我們的發現表明，LLM 已經超越了臨床推理的多數標竿測試，這正是必須立刻啟動前瞻性臨床試驗的原因。」

言下之意，就如研究第一作者之一、BIDMC 醫師 Adam Rodman 對《衛報》採訪時所表示，目前對 AI 診斷「沒有正式的問責框架」，病人仍希望由人類引導生死決策。

亦即 AI 看診的確在資訊缺乏的情境下可能更能鎖定問題，但人類還沒有準備好把性命交給AI。

延伸閱讀：沒被AI取代，放射科醫師為何更搶手？黃仁勳一場訪談，看懂AI時代的真正機會

資料來源：Performance of a large language model on the reasoning tasks of a physician (Science)、In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors (TechCrunch)

本文初稿為AI編撰，整理．編輯/ 李先泰