重點一:哈佛醫學院團隊在《Science》發表大規模實測,OpenAI 的 o1-preview 與 o1 模型在六項臨床推理任務、對照數百名醫師的成績單,整體勝出人類醫師。
重點二:在波士頓貝斯以色列女執事醫療中心的真實急診案例中,o1 模型在「初步分流」階段給出近正確診斷的比例為 67.1%,兩位內科主治醫師分別僅 55.3% 與 50.0%。
重點三:但 AI 在「不可錯過診斷」這道安全底線並未顯著勝出,加上研究只測文字、實驗用的模型版本已過時,論文同步呼籲先做臨床試驗才能談導入。
2026 年 4 月 30 日,由哈佛醫學院、波士頓貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center, BIDMC)等機構組成的研究團隊在《Science》發表論文,把 OpenAI 的 o1 系列模型直接拉進來跟數百名醫師同台較量。
其結果顯示,在六項臨床推理任務裡,這個 AI 模型整體表現勝過人類醫師基準,也勝過上一代 GPT-4。
但這不是「AI 全面超車人類醫師」這麼簡單的故事。研究團隊在論文同步點名多項侷限,《TechCrunch》報導也引述急診醫師指出,這份研究的對照組是「內科主治醫師」而非真正在急診現場執業的醫師,因此不應過度延伸結論。
對台灣讀者來說,重點不在「AI 贏了沒」,而在於這份研究示範了什麼樣的臨床 AI 評估標準,以及距離真正進到診間還差多遠。
研究設計:六種任務、不只是教科書題目
過去多數 LLM 醫療測試的問題在哪裡?多半只測「窄定義的診斷任務」或「整理乾淨的教學病例」,而且很少有醫師基準作為對照。
研究團隊這次把六種任務一次評完,包含 NEJM 臨床病理會議(Clinicopathological Conferences, CPC)的鑑別診斷、NEJM Healer 虛擬病人課程的推理過程、Grey Matters 的處置決策、地標型診斷案例、機率推理估算,以及最受矚目的 BIDMC 急診部 76 例真實病歷。
換言之,研究設計刻意挑了一組從「教科書經典題」到「未經整理的電子病歷」都涵蓋的測試組合。研究中使用的模型主要是 o1-preview,急診部那一段則使用 o1 與 GPT-4o,並對照兩位內科主治醫師。
值得注意的是,研究團隊在分析中提到,o1-preview 在訓練截止日前後的病例表現沒有顯著差異(前 79.8%、後 73.5%,p=0.59)。這個細節回應了一個常見質疑:模型成績好是不是因為背過考古題。
急診部 76 例:差距最大的是「資訊最少」的階段
這份研究最有產業意涵的段落,是 BIDMC 急診部的實測。
研究團隊把 76 位真實急診病人的病歷,依「初步分流(triage)」、「急診醫師接手」、「住院或加護病房」三個時間點切分,分別讓 o1、GPT-4o、兩位主治醫師各自開出鑑別診斷清單,再由另外兩位主治醫師「盲評」這些診斷的品質。
兩位盲評醫師被問到診斷出自人類或 AI 時,分別有 83.6% 與 94.4% 答「分不出來」。這代表評分過程本身沒有被「我猜這是 AI」這類偏見污染。
成績如何?以下為「給出正確或非常接近的診斷」(Bond 評分 4 至 5)的標準:
- o1 在三個時間點分別拿下 67.1%(初步分流)、72.4%(急診醫師接手)與 81.6%(住院)
- 對照醫師 1 為:55.3%、61.8%、78.9%
- 對照醫師 2 為:50.0%、52.6%、69.7%。
也就是說,AI 在三個階段都贏過醫師,但領先幅度在資訊最少、時間最急的初步分流階段最大;而人類醫師的資訊越完整,與AI的差距就越小。
NEJM 經典題:o1 把 GPT-4 甩開一截
光看 NEJM 每期刊出的 CPC 罕見病例題庫(醫學界公認的高難度推理測驗),o1-preview 把正確答案列進鑑別清單的比例是 78.3%;只看「第一順位的猜測」是 52%。跟前一代 GPT-4 同題對打的 70 題中,o1-preview 答對「精確或接近」的比例為 88.6%、GPT-4 是 72.9%,這個差距已具備統計顯著意義。
更關鍵的是另一道叫做 R-IDEA 的「論證過程」評分。這個評分不看醫師(或 AI)最後猜對沒有,而是看推理的過程是否完整:有沒有列出鑑別、有沒有提出佐證、有沒有規劃下一步。而在 80 個案例中拿到滿分的數量,o1-preview 是 78 題、GPT-4 是 47 題、主治醫師 28 題、住院醫師 16 題。換句話說,AI 不只是「答案猜對」,連醫師寫病歷該有的推理流程,也被評為更完整。
但這份成績單有一個轉折,而且這個轉折對病人來說意義最大。
研究另外測了一道叫「不可錯過診斷」的指標,也就是「AI 有沒有漏掉那種一漏就會出人命的疾病」,例如心肌梗塞、肺栓塞、主動脈剝離這類致命診斷。而在這道安全底線上,o1-preview 並沒有顯著勝過 GPT-4,也沒贏過人類醫師。
研究團隊自己在論文中坦承,這項關鍵指標的進步「並不穩定」。因此,雖然 AI 在「答對題目」的賽道上贏了,但在「不能漏掉那個致命答案」這條真正攸關性命的底線上,它還沒拉開差距。
AI可以取代人類醫師了?答案是「並沒有」
把這份研究讀完,最值得台灣讀者留意的,反而是研究團隊自己列出的研究限制:
模型版本已過時:實驗主要使用 o1-preview,目前已被 OpenAI 的 o3 系列取代。雖然團隊預期效能會「持平或提升」,但仍需新一輪驗證。
只測文字輸入:臨床醫療充滿非文字訊號,包括病人語氣、表情、影像判讀。現有研究顯示,基礎模型在非文字輸入上能力仍受限。
科別偏窄:六項任務集中在內科與急診,不能外推到外科、影像醫學等需要不同技能組合的科別。
急診實測只是「概念驗證」:論文明寫,急診現場決策的核心是「分流、安置與立即處置」,不是診斷準確度。這份研究最多只能說「AI 在第二意見場景有潛力」,而非「AI 可以單獨值班」。
同時急診醫師 Kristen Panthagani 也指出,這項研究比較的是 AI 與「內科主治醫師」,不是真正在急診室執業的醫師。她比喻:「LLM 大概可以贏皮膚科醫師的腦外科考試,但這沒什麼意義。」
研究團隊最後在結論裡指出:「我們的發現表明,LLM 已經超越了臨床推理的多數標竿測試,這正是必須立刻啟動前瞻性臨床試驗的原因。」
言下之意,就如研究第一作者之一、BIDMC 醫師 Adam Rodman 對《衛報》採訪時所表示,目前對 AI 診斷「沒有正式的問責框架」,病人仍希望由人類引導生死決策。
亦即 AI 看診的確在資訊缺乏的情境下可能更能鎖定問題,但人類還沒有準備好把性命交給AI。
資料來源:Performance of a large language model on the reasoning tasks of a physician (Science)、In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors (TechCrunch)
本文初稿為AI編撰,整理.編輯/ 李先泰
