重點一:依據 AA‑Omniscience 顯示,多數大型語言模型在高難度知識題上「猜錯比答對多」,僅三款例外;核心指標 Omniscience Index 以懲罰幻覺衡量可靠度。
重點二:在全知指數上,Claude 4.1 Opus因較低幻覺率領先;GPT‑5.1與 Grok 4則多靠較高準確率。
重點三:各模型在不同領域表現不一,沒有「一款通吃」。例如 Claude 4.1 Opus在法律、軟體工程、人文社科較穩
先進 AI 大模型雖然越來越強,但近期一份報告指出,在「少幻覺、敢承認不知道」這件事上,仍然是不及格。
第三方 AI 模型評比平台 Artificial Analysis 於 11 月 18 日公布全新基準「AA‑Omniscience(全知指標)」指出,在面對高難度知識題時,當前主流大型語言模型(LLMs)「猜錯比答對多」,僅有三款模型例外。
該評測以「Omniscience Index(全知指數)」為核心,採用加權懲罰幻覺(錯誤作答)的方法:答對加一分、錯誤且有作答扣一分、選擇不作答記零分,從而衡量「知識可靠度」,而非僅看正確率。
團隊強調,模型的嵌入知識對真實世界應用至關重要;在知識不足時,模型易做出錯誤假設。且即便有工具如網路搜尋輔助,模型也須「先知道該搜什麼」。例如,遇到「MCP」查詢時,不應錯把「Multi Client Persistence」當答案,而應辨識為「Model Context Protocol(模型上下文協定)」。
低幻覺的 Claude vs. 高正確率的 Grok/GPT
Artificial Analysis 指出,在整體「事實可靠度」(Omniscience Index)排名上,Anthropic 的 Claude 4.1 Opus 居首,其優勢主要來自「低幻覺率」。相較之下,OpenAI 與 xAI 的模型則以較高「正確率」拉升名次,但因更傾向在不確定時「冒險作答」,而非「不懂就閉嘴」,因此可靠度未達頂尖水準。
純以「正確率」衡量時,xAI 的 Grok 4 居首,OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」,暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。
值得注意的是,在「幻覺率」榜單上,Anthropic 三款機型包辦最低幻覺率前段班:Claude 4.5 Haiku 以約 26% 領先,Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點:高知識並不必然等於低幻覺;能否在不確定時「選擇不作答」是可靠度的關鍵。
知識量不等於可靠度!AI 懂更多,卻未必說得對
Artificial Analysis 團隊在報告中指出,AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域(商業、人文與社會科學、健康、法律、軟體工程、工程與數學),並細分 89 子題(如 Python 資料函式庫、公共政策、稅務等),更細緻地刻畫各模型的強弱。
結果顯示: 各模型在不同領域輪流領先,並無「全能王」。 例如,Claude 4.1 Opus 在法律、軟體工程、人文社科領先;OpenAI 的 GPT‑5.1 在商業題表現最可靠;xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。
另一個發現是,模型規模與正確率正相關,但不必然提升可靠度。
白話說,模型越大,代表知識量越多,所以在「正確率」排行榜表現亮眼;但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此,像 Kimi K2 Thinking 和 DeepSeek R1(0528) 雖然答對比例高,遇到不熟的題目仍可能胡亂作答,拉低了「全知指數」。
反過來說,Llama 3.1 405B 雖然不是最大的,但更懂得在不確定時不作答,幻覺率較低,整體「可靠度」因此勝過規模更大的 Kimi K2 款式。
結論:選用 AI 的建議,也是「誠實為上」
總結來說,AA‑Omniscience 的證據顯示:能在不確定時停手、降低幻覺的模型,才在真實場景更可靠;僅看準確率,會把「會猜」誤認為「會答」。因此,選擇模型時,應以事實可靠度、幻覺率與拒答行為為核心準則,並依領域差異做選擇。
最後,模型規模與準確率雖有正相關,但並不直接降低幻覺;縮減幻覺更依賴訓練與校準機制。基於此,企業在落地知識密集型任務時,應優先採用「校準佳、願意在不確定時拒答」的模型。
延伸閱讀:ChatGPT濫用破折號怎麼改?如何避免飄出超油膩「AI味」?實用指令教學快收藏!
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?
資料來源:AA‑Omniscience、Artificial Analysis
本文初稿為AI編撰,整理.編輯/ 李先泰
