哪一款AI最可靠？研究揭Claude家族最老實：為何對LLM來說，坦承無知比「已讀亂回」更難？|數位時代 BusinessNext

哪一款AI最可靠？研究揭Claude家族最老實：為何對LLM來說，坦承無知比「已讀亂回」更難？

AI模型評比平台Artificial Analysis指出，多數LLM其實「猜錯比答對多」，而Claude 4.1 Opus因較低幻覺率領先。

低幻覺的 Claude vs. 高正確率的 Grok／GPT

Artificial Analysis 指出，在整體「事實可靠度」（Omniscience Index）排名上，Anthropic 的 Claude 4.1 Opus 居首，其優勢主要來自「低幻覺率」。相較之下，OpenAI 與 xAI 的模型則以較高「正確率」拉升名次，但因更傾向在不確定時「冒險作答」，而非「不懂就閉嘴」，因此可靠度未達頂尖水準。

純以「正確率」衡量時，xAI 的 Grok 4 居首，OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」，暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。

值得注意的是，在「幻覺率」榜單上，Anthropic 三款機型包辦最低幻覺率前段班：Claude 4.5 Haiku 以約 26% 領先，Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點：高知識並不必然等於低幻覺；能否在不確定時「選擇不作答」是可靠度的關鍵。

知識量不等於可靠度！AI 懂更多，卻未必說得對

Artificial Analysis 團隊在報告中指出，AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域（商業、人文與社會科學、健康、法律、軟體工程、工程與數學），並細分 89 子題（如 Python 資料函式庫、公共政策、稅務等），更細緻地刻畫各模型的強弱。

結果顯示： 各模型在不同領域輪流領先，並無「全能王」。 例如，Claude 4.1 Opus 在法律、軟體工程、人文社科領先；OpenAI 的 GPT‑5.1 在商業題表現最可靠；xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。

這張熱力圖把各個 AI 在六個領域的「可靠度分數」做橫向比較。每一列是領域（法律、健康、商業、軟體工程、人文社科、理工），每一欄是一個模型。顏色已做「該領域內」的標準化：在同一列裡，最好的模型顯示為綠色，最差的是紅色，中間就落在黃橘色。

圖／ Artificial Analysis

另一個發現是，模型規模與正確率正相關，但不必然提升可靠度。

白話說，模型越大，代表知識量越多，所以在「正確率」排行榜表現亮眼；但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此，像 Kimi K2 Thinking 和 DeepSeek R1（0528） 雖然答對比例高，遇到不熟的題目仍可能胡亂作答，拉低了「全知指數」。

反過來說，Llama 3.1 405B 雖然不是最大的，但更懂得在不確定時不作答，幻覺率較低，整體「可靠度」因此勝過規模更大的 Kimi K2 款式。

結論：選用 AI 的建議，也是「誠實為上」

總結來說，AA‑Omniscience 的證據顯示：能在不確定時停手、降低幻覺的模型，才在真實場景更可靠；僅看準確率，會把「會猜」誤認為「會答」。因此，選擇模型時，應以事實可靠度、幻覺率與拒答行為為核心準則，並依領域差異做選擇。

最後，模型規模與準確率雖有正相關，但並不直接降低幻覺；縮減幻覺更依賴訓練與校準機制。基於此，企業在落地知識密集型任務時，應優先採用「校準佳、願意在不確定時拒答」的模型。

本文初稿為AI編撰，整理．編輯/ 李先泰

若將生成式人工智慧（GenAI）技術視為改變人與資訊互動的重要分水嶺，Physical AI（實體AI）則讓 AI 真正理解並介入真實世界：從機器人、自駕車到智慧製造，AI 正從「理解內容」走向「理解物理世界」，其中，自駕車被公認是 Physical AI 最具代表性的落地場域，也是目前最能驗證 AI 感知、推理與決策能力的應用，因為，不僅要控制車輛，還必須即時與人流、車流、道路設施及各類載具互動，需要極高的 AI 感知、推理與執行能力。

對深耕智慧移動多年的勤崴國際而言，Physical AI不只是 AI 技術演進，而是自駕車產業邁向下一個世代的重要轉折：從依賴規則控制（Rule-based）的自駕系統，逐步升級為具備感知、推理、學習與持續優化能力的智慧移動平台，讓全球自駕車產業競爭從單一技術比拚，走向資料、場域、生態系與 AI 能力的全面競賽。

Physical AI讓自駕車從「照規則開車」走向「理解世界」

過去，自駕車依靠高精地圖、光達（LiDAR）、攝影機等感測器，以及大量預先設定好的規則進行判斷，這種作法能處理相對固定的情境，但一旦遇到複雜且快速變化的交通環境，例如大量機車穿梭、行人突然穿越、不同國家的交通規則，系統很容易受到限制。

勤崴國際認為，Physical AI 的出現正改寫自駕車的發展模式：透過更強大的 GPU 算力，結合世界模型（World Model）、數位孿生（Digital Twin）與模擬器（Simulator），AI 能先在虛擬世界完成大量交通情境模擬，再將學習成果快速部署到真實道路，不僅大幅縮短訓練與驗證時間，也讓自駕系統持續學習與進化。

「在 Physical AI 賦能下，自駕車將從依照規則開車轉變成能理解環境、預測意圖，再做出最佳決策。」勤崴國際副總經理林映帆表示，例如當系統看到路邊有人揮手，不只是辨識動作，而是能推論對方有搭車需求；當機車快速切入車道，也能提前預測可能路徑，而非等事件發生後才反應。

這也意味著，自駕車的競爭已從「規則設計」走向「AI學習能力」的競爭：自駕車不僅是智慧移動的新載具，更是觀察 Physical AI 是否真正成熟的重要指標；換言之，Physical AI比拚的不是演算法，而是誰能持續累積真實場域、建立與完善資料庫，讓 AI 在每一次行駛中不斷學習、持續進化，形成下一波智慧移動競爭的關鍵。

七年累積三十個場域，勤崴國際打造台灣智慧移動新能量

相較於 Waymo、Tesla 的優勢來自數百萬輛車持續累積道路資料，勤崴國際的策略是透過不同場域的長期營運，建立屬於台灣的智慧移動資料庫。

自2019年投入自駕車商業化應用以來，勤崴國際不僅持續深耕高精地圖、自駕系統、車聯網及自駕運輸技術、於全台完成超過30個自駕場域部署，累積自駕行駛里程突破38萬公里、服務超過80萬人次，更逐步建立台灣少數具規模的智慧移動資料庫；為進一步加速自駕車產業價值鏈發展，勤崴國際也攜手車廠、路側設備，感測器、AI 平台、車聯網、客運與場域業者打造完整的自動駕駛生態系。

以台積電南科園區的自駕巴士服務為例，由於路線涵蓋園區內外道路，自駕車不僅要與物流車、叉車及一般車流共存，離開園區後更須面對台灣特有的高密度機車交通環境，對 AI 的感知與決策能力形成高度挑戰；截至今日，該服務已累積超過92,435人次搭乘、自駕行駛里程超過83,542公里，接駁率高達96.7%；此外，勤崴國際也於廠區內導入自駕接駁車與自駕載貨車，累積服務超過216,794人次，驗證自駕技術在智慧工廠場域的落地能力。

除了工業場域，勤崴也將自駕技術延伸至觀光應用，例如今（2026）年6月在南投埔里福興溫泉區推出「啡嚐咖心」觀光自駕車服務；林映帆指出，相較於工業場域重視效率，觀光應用更重視人車互動與乘車體驗，遊客只需一鍵即可啟動自駕接駁，系統除了安全辨識行人與周遭環境，也能透過語音互動提升搭乘安心感，證明自駕車不僅適用於產業應用，更可成為偏鄉觀光與高齡化社會的新一代公共運輸解決方案。

接下來，勤崴國際將憑藉著在南部科學園區、南投與新北市的落地運行經驗，攜手產業夥伴、針對未來對自駕公車有需求的城市，協助客運業者解決公車缺工等議題。

林映帆說：「我們的目標是提供自駕全方位解決方案。」在累積物流、廠區接駁、觀光、無塵室搬運等多元場域經驗後，勤崴逐步發展出「一個平台、多種載具、多種場域」策略：將共通技術平台模組化，再依不同客戶需求進行客製化調整，讓每新增一個場域，都成為下一個場域快速且安全部署的重要養分。

勤崴國際副總經理林映帆表示，將以「一個平台、多種載具、多種場域」策略，攜手自駕車產業鏈夥伴，協助AI自駕車等智慧移動落地應用，以及打造「國家隊」前進海外市場。

圖／數位時代

隨著Physical AI的成熟與落地，未來智慧移動的競爭，不再只是比誰擁有更大的模型，而是比誰能持續累積場域、建立完整資料庫，以及串聯完整生態系；在這個關鍵時刻，勤崴國際除因應不同場域客戶需求提供自駕車解方，也希望攜手更多產業夥伴，共同打造具有國際競爭力的智慧移動國家隊，讓台灣在全球自駕與 Physical AI 的新賽局中，占有一席關鍵位置。