xAI發布Grok 4.1！性能「打趴Gemini」登頂榜首：跟前一代差在哪？為何幻覺更少了？|數位時代 BusinessNext

重點一：xAI 推出 Grok 4.1 與 Grok 4.1 Thinking，免費開放且宣稱大幅降低幻覺。

重點二：依 LMArena Text Arena 榜單，Grok 4.1 Thinking 榜首（1510 分），Grok 4.1 排第 19（1437 分）。

重點三：付費用戶可獲較少限制；xAI稱 Grok 4.1 較前版幻覺率降至三分之一。

Elon Musk 旗下 xAI 宣布推出兩款模型：Grok 4.1 與 Grok 4.1 Thinking（思考版），並以免費形式開放使用，付費用戶則享有較低使用限制。

官方強調，此次升級在品質與速度均有進展，其中最重要的指標是「降低幻覺」：xAI 表示 Grok 4.1 相較前代模型，產生錯誤內容的機率下降至約三分之一，為近期最具代表性的版本之一。

雖然頁面以「顯著降低」描述成果，但尚未同步公開具體數值、區間、或統計顯著性檢定方法。整體訊息傳達方向是：在非推理（fast）模型加入搜尋工具、並透過後訓練，能提升面向事實的回答穩定度，降低重大與次要錯誤的出現機率。

至於新模型表現如何？

根據 lmarena.ai（LMSYS Chatbot Arena）在 X 公布最新「Text Arena」排行榜，Grok 4.1（thinking）以總分1483 登上榜首；在難度更高的「Arena Expert」榜單，該版本同樣以總分1510 奪冠，顯示其於綜合語言理解、推理與生成品質的競爭力。

同系列的 Grok 4.1（一般版）在「Text Arena」位居第2、總分1465，「Expert」榜第19、總分1437。

lmarena.ai 並指出，相較兩個月前進入 Arena 的 Grok 4 fast，最新成績「提升超過 40 分」，意味模型在對話穩定性、指令遵循與高難度提示（Hard Prompts）等面向有明顯躍升。

lmarena.ai補充，Grok 4.1（thinking）在「高難度提示詞、編碼、指令執行、創意寫作」等概覽類別表現亮眼，且在「職業排行榜」多數職業領域顯示強勢，

Grok 4.1為何幻覺更少了？

頁面明確交代評測框架：採用「非推理模型＋網路搜尋工具」進行回答，並以「幻覺率」作為核心品質指標。

白話來說，就是讓「不做深度推理的快速模型」搭配「網路搜尋工具」去回答問題，然後把回答裡每一句可被查證的小事實（原子主張）逐一比對，看有沒有重大或次要錯誤，最後把各題的錯誤比例平均，這個平均值就是「幻覺率」。

此做法符合目前檢核事實一致性的主流思路，但細節如原子主張切分準則、標註者一致性（IAA）、與錯誤分級標準，頁面未見公開；因此，外界暫時只能根據定義理解方向，尚無法重現驗證。

強敵環伺！Gemini 3.0成關注焦點

此次雙版本免費釋出，明確強化 xAI 在用戶擴張上的策略，為開發者與一般用戶提供入門門檻更低的使用選項；同時透過付費方案降低頻率與容量限制，維持商業化的可持續性。

從產品訊息來看，Grok 4.1 的訴求為「更可靠、更快速」，核心賣點鎖定降低幻覺與整體表現提升。「Thinking」版則展現更高階的推理與對話品質，反映出 xAI 對多場景推理能力的重視。

另一方面，競品壓力不減：OpenAI 持續迭代至 GPT 5.1，Google 亦可能以 Gemini 3.0 再度抬高性能天花板。對使用者而言，短期可將 Grok 4.1 視為一個在可靠性上有所強化、且擁有可觀基準成績的免費選項；中期則關注其在更廣泛任務中的真實表現與資源限制的影響。

延伸閱讀：馬斯克又出手！SpaceX豪擲20億美元投資xAI，估值衝上3.3兆元

「地表最強模型」來了！Grok-3挾3種模式發布，馬斯克：你100%會愛上它

資料來源：xAI、LMarena、Bleep Computer

本文初稿為AI編撰，整理．編輯/ 李先泰