xAI發布Grok 4.1!性能「打趴Gemini」登頂榜首:跟前一代差在哪?為何幻覺更少了?
xAI發布Grok 4.1!性能「打趴Gemini」登頂榜首:跟前一代差在哪?為何幻覺更少了?

重點一:xAI 推出 Grok 4.1 與 Grok 4.1 Thinking,免費開放且宣稱大幅降低幻覺。

重點二:依 LMArena Text Arena 榜單,Grok 4.1 Thinking 榜首(1510 分),Grok 4.1 排第 19(1437 分)。

重點三:付費用戶可獲較少限制;xAI稱 Grok 4.1 較前版幻覺率降至三分之一。

Elon Musk 旗下 xAI 宣布推出兩款模型:Grok 4.1 與 Grok 4.1 Thinking(思考版),並以免費形式開放使用,付費用戶則享有較低使用限制。

官方強調,此次升級在品質與速度均有進展,其中最重要的指標是「降低幻覺」:xAI 表示 Grok 4.1 相較前代模型,產生錯誤內容的機率下降至約三分之一,為近期最具代表性的版本之一。

雖然頁面以「顯著降低」描述成果,但尚未同步公開具體數值、區間、或統計顯著性檢定方法。整體訊息傳達方向是:在非推理(fast)模型加入搜尋工具、並透過後訓練,能提升面向事實的回答穩定度,降低重大與次要錯誤的出現機率。

至於新模型表現如何? 

根據 lmarena.ai(LMSYS Chatbot Arena)在 X 公布最新「Text Arena」排行榜,Grok 4.1(thinking)以總分1483 登上榜首;在難度更高的「Arena Expert」榜單,該版本同樣以總分1510 奪冠,顯示其於綜合語言理解、推理與生成品質的競爭力。

同系列的 Grok 4.1(一般版)在「Text Arena」位居第2、總分1465,「Expert」榜第19、總分1437

lmarena.ai 並指出,相較兩個月前進入 Arena 的 Grok 4 fast,最新成績「提升超過 40 分」,意味模型在對話穩定性、指令遵循與高難度提示(Hard Prompts)等面向有明顯躍升。

lmarena.ai補充,Grok 4.1(thinking)在「高難度提示詞、編碼、指令執行、創意寫作」等概覽類別表現亮眼,且在「職業排行榜」多數職業領域顯示強勢,

Grok 4.1為何幻覺更少了?

頁面明確交代評測框架:採用「非推理模型+網路搜尋工具」進行回答,並以「幻覺率」作為核心品質指標。

白話來說,就是讓「不做深度推理的快速模型」搭配「網路搜尋工具」去回答問題,然後把回答裡每一句可被查證的小事實(原子主張)逐一比對,看有沒有重大或次要錯誤,最後把各題的錯誤比例平均,這個平均值就是「幻覺率」。

此做法符合目前檢核事實一致性的主流思路,但細節如原子主張切分準則、標註者一致性(IAA)、與錯誤分級標準,頁面未見公開;因此,外界暫時只能根據定義理解方向,尚無法重現驗證。

強敵環伺!Gemini 3.0成關注焦點

此次雙版本免費釋出,明確強化 xAI 在用戶擴張上的策略,為開發者與一般用戶提供入門門檻更低的使用選項;同時透過付費方案降低頻率與容量限制,維持商業化的可持續性。

從產品訊息來看,Grok 4.1 的訴求為「更可靠、更快速」,核心賣點鎖定降低幻覺與整體表現提升。「Thinking」版則展現更高階的推理與對話品質,反映出 xAI 對多場景推理能力的重視。

另一方面,競品壓力不減:OpenAI 持續迭代至 GPT 5.1,Google 亦可能以 Gemini 3.0 再度抬高性能天花板。對使用者而言,短期可將 Grok 4.1 視為一個在可靠性上有所強化、且擁有可觀基準成績的免費選項;中期則關注其在更廣泛任務中的真實表現與資源限制的影響。

延伸閱讀:馬斯克又出手!SpaceX豪擲20億美元投資xAI,估值衝上3.3兆元

「地表最強模型」來了!Grok-3挾3種模式發布,馬斯克:你100%會愛上它

資料來源:xAILMarenaBleep Computer

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Grok #xAI

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓