xAI發布Grok 4.1!性能「打趴Gemini」登頂榜首:跟前一代差在哪?為何幻覺更少了?
xAI發布Grok 4.1!性能「打趴Gemini」登頂榜首:跟前一代差在哪?為何幻覺更少了?

重點一:xAI 推出 Grok 4.1 與 Grok 4.1 Thinking,免費開放且宣稱大幅降低幻覺。

重點二:依 LMArena Text Arena 榜單,Grok 4.1 Thinking 榜首(1510 分),Grok 4.1 排第 19(1437 分)。

重點三:付費用戶可獲較少限制;xAI稱 Grok 4.1 較前版幻覺率降至三分之一。

Elon Musk 旗下 xAI 宣布推出兩款模型:Grok 4.1 與 Grok 4.1 Thinking(思考版),並以免費形式開放使用,付費用戶則享有較低使用限制。

官方強調,此次升級在品質與速度均有進展,其中最重要的指標是「降低幻覺」:xAI 表示 Grok 4.1 相較前代模型,產生錯誤內容的機率下降至約三分之一,為近期最具代表性的版本之一。

雖然頁面以「顯著降低」描述成果,但尚未同步公開具體數值、區間、或統計顯著性檢定方法。整體訊息傳達方向是:在非推理(fast)模型加入搜尋工具、並透過後訓練,能提升面向事實的回答穩定度,降低重大與次要錯誤的出現機率。

至於新模型表現如何? 

根據 lmarena.ai(LMSYS Chatbot Arena)在 X 公布最新「Text Arena」排行榜,Grok 4.1(thinking)以總分1483 登上榜首;在難度更高的「Arena Expert」榜單,該版本同樣以總分1510 奪冠,顯示其於綜合語言理解、推理與生成品質的競爭力。

同系列的 Grok 4.1(一般版)在「Text Arena」位居第2、總分1465,「Expert」榜第19、總分1437

lmarena.ai 並指出,相較兩個月前進入 Arena 的 Grok 4 fast,最新成績「提升超過 40 分」,意味模型在對話穩定性、指令遵循與高難度提示(Hard Prompts)等面向有明顯躍升。

lmarena.ai補充,Grok 4.1(thinking)在「高難度提示詞、編碼、指令執行、創意寫作」等概覽類別表現亮眼,且在「職業排行榜」多數職業領域顯示強勢,

Grok 4.1為何幻覺更少了?

頁面明確交代評測框架:採用「非推理模型+網路搜尋工具」進行回答,並以「幻覺率」作為核心品質指標。

白話來說,就是讓「不做深度推理的快速模型」搭配「網路搜尋工具」去回答問題,然後把回答裡每一句可被查證的小事實(原子主張)逐一比對,看有沒有重大或次要錯誤,最後把各題的錯誤比例平均,這個平均值就是「幻覺率」。

此做法符合目前檢核事實一致性的主流思路,但細節如原子主張切分準則、標註者一致性(IAA)、與錯誤分級標準,頁面未見公開;因此,外界暫時只能根據定義理解方向,尚無法重現驗證。

強敵環伺!Gemini 3.0成關注焦點

此次雙版本免費釋出,明確強化 xAI 在用戶擴張上的策略,為開發者與一般用戶提供入門門檻更低的使用選項;同時透過付費方案降低頻率與容量限制,維持商業化的可持續性。

從產品訊息來看,Grok 4.1 的訴求為「更可靠、更快速」,核心賣點鎖定降低幻覺與整體表現提升。「Thinking」版則展現更高階的推理與對話品質,反映出 xAI 對多場景推理能力的重視。

另一方面,競品壓力不減:OpenAI 持續迭代至 GPT 5.1,Google 亦可能以 Gemini 3.0 再度抬高性能天花板。對使用者而言,短期可將 Grok 4.1 視為一個在可靠性上有所強化、且擁有可觀基準成績的免費選項;中期則關注其在更廣泛任務中的真實表現與資源限制的影響。

延伸閱讀:馬斯克又出手!SpaceX豪擲20億美元投資xAI,估值衝上3.3兆元

「地表最強模型」來了!Grok-3挾3種模式發布,馬斯克:你100%會愛上它

資料來源:xAILMarenaBleep Computer

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Grok #xAI
往下滑看下一篇文章
TWNIC歡慶25周年加碼挺新創 ,52168免費域名方案!從創業第一天開始就打造新創數位競爭力、強化數位資產
TWNIC歡慶25周年加碼挺新創 ,52168免費域名方案!從創業第一天開始就打造新創數位競爭力、強化數位資產

每年在台灣約有超過8萬家新設公司商號的誕生,然而根據台灣網路資訊中心(TWNIC)內部統計數據顯示,真正完成網站架設、踏上數位轉型起點的新設立公司卻不到一成。這意味著絕大多數的新創團隊或微型企業,雖然正式登記成立,卻仍缺乏最基本的「數位門牌」,也就是企業的專屬域名名稱。

TWNIC 執行長余若凡指出,這看似是台灣新創團隊在數位轉型上的一個缺口,實際上卻是關鍵成長與強化自身數位資產的關鍵。「域名其實是數位轉型的起點,如果沒有自己的域名,基本上就還沒真正開始。」她強調,數位轉型已經不只是上雲端或導入 IT 設備,更進一步的是「建立數位信任」;但眼下許多新創連第一步都還沒跨出。

三大現實痛點突顯,域名是新創跨出數位轉型第一步的關鍵

余若凡觀察,許多新創公司之所以未能及早佈局域名與數位資產,主要來自三個現實因素。首先是資金有限。對於初創立的新創團隊來說,創業初期事務繁雜、資金有限,許多團隊會優先把錢投入營運,對域名或網站架設常抱持「之後再說」的心態。其次,則是缺乏整體數位策略的構想。余若凡表示,許多新設企業或新創團隊少有在成立之初就規劃品牌的數位溝通路徑,更遑論導入數位品牌策略。

最後是對「數位信任」的認知不足。余若凡提到,許多企業直到品牌被仿冒、消費者受詐騙波及時,才意識到域名的重要性。「你等到有名氣後再來搶域名就太晚了。」她特別提醒。一旦品牌名稱被他人搶先註冊,甚至被詐騙集團利用,損失往往難以挽回。

而看在余若凡的眼裏,域名對於新創企業其實有三重意義。第一,它是企業的「數位門牌」。清楚、好記的域名能讓消費者快速找到企業,也代表著品牌在網路上的官方身分。第二,它是品牌行銷的起點。她指出,你必須要有自己的家,然後再去連結各種社群平台與通路。擁有域名,可以將社群經營、搜尋流量與品牌曝光整合在一起,累積成企業的長期數位資產。第三,它也是防禦性的工具。許多企業認為「不架網站就不需要域名」,但實際上,單純註冊域名就能防止他人搶註或利用相似網址詐騙,成本只要幾百元,卻能省下未來更多麻煩。

台灣網路資訊中心 余若凡執行長
圖/ 數位時代

從「免費申請」到「快速架站」,52168為新創打造快速數位起步

為協助更多新創企業補上這一塊關鍵拼圖,TWNIC 為歡慶25周年,今年特別規劃「52168 Go! 免費域名註冊方案」,更首度針對自112年起的新設公司與商號,加碼免費提供含「com.tw 或 .tw」及「.台灣」等兩筆域名的註冊。這不僅讓新設公司能以0元自選擁有自己的域名,及低成本建置國際品牌識別,中文域名更能讓以在地化為優先的新設公司、新創團隊或是擁有創意諧音名稱的店家,直接使用最具代表性的中文作為數位門牌。

「我們希望透過免費的方式,讓企業更容易跨出第一步,養成擁有自己數位門牌的習慣,無論是用來建品牌、做轉址,或先作為防禦性註冊,都可以開始累積數位資產。」余若凡表示。今年TWNIC方案不僅延長了申請對象的年限,也在免費之餘特別簡化申請流程,讓新創團隊輕鬆完成。余若凡說,企業只要備妥公司或商號設立證明,線上填寫資料、選好想要的域名並上傳文件,最快一個工作天內即可生效。

「我們希望讓這件事情的流程簡化到創業家們用幾分鐘就能完成申請,」余若凡笑說。不僅如此,TWNIC 也希望讓這項服務的效益極大化,不只是積極推動域名的申請,更同步規劃了後續的配套措施。申請完成後,企業可以透過「轉址教學」將域名直接連結至現有的社群媒體等平台,不需額外調整營運模式,就能立即擁有屬於自己的專屬門牌;同時,TWNIC也提供大型雲服務供應商的免費空間作為範例,提供清楚的「架站」教學,協助企業快速打造基本網站。這樣的設計,讓資源有限的新創企業不僅能輕鬆取得域名,還能在最短時間內建立屬於自己的數位家園,為品牌發展打下穩固基礎。

從「數位門牌」出發,為新創奠下品牌與信任的起跑線

對於許多初創企業而言,品牌的第一張名片,可能不是實體名片,而是域名名稱。余若凡強調,數位轉型的時代已經不是「要不要做」的問題,而是「非做不可」的基本條件。

「我們希望 52168 能成為新創的堅強後盾,從最簡單、最基本的地方,幫助他們在數位化的道路上打好地基。當企業開始累積數位資產,品牌信任也會逐步建立,整體產業生態才能變得更安全、更有韌性。」余若凡說。透過52168方案,TWNIC 不僅提供免費資源,更試圖翻轉企業對「數位門牌」的認知。對於正處於創業起跑線上的新創來說,這或許是一個最簡單,也最值得立即行動的關鍵步驟。

請上「52168 Go! 新設立公司/商號免費域名註冊」活動網站 https://52168.tw/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓