重點一:GPT-5.4 整合推理、程式編寫與電腦自主操作能力,上下文視窗達 100 萬個 token,在 GDPval 知識工作基準測試中以 83% 勝率超越一般辦公室員工表現。
重點二:Token 使用效率大幅躍升,部分任務耗用量較 GPT-5.2 減少 47%;個別陳述錯誤率降低 33%,整體回應出錯機率下降 18%。
重點三:OpenAI 同步推出 Excel/Google Sheets 插件與金融服務套件,直接切入企業市場,與 Anthropic Claude 展開正面競爭。
OpenAI 於台灣時間 3 月 6 日正式發布 GPT-5.4,定位為該公司迄今「最具能力且最高效的專業工作前沿模型」。
新模型同時推出兩個變體:具備深度推理的 GPT-5.4 Thinking,以及針對極複雜任務最佳化的 GPT-5.4 Pro,向付費訂閱用戶(Plus、Team、Pro)逐步開放,並同步上線開發者 API 與 Codex 平台。
此次發布並非單純的效能升級,而是一次能力整合。GPT-5.4 將原先分散於不同模型的核心優勢,GPT-5.3 Codex 的程式設計能力、改進後的推理引擎,以及自主操作桌面、瀏覽器與應用程式的 AI 代理 (Agentic AI) 功能,首度統整在單一通用模型中落地。
三大技術突破:效率、準確度、自主操作
GPT-5.4 在效能層面交出多項亮眼數據。在 OpenAI 自行開發、涵蓋 44 種職業真實工作情境的 GDPval 基準測試中,模型以 83% 的勝率超越辦公室員工,在法律與金融專業能力的 APEX-Agents 排行榜也奪得首位。
準確度方面,OpenAI 表示 GPT-5.4 在個別陳述的錯誤率較 GPT-5.2 下降 33%,整體回應出錯機率減少 18%。在推理版本 (GPT-5.4 Thinking) 中,研究顯示模型較不易產生欺騙性輸出,OpenAI 認為這意味著「思維鏈 (Chain-of-Thought) 監控仍是有效的安全工具」。
計算效率的躍升同樣顯著。在 Scale 的 MCP Atlas 基準測試中,透過新引入的 Tool Search 機制,讓模型僅在需要時才查詢工具定義,而非預載整份工具清單。
token 使用量在維持準確度的前提下減少了 47%。此外,API 版本支援高達 100 萬個 token 的超長上下文視窗,為企業級大規模文件分析與多步驟代理工作流奠定基礎,但超過 27.2 萬個 token 後費用將加倍計算。
電腦使用 (Computer Use) 能力是另一重要里程碑。
GPT-5.4 是 OpenAI 首個將電腦操作功能內建於通用主線模型的版本,在衡量桌面環境導航能力的 OSWorld-Verified 基準中,成功率從 GPT-5.2 的 47.3% 躍升至 75.0%,超越人類基準值 72.4%。
ChatGPT for Excel外掛問世
與模型發布同步,OpenAI 官方推出 ChatGPT for Excel 外掛,讓 GPT‑5.4 能直接在 Excel 儲存格裡執行分析與自動化。另一方面,透過 Codex 與 API 更新,開發者也能把同樣能力串接到 Google Sheets 等雲端試算表。
以「ChatGPT for Excel」為例,這個外掛的核心意義,就是讓 GPT‑5.4 這種「知識工作模型」直接在 Excel 裡工作,而不是你複製貼上到瀏覽器問問題。
簡單來說,你可以用自然語言講需求,例如用中文說明「幫我寫一個根據產品類別和月份加總營收的公式」,它會回給你對應的公式,甚至解釋每一段在幹嘛;或是把一長串複雜公式貼給它,請它「用白話解釋這個公式,順便幫我簡化」,讓維護舊報表比較不那麼痛苦。
此外,「OpenAI for Financial Services」新服務也同步上線,瞄準的正是 Anthropic Claude 長期深耕的企業客戶基本盤。
定價方面,GPT-5.4 Thinking 面向 ChatGPT Plus(每月約新台幣 635 元)及以上訂閱用戶開放;GPT-5.4 Pro 則保留給 ChatGPT Pro(每月 200 美元,約合新台幣 6,352 元)與企業方案用戶。免費用戶也可在查詢被自動路由至本模型時,體驗部分功能。
延伸閱讀:首起Google AI過失致死訴訟!Gemini是怎麼害死一個成年男子的?訴狀揭5個虛構任務,該如何正確辨別「壞AI」?
資料來源:TechCrunch、VentureBeat、Fortune
本文初稿為 AI 編撰,整理・編輯/ 李先泰
