AI之戰白熱化！Anthropic推出Claude Opus 4.5：程式、代理、電腦操作，性能碾壓Gemini 3 Pro？|數位時代 BusinessNext

重點一：Anthropic 推出 Claude Opus 4.5，宣稱為目前最強，在程式、代理與電腦操作領先。

重點二：模型新增可調整的「effort參數」，趕時間就選低 effort，追求最強效能就選高 effort。讓開發者能用更少資源，跑更長、更複雜的流程，還能依需求調整「思考力」與「成本」。

重點三：Claude Opus 4.5的輸入/輸出代幣降價約三分之二。

Anthropic 宣布推出新一代大型模型 Claude Opus 4.5，定位為其最旗艦版本，並表示在「程式開發、代理（agentic workflows）與電腦使用」方面具備領先能力。

官方指出，Opus 4.5 在多項真實世界工程測試表現出色，包含 SWE-bench 類型的評測，且在多語言與長程推理上有明顯進步。

實務面上，Opus 4.5 在多家早期客戶測試中被評為「用更少 Token 完成更難任務」，包含 GitHub Copilot 等重度代理場景、跨程式碼庫重構、長時間自主編碼與長篇故事生成等使用情境。

目前，模型已在 Anthropic 各管道上線，包括App、API 與三大雲平台，開發者已可使用「claude-opus-4-5-20251101」。

值得注意的是，API定價從前代大幅下修至每百萬輸入代幣 5 美元（約新台幣 160 元）、每百萬輸出代幣 25 美元（約新台幣785元），相較 Claude Opus 4.1 的 15 美元與 75 美元降幅約三分之二，使先進AI能力更具可及性。

除了模型本身，Anthropic 同步更新 Claude Developer Platform、Claude Code 與消費端 App，強調更長時程代理、跨 Excel、Chrome 與桌面環境的整合，以及聊天在長對話中的自動摘要銜接，減少斷點。

「Effort參數」是什麼？

Opus 4.5 的核心變化之一是效率與控制。Anthropic引入「Effort參數」，允許開發者在「速度與成本」與「能力最大化」之間調整，搭配「Context Compaction（情境壓縮）」與「Advanced Tool Use（進階工具使用）」等平台能力，使長任務更穩定、探查更少、推理更精煉。

官方數據顯示， 在中等 Effort 下，Opus 4.5 可用顯著更少的輸出 Token 達到與 Sonnet 4.5 相近或更好的分數；在最高 Effort 下，仍能以更少 Token 超越 Sonnet 4.5。

平台也強化「Context Management（情境管理）」與「Memory Capabilities（記憶能力）」，並支持多子代理協作，讓複雜多階段任務更可控、可組合。

在產品面上，Claude Code 的 Plan Mode 更精準，會先提出澄清問題並建立可編輯的 plan.md，再執行；同時提供桌面版以並行多個本地/遠端 Session。

消費端則開放 Claude for Chrome 給 Max 用戶，並擴大 Claude for Excel 的測試名單至 Max、Team、Enterprise。而在資費與配額方面，Opus 4.5 取消專屬上限（原本有配額限制），力求可作為日常主力。

Opus 4.5進化！代理、長文能力都更強

Anthropic在系統卡中稱 Opus 4.5 是其迄今「對齊（Alignment）」最穩健的模型，並強化對「提示注入（Prompt Injection）」的抵抗力。公司表示在與第三方強攻擊集的評測中，Opus 4.5 比其他前沿模型更不易被駭客欺騙，對企業關注的安全使用情境是一項關鍵提升。

官方亦強調 Opus 4.5 的代理能力。指出在其中一個測試情境中，模型必須扮演航空公司服務代理，協助一位焦慮的客戶。該基準（τ2-bench）預期模型會拒絕修改基本經濟艙預訂，因為航空公司不允許更改該艙等的機票。然而，Opus 4.5 找到了一個富有洞察力（且合法）的方法來解決問題：先升級艙等，然後再修改航班。

至於在典型業務場景的具體改善，則如下：

Excel 自動化：讀取多表、交叉引用、生成樞紐與圖表，對錯誤資料有更好的容錯與修正建議；財務模型可維持單位、期間與假設一致。
金融建模：現金流、比率分析、情境測試與敏感度分析更可靠；能追蹤假設來源並對不一致的前提提出更正。
企業級多步任務：跨文件檢索→工具呼叫→彙整→產出決策稿的長流程更少卡住；在長達 30 分鐘的自主編碼與流程協調裡，失誤率下降、步驟更精簡。

官方也強調，Opus 4.5 在長內容生成的穩定性更強力。例如10～15 頁章節，在段落結構、角色與設定的一致性更好；能維持主線邏輯與前後呼應，不易出現前後矛盾。而若生成事實型長文，Opus 4.5 可在長上下文中持續引用同一套資料與定義，較少遺忘或自相矛盾。

總體而言，Opus 4.5 不僅是能力提升，更是讓開發者能以可調節的成本/能力曲線構建更長、更可靠的代理系統。

延伸閱讀：哪一款AI最可靠？研究揭Claude家族最老實：為何對LLM來說，坦承無知比「已讀亂回」更難？

資料來源：Anthropic、venturebeat

本文初稿為AI編撰，整理．編輯/ 李先泰