重點一:Claude Opus 4.7 能連續工作數小時、主動檢查自己的答案,過去需要工程師緊盯的程式難題可放手交給 AI。
重點二:軟體工程實測 SWE-bench Pro 解題率從 Opus 4.6 的 53.4% 拉升至 64.3%;新增可微調 AI 思考深度的xhigh模式。
重點三:定價不變(輸入 5 美元、輸出 25 美元/百萬 token);同步上架 Bedrock、Vertex AI、Microsoft Foundry,並作為 Anthropic 新安全機制的第一個測試場。
Anthropic 於 4 月 16 日正式推出新一代旗艦模型 Claude Opus 4.7,同步上架自家 Claude 平台,以及 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 三大雲端。定價與前代 Opus 4.6 相同,每百萬字輸入 token 5 美元、輸出 25 美元(約合新台幣 159 元與 795 元)。
這次更新的核心賣點,Anthropic 用一句話總結:「過去要工程師緊盯的最難程式工作,現在可以放手交給 Opus 4.7。」新模型能連續工作數小時,且在回報答案前,會主動想辦法驗證自己產出的結果正不正確。
科技媒體《VentureBeat》補充,Opus 4.7 在多項可直接比對的評測中,領先 OpenAI 今年 3 月發布的 GPT-5.4 與 Google 今年 2 月發布的 Gemini 3.1 Pro。
實際進步多少?幾個關鍵測試成績
Anthropic 把 Opus 4.7 定位為「Opus 4.6 的直接升級版」,強化重點放在最困難的軟體工程任務。幾個代表性數字:
- SWE-bench Pro(軟體工程實測):解題率從 Opus 4.6 的 53.4% 提升至 64.3%
- arXiv Reasoning(論文推理,開啟工具輔助):從 84.7% 升至 91.0%
- GPQA Diamond(博士級理工題):94.2%
- GDPval-AA(經濟價值知識工作第三方評測):以 Elo 1753 分居首,GPT-5.4 為 1674、Gemini 3.1 Pro 為 1314
- 視覺辨識(XBOW 測試):從 54.5% 跳到 98.5%
Anthropic 誠實指出,Opus 4.7「整體能力仍不如公司最強的 Claude Mythos Preview」,後者因能力過強尚未全面開放。
新增extra high思考模式
這次一併端出的新功能,大多圍繞「讓使用者更能控制 AI 怎麼想、花多少錢」這個主軸:
- xhigh 思考模式:過去 Claude 的思考深度只有「低/中/高/最大」四檔,這次在「高」和「最大」之間多了一檔
xhigh(extra high)。Claude Code 已把預設全面拉到 xhigh,讓開發者不必手動切換也能拿到 Anthropic 認為最划算的品質。 - task budgets(任務預算)公測:允許開發者替長任務設定 token 上限,避免一個長時間除錯任務意外爆預算。
/ultrareview指令:Claude Code 內的新指令,專門模擬資深工程師的深度程式碼審查,Pro 與 Max 用戶可免費試用三次。- auto mode 擴展到 Max 用戶:讓 Claude 在授權範圍內自行做決策、減少使用者被詢問的次數。
視覺方面,Opus 4.7 能處理最長邊 2,576 像素(約 3.75 百萬畫素)的圖片,前一代上限只到 1,568 像素。一張完整解析度的圖最多會吃掉 4,784 個 token,是舊模型 1,600 token 上限的約三倍。這項升級對處理螢幕截圖、技術圖表、文件掃描圖的 AI 工具幫助最大。
企業升級要留意:費用會變貴、舊 prompt 要重寫
Anthropic 在升級指南中提醒兩件會影響成本的事。
第一,Opus 4.7 換了一套處理文字的方式(業界稱為 tokenizer),同樣的內容在新模型可能產生 1.0 到 1.35 倍的 token 數。換句話說,原本一篇文章花 1,000 token,升級後可能要花 1,350 token,帳單自然上升。第二,新模型在困難任務上會「想得更久」,輸出字數也增加。
另一個比較棘手的變化是,Opus 4.7「對指令的遵循明顯更嚴格」。意思是:過去 Opus 4.6 會自動腦補、寬鬆詮釋模糊指令,Opus 4.7 則完全照字面執行。因此,針對舊模型寫的提示詞(prompt)很可能在新模型上出現非預期結果,企業須重新檢視既有的提示詞資料庫。
技術層面,Anthropic 也移除了幾個舊版 API 參數,用舊寫法會直接回報錯誤,開發者須改寫為新格式,詳細清單見官方遷移指南。
Anthropic 新安全機制的「第一個白老鼠」
Opus 4.7 另一層意義,是 Anthropic 上週宣布 Project Glasswing(新一代 AI 安全計畫)之後的第一個測試平台。
公司最強大的 Mythos Preview 模型因能力過強、釋出範圍受限,Anthropic 選擇先在 Opus 4.7 上測試自動偵測並攔截高風險網路安全請求的防護機制,實際部署的學習成果將用於未來放寬 Mythos 等級模型的公開程度。
合法用途的資安研究者(漏洞研究、滲透測試、紅隊演練)可申請加入新設的 Cyber Verification Program,以取得較寬鬆的使用條件。
資料來源:Anthropic、VentureBeat、Claude Migration Guide
本文初稿為AI編撰,整理.編輯/李先泰
