重點一:Anthropic 發布中階模型 Claude Sonnet 5,效能逼近旗艦 Opus 4.8 但更便宜,即日起為免費版與 Pro 版預設模型。
重點二:較前代 Sonnet 4.6 多項評估提升,SWE-bench Pro(agentic 程式撰寫)由 58.1% 升至 63.2%;Anthropic 部署前評估顯示安全亦改善。
重點三:介紹價每百萬 token 輸入 2、輸出 10 美元(至 8 月 31 日),9 月起調為 3、15 美元,低於數款旗艦模型。
Anthropic 在 6 月 30 日發布新一代中階模型 Claude Sonnet 5,主打「史上最會做 agentic(自主代理)任務的 Sonnet」。
所謂 agentic,指模型能自己擬定計畫、操作瀏覽器與終端機等工具、在無人盯著的情況下自主完成一連串工作。官方部落格指出,Sonnet 5 能達到的自主程度,「幾個月前還得動用更大、更貴的模型才辦得到。」
上線範圍分層開放:Free 與 Pro 版即日起以 Sonnet 5 為預設模型;Max、Team、Enterprise 版可選用;開發端則提供於 Claude Code 與 Claude 開發平台(Claude Platform)。
定價方面,即日起至 8 月 31 日採介紹價,每百萬輸入 token 2 美元、每百萬輸出 token 10 美元(token 是模型計費的文字單位,約略對應字數);9 月起轉為正式價,輸入 3 美元、輸出 15 美元。
這組正式價雖與前代 Sonnet 4.6 的原牌價相同,但由於 Sonnet 5 換了一套處理文字的方式(業界稱為 tokenizer),同樣一段文字可能產生約 1 到 1.35 倍的 token,因此單次任務的實際花費未必和舊版相同。
據科技媒體《TechCrunch》報導,Sonnet 5 的定位本身就是一個訊號:agentic 能力已成各價位帶的基本盤,競爭的分水嶺不再是「誰做得最好」,而是「誰能用更低成本、在越少人為監督下越可靠地完成」。
這與 OpenAI 上週預覽的 GPT-5.6 Sol、Google 5 月推出的 Gemini 3.5 Flash 的訴求如出一轍。
和前代 Sonnet 4.6 差在哪?
對照今年 2 月發布的前代 Sonnet 4.6,Anthropic 表示,Sonnet 5 在推理、工具使用、程式撰寫與知識工作等多項重要評估中都有所提升,而非在所有測試上全面勝出。
幾個關鍵測試成績
以下為 Anthropic 公布的 SWE-bench Pro(軟體工程實測,衡量模型自主寫程式的能力)測試結果:
| 測驗 | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro(agentic 程式撰寫) | 58.1% | 63.2% | 69.2% |
在這項測試上,Sonnet 5 從前代的 58.1% 提升到 63.2%;旗艦 Opus 4.8 則以 69.2% 仍居領先(上述分數與各測驗的 effort、測試設定,可查 Claude Sonnet 5 System Card 與 SWE-bench Pro 榜單)。使用者可在模型的「effort(思考力度)」設定間調整,於成本與效能間取得平衡。
和旗艦 Opus 4.8 差在哪?
Anthropic 的定調很清楚:Opus 4.8 依舊是高準確度、高難度任務的首選;Sonnet 5 則提供「品質遠優於過往、但價格更低」的中階選項。兩者可透過 effort 等級切換,讓使用者依任務難度在成本與效能間找平衡。
安全評估與限制
在安全性方面,Anthropic 的部署前評估顯示,Sonnet 5 出現「不良行為」(例如配合濫用、欺瞞)的比率低於前代,更擅長拒絕惡意請求,也更能抵禦「prompt injection」(在指令中夾帶惡意內容以劫持模型)的攻擊;產生幻覺(一本正經地捏造事實)與諂媚附和的機率也比 Sonnet 4.6 低。
要注意的是,Anthropic 也指出,Sonnet 5 在「錯位行為」上的表現仍不及 Opus 4.8 與 Claude Mythos Preview。
早期測試夥伴的回饋,大致指向「更會做事、也更知道何時該拒絕」。例如自動化工具商 Zapier 資深工程師 Daniel Shepard舉例,團隊把一件兩段式任務(更新 Salesforce 帳戶分級、再對企業客戶發出上線通知)交給 Sonnet 5,它一次做完,「這種事以前做到一半就會卡住」;AI 應用開發平台 Lovable 共同創辦人 Fabian Hedin則強調,它拒絕不安全請求「乾淨又一致」。
定價低於數款旗艦模型,但高於 Gemini 3.5 Flash
若把各家模型的 API 每百萬 token 公告牌價擺在一起,《TechCrunch》整理指出,Sonnet 5 的介紹價低於旗艦 Opus 4.8(輸入 5 美元、輸出 25 美元)、OpenAI 的 GPT-5.5與 Google 的 Gemini 3.1 Pro,但仍高於主打低價的 Gemini 3.5 Flash。
要留意的是,不同模型的 tokenizer 不同,同一段文字換算出的 token 數有落差,因此牌價高低不等於單次任務成本的高低。
資料來源:Anthropic 官方公告、《TechCrunch》、Anthropic 系統卡、Morph SWE-bench Pro 榜單、Anthropic 定價、OpenAI 定價、Gemini 定價
本文初稿為AI編撰,整理.編輯/ 李先泰
