「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?

重點一:Anthropic 發布 Claude Sonnet 4.5,稱其為迄今最強;可在長時程任務中連續執行超過 30 小時,並在多項基準測試領先同業。

重點二:Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%,超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro;並強化電腦操作與代理能力。

重點三:Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增程式執行、檔案建立與文件/試算表/簡報生成功能;API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5,官方稱其為「迄今最強」版本;能在複雜的多步長任務中「連續專注」超過 30 小時,同時在多項公開基準測試刷新成績,展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0,4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%,並於 SWE-bench Verified 取得 77.2%;整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro,凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出,Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容,但強調其代理行為在長時間情境下維持一致性,減少過去常見的上下文遺失與錯誤累積。

就量化表現,該模型於 SWE-bench Verified 拿下 77.2%,在 OSWorld 取得 61.4% 並居於領先,分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時,在 AIME 2024(數學競賽基準)、MMMLU(14 種非英語科目知識)與 Vals AI Finance Agent(金融分析代理)等評測亦見進步,其中金融代理測試達 92%。

Claude Sonnet 4.5 基準測試
Sonnet 4.5 在 SWE-bench Verified 得分77.2%、OSWorld 61.4%,超過 OpenAI GPT-5 Codex 與 Google Gemini 2.5 Pro。
圖/ Anthropic

此外,Anthropic 表示已降低模型在「sycophancy(逢迎)」「deception(欺瞞)」「power-seeking(權力尋求)」與「鼓勵妄想傾向」等風險行為,回應外界對聊天機器人社會化使用的關注。

Claude Sonnet 4.5 更老實了
Anthropic指出,已降低模型在逢迎、欺瞞、權力尋求等AI風險行為。
圖/ Anthropic

根據《Ars Technica》報導,儘管業界對廠商自行公布的基準成績向來持審慎態度(可能受資料汙染或設計偏誤影響),Sonnet 4.5 仍相較 4.0 呈現實質躍進;並獲知名開發者 Simon Willison 初步肯定,稱其在程式能力上優於其近週常用的 GPT-5 Codex。

速度即智慧!Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora(cora.computer)總經理 Kieran Klaassen 的說法指出,Claude Sonnet 4.5 在 Claude Code/App 中「體感快約 50%」。同樣的大型程式碼評審任務,Sonnet 4.5 約 2 分鐘完成,GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下,更利於長時間配對工作。亦即, 能在大型上下文與多檔案間保持專注、不亂飄,並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例,他將三份營運試算表交給模型,便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出,在 Cora(Every 的郵件管理工具)專案裡有一個程式錯誤,先用 Claude Opus 4.1 嘗試未能解決,但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出,若使用者以 Claude Code 為日常編程主力,Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴;但若是 GPT-5 Codex 擁護者,編程難題仍建議以 Codex 為先。若是新專案、vibe coding,或需要 Claude「勤勉+速度」組合的任務,就值得考慮 Sonnet 4.5。

用價格換市占!Claude Sonnet 4.5「加速不加價」

為配合模型升級,Anthropic 同步發布 Claude Code 2.0(命令列 AI 代理)與 Claude Agent SDK(代理開發套件),瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint(檢查點)」以保存進度並可回滾,更新終端介面,並上線原生 VS Code 擴充;API 端亦新增「context editing(脈絡編輯)」與更佳的長任務記憶工具,改善長流程代理工作的穩定性。

在使用者端,Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」,並可在對話中直接產生試算表、投影片與文件;「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單/資料處理。

此外,Anthropic 推出為期五天的研究預覽「Imagine with Claude(與 Claude 想像)」供 Max 訂閱者體驗,展示模型在即時產生軟體上的潛力。

值得注意的是,Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度:輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1(輸入 15 美元、輸出 75 美元)的成本拉低到約五分之一,形成「以中檔價格提供近旗艦能力」的攻勢,目標明確對準主流對手如 GPT‑5 等。

Claude Sonnet 4.5 API價格
Anthropic指出,對標準 200K 上下文長度:輸入每百萬 token $3、輸出 $15。
圖/ Anthropic

第二段則針對超長上下文(超過 200K):輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計,讓需要長文脈的用例有合理成本,同時透過輸出端維持較高單價,以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理,並以輸出價差回收算力成本;配合「混合推理/擴展思考模式」,當開啟更長思考與高準確度輸出時,價格結構自然引導開發者優化 token 使用,避免不必要的長輸出。

簡單來說,這種定價策略的總體效果,是以極致性價比快速搶佔編程與 Agent 場景,讓開發者在可控成本下獲得高階能力,並對競品形成明顯的價格壓力。

延伸閱讀:因為AI,他成了身價1830億美元的CEO!Anthropic開發出最會寫程式的模型,為何又變AI頭號黑粉?

自掏腰包買書訓練AI合法嗎?Anthropic獲關鍵勝訴:「合理使用」原則是什麼?

資料來源:Ars TechnicaSimon willison01 Founder

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Anthropic #Claude
往下滑看下一篇文章
9 成老闆沒發現的數位轉型盲點:缺少「自己專屬的域名」,等於把客戶拱手讓給平台!
9 成老闆沒發現的數位轉型盲點:缺少「自己專屬的域名」,等於把客戶拱手讓給平台!

台灣有 167.4 萬家中小企業,占全體企業 98%,近九成已投入數位轉型,從導入數位工具、社群行銷到進駐各大平台,努力跟上消費行為的變化。但縱然許多企業積極投入數位化,卻忽略了在數位世界「被找到、被信任」的關鍵門檻,而這正是企業專屬域名的重要性。

在 AI 時代,資訊大量生成,真假難辨已成消費者最大痛點。企業要被找到、被信任,第一步就是擁有專屬域名。根據 2025 年《Consumer Pulse Report》,有 74% 的消費者更信任與品牌名稱完全一致的域名。對中小企業而言,註冊 .tw 或 .台灣域名不只是在地品牌的數位門牌號碼,更是避免仿冒與釣魚風險的防護盾。專屬域名代表真實身份與長久信任,是數位轉型中最穩固的基石。沒有專屬域名,就等於在數位世界失去定位;擁有 .tw域名才能在資訊洪流中被正確看見、被消費者選擇。

各行業註冊「.tw/. 台灣」域名比例
各行業註冊「.tw/. 台灣」域名比例
圖/ 台灣網路資訊中心

從域名開始,建立企業的信任基礎

「沒有信任,就沒有轉型。」TWNIC 董事長黃勝雄語氣堅定地說。他指出,台灣過去 25 年成功建構了高速且普及的網路環境,但數位信任卻沒有同步建立,企業與消費者都在承擔隱形的風險成本。「數位轉型不只是上平台、買廣告,更要先確保顧客能找到真正的官方入口,並且放心與品牌互動。」他強調,註冊與品牌名稱一致的域名,是建立數位信任的第一步,也是企業與消費者之間最基本的約定。擁有明確的「門牌號碼」,不僅能向市場清楚宣告品牌身份,更能把流量與顧客資料導回自己,避免完全受制於第三方平台的演算法或規則。

黃勝雄指出,台灣需要建構自己的「數位信任體系」,以公開、透明、隱私保護為原則;同時,TWNIC透過國際合作建立「受信賴通報者」(Trusted Notifier)機制,由可信任通知機構通報並快速處理涉嫌惡意網路活動,進一步強化域名安全治理;他強調.tw 與 .台灣域名是這個信任機制很重要的基礎。相較於國際域名,.tw 與 .台灣域名受台灣法律保障,違法與詐騙案件比率僅 0.07%,是企業建立官方網站、守護品牌資產的最佳選擇。「唯有將信任融入制度、技術與文化,台灣的數位發展才能真正站穩。」

黃勝雄.jpeg
台灣網路資訊中心 黃勝雄董事長
圖/ 台灣網路資訊中心

讓數位轉型不只是上雲端,域名更是品牌管理的起手式

長期關注台灣企業數位化進程的臺灣數位企業總會執行長王怡雯觀察,許多中小企業還停留「數位優化」階段,「只是把流程上雲,商業模式卻沒有真正改變。」她指出,有些傳產甚至仍用傳真接單,南北數位落差明顯,顯示轉型仍有很長的路要走。

臺灣數位企業總會 王怡雯執行長
臺灣數位企業總會 王怡雯執行長
圖/ 數位時代

她提醒,AI 正在改變流量分配的規則,能不能被看見將決定企業能否抓住下一波商機。若能擁有自己的域名並建置專屬網站,不僅能強化搜尋引擎與 AI 的索引效果,還能在下一波流量紅利來臨時把握曝光機會,提升行銷能見度。「很多老闆覺得品牌名稱和域名不同也無妨,甚至只用社群平台開店。」王怡雯說,這樣雖然短期見效,卻埋下長期風險:「一旦平台演算法改變,流量與顧客資料都不再掌握在自己手裡。」

她形容域名就像數位世界的門牌號碼;與品牌同名的專屬域名不只讓消費者和搜尋引擎能找到企業,在 AI 時代更能提升被引用的機會,形成可持續的網路流量。「如果沒有把這個門牌號碼訂下來,就等於放棄了下一波數位紅利。」王怡雯最後提醒,數位轉型的最終目標是找到新的商業模式,「從域名、官網開始把品牌內容整理好,才能把轉型真正轉成企業成長動能。」

建立數位店面,讓域名成為企業的關鍵投資

企業對域名的重要性認知仍然不足,TWNIC 執行長余若凡強調,第一步就是先把品牌的「門牌號碼」建立起來。「域名就是數位世界的門牌。沒有門牌,顧客和搜尋引擎都找不到你。」她提醒,許多企業把生意放在社群媒體上,就像租在別人的房子裡,「房東」一旦改規則,流量和顧客資料可能瞬間消失。

她指出,擁有自己的 .tw 或 .台灣域名並不困難,每年僅需數百元即可完成註冊,再用受理註冊機構的一站式服務,就能建好一個簡單官網,讓所有行銷活動有個長期的「官方落點」。這不只是集結被平台收走的流量,更能累積品牌的自然曝光,確保消費者每一次搜尋都能找到真正的官方網站。

余若凡補充,2024 年已有 2,219 筆 .tw 域名完成 DNSSEC 部署,超過六成域名啟用 HTTPS,顯示企業對資安防護需求持續上升。「DNSSEC 透過數位簽章驗證 DNS 回應,確保資料不被竄改,讓使用者安全到達正確網站,同時強化網路信任基礎。」她說TWNIC亦推出綠色域名認證服務,如同社群媒體平台上的「藍勾勾」身份認證標示,能核驗註冊人身份並協助使用者辨識何者為真正企業提供的網站;域名安全鎖(Registry Lock)則以多重驗證機制,防止域名被未經過授權的人士竄改或轉移,甚或刪除。

台灣網路資訊中心 余若凡執行長
台灣網路資訊中心 余若凡執行長
圖/ 數位時代

現在,就是中小企業重建數位信任的時刻

「數位信任不是口號,而是企業能不能把顧客留住的關鍵。」余若凡強調,現在正是中小企業重建數位信任的最佳時機,從擁有一個 .tw 或 .台灣 的專屬域名開始,把流量、顧客資料和品牌主控權重新抓回自己手中。「我們希望讓每一家企業都能用最低的成本,建立一個安全、可信任、被 AI 看得見的數位門牌。數位轉型不應只停留在上平台或投遞廣告,而是要先立起屬於自己的品牌門牌。『Trust in Every Click! 點點都信任』不只是一個口號,更是幫助企業從每一次點擊開始,與顧客建立真正的信任關係,讓台灣品牌在全球市場被看見。」

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓