「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?

重點一:Anthropic 發布 Claude Sonnet 4.5,稱其為迄今最強;可在長時程任務中連續執行超過 30 小時,並在多項基準測試領先同業。

重點二:Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%,超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro;並強化電腦操作與代理能力。

重點三:Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增程式執行、檔案建立與文件/試算表/簡報生成功能;API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5,官方稱其為「迄今最強」版本;能在複雜的多步長任務中「連續專注」超過 30 小時,同時在多項公開基準測試刷新成績,展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0,4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%,並於 SWE-bench Verified 取得 77.2%;整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro,凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出,Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容,但強調其代理行為在長時間情境下維持一致性,減少過去常見的上下文遺失與錯誤累積。

就量化表現,該模型於 SWE-bench Verified 拿下 77.2%,在 OSWorld 取得 61.4% 並居於領先,分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時,在 AIME 2024(數學競賽基準)、MMMLU(14 種非英語科目知識)與 Vals AI Finance Agent(金融分析代理)等評測亦見進步,其中金融代理測試達 92%。

Claude Sonnet 4.5 基準測試
Sonnet 4.5 在 SWE-bench Verified 得分77.2%、OSWorld 61.4%,超過 OpenAI GPT-5 Codex 與 Google Gemini 2.5 Pro。
圖/ Anthropic

此外,Anthropic 表示已降低模型在「sycophancy(逢迎)」「deception(欺瞞)」「power-seeking(權力尋求)」與「鼓勵妄想傾向」等風險行為,回應外界對聊天機器人社會化使用的關注。

Claude Sonnet 4.5 更老實了
Anthropic指出,已降低模型在逢迎、欺瞞、權力尋求等AI風險行為。
圖/ Anthropic

根據《Ars Technica》報導,儘管業界對廠商自行公布的基準成績向來持審慎態度(可能受資料汙染或設計偏誤影響),Sonnet 4.5 仍相較 4.0 呈現實質躍進;並獲知名開發者 Simon Willison 初步肯定,稱其在程式能力上優於其近週常用的 GPT-5 Codex。

速度即智慧!Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora(cora.computer)總經理 Kieran Klaassen 的說法指出,Claude Sonnet 4.5 在 Claude Code/App 中「體感快約 50%」。同樣的大型程式碼評審任務,Sonnet 4.5 約 2 分鐘完成,GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下,更利於長時間配對工作。亦即, 能在大型上下文與多檔案間保持專注、不亂飄,並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例,他將三份營運試算表交給模型,便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出,在 Cora(Every 的郵件管理工具)專案裡有一個程式錯誤,先用 Claude Opus 4.1 嘗試未能解決,但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出,若使用者以 Claude Code 為日常編程主力,Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴;但若是 GPT-5 Codex 擁護者,編程難題仍建議以 Codex 為先。若是新專案、vibe coding,或需要 Claude「勤勉+速度」組合的任務,就值得考慮 Sonnet 4.5。

用價格換市占!Claude Sonnet 4.5「加速不加價」

為配合模型升級,Anthropic 同步發布 Claude Code 2.0(命令列 AI 代理)與 Claude Agent SDK(代理開發套件),瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint(檢查點)」以保存進度並可回滾,更新終端介面,並上線原生 VS Code 擴充;API 端亦新增「context editing(脈絡編輯)」與更佳的長任務記憶工具,改善長流程代理工作的穩定性。

在使用者端,Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」,並可在對話中直接產生試算表、投影片與文件;「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單/資料處理。

此外,Anthropic 推出為期五天的研究預覽「Imagine with Claude(與 Claude 想像)」供 Max 訂閱者體驗,展示模型在即時產生軟體上的潛力。

值得注意的是,Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度:輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1(輸入 15 美元、輸出 75 美元)的成本拉低到約五分之一,形成「以中檔價格提供近旗艦能力」的攻勢,目標明確對準主流對手如 GPT‑5 等。

Claude Sonnet 4.5 API價格
Anthropic指出,對標準 200K 上下文長度:輸入每百萬 token $3、輸出 $15。
圖/ Anthropic

第二段則針對超長上下文(超過 200K):輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計,讓需要長文脈的用例有合理成本,同時透過輸出端維持較高單價,以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理,並以輸出價差回收算力成本;配合「混合推理/擴展思考模式」,當開啟更長思考與高準確度輸出時,價格結構自然引導開發者優化 token 使用,避免不必要的長輸出。

簡單來說,這種定價策略的總體效果,是以極致性價比快速搶佔編程與 Agent 場景,讓開發者在可控成本下獲得高階能力,並對競品形成明顯的價格壓力。

延伸閱讀:因為AI,他成了身價1830億美元的CEO!Anthropic開發出最會寫程式的模型,為何又變AI頭號黑粉?

自掏腰包買書訓練AI合法嗎?Anthropic獲關鍵勝訴:「合理使用」原則是什麼?

資料來源:Ars TechnicaSimon willison01 Founder

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Anthropic #Claude
往下滑看下一篇文章
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局

汎定科技(FindingsTech)成立於2020年,以力學模擬、人工智慧與數據分析三大核心技術為基礎,迅速在智慧醫療領域打出名號,目前公司的主力產品有二:分別是小心肝 AI(HepatoWell.ai)與 AI Foundry 服務,前者透過 NVIDIA MONAI 為框架的 MRI 影像訓練,開發計算量化脂肪肝程度的 AI 軟體;後者則是因應客戶需求、使用情境提供最佳 AI 架構與解決方案,例如跟豐藝母公司和醫學中心合作開發的 OmniSurgery 手術房 AI 器械盤點平台,用來協助醫院器械供應中心自動偵測與盤點醫療機械設備。

汎定科技之所以會聚焦 AI 醫療影像市場,與創辦人的學經歷背景息息相關。汎定科技總經理許駿鵬表示:「10多年前,我曾在麻省理工學院的電腦科學與人工智慧實驗室擔任科學家,當時的計畫主持人都聚焦在醫療影像跟重症數據分析,在過程中深刻感受到,我們雖然不是第一線醫護人員,但依然可以透過科技實現『曲線救人』。」這段經驗以及教授鼓勵,讓其決定創立汎定科技,目標是以 AI 科學幫助醫療體系更快找到精準答案,無論是物理實驗、醫療輔助判別與撰寫報告都可以即時掌握關鍵發現 (Findings)。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

卓越的創新與技術能量,不僅於參加 NVIDIA Inception 新創計畫後獲得更多 AI 技術資源,更在2024年獲得豐藝集團的投資支持,正式成為集團旗下成員,接下來,汎定科技除持續深化產品服務,也會透過集團資源、以軟硬整合等方式擴展在醫療產業的服務能量。

聚焦脂肪肝 MRI 影像分析,汎定科技小心肝 AI–HepatoWell.ai– 進入臨床試驗階段

研究機構 Fortune Business Insight 預測,全球 AI 醫療影像市場規模將從2025年的392.5億美元快速成長到2032年的5,041.7億美元,年複合成長率高達44%,其中,「解決方案」類型的產品需求最高,其次才是平台型服務,顯示市場最需要的是能夠真正解決臨床痛點的應用。

在眾多 AI 醫療影像市場中,汎定科技會鎖定脂肪肝 MRI 影像分析、推出小心肝 AI(HepatoWell.ai)的原因有三:

首先是 AI 全自動量化計算肝臟脂肪密度。 全球脂肪肝盛行率高。目前的檢測脂肪肝的方式多為質化判斷不夠精準;即便現行的量化分析,也需要人工圈選。HepatoWell.ai 藉由讀取 MRI-PDFF(質子密度脂肪分數)訊號,AI 自動計算全肝臟體積脂肪分數(VLFF),可更精確的計算脂肪肝程度。

其次是整合新藥臨床試驗平台。 過去脂肪肝無藥物可治療,第一線治療方式多以飲食與調整生活習慣為主。因此,國際藥廠紛紛投入新藥臨床試驗。小心肝 AI 能提供標準化 MRI-PDFF 數據,可整合進臨床試驗工具。

最後是帶動產業鏈發展。 全球專注脂肪肝AI醫療影像的業者極少。小心肝 AI 的出現,讓醫療機構、健檢中心、臨床試驗公司、國際醫材設備商乃至國際藥廠有新的合作選擇,有助於形成更完整的產業生態系。

汎定科技總經理許駿鵬表示:「我們自從2023年7月展開前期研究(Pilot Survey),2025年進入臨床試驗、預計將於今年底完成,明(2026)年正式取證、將小心肝 AI 推向全球市場。」值得特別注意的是,醫療產業特性使然,「有技術」不等於「能落地」,研發實力、客戶需求,以及品牌能見度缺一不可,而藉由 NVIDIA Inception 新創計畫的支援,汎定科技不僅強化了產品開發速度,如以 MONAI Core 選擇適切的演算法、MONAI Label 加速影像標註等,也在品牌行銷與市場拓展上獲得關鍵性的極大推力。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

以2025年獲邀參展 COMPUTEX InnoVEX 大會中的 NVIDIA Inception for Startup Pavilion 新創展區為例,汎定科技在展會期間收到超過100個客戶諮詢,會後有逾50家潛在客戶表達興趣,其中10多家已進入洽談階段,對正在推進的臨床試驗與未來市場擴張極具幫助。「我們的計畫是在取證後三年將小心肝 AI 推向20家健診中心,並且積極發展亞洲市場商機,而後再一步一腳印地擴展歐美市場。」關於小心肝 AI 的未來規劃,許駿鵬如是說道。

善用集團與 NVIDIA 技術資源,加速智慧醫療布局

在加入 NVIDIA Inception 新創計畫後,新創團隊可在 NVIDIA Inception 新創計畫網站清楚寫下產品服務等資訊,NVIDIA 全球各個部門便都可以查詢到新創團隊資訊,更有機會取得 NVIDIA 軟體產品的早期試用(Early Access),並能免費下載使用各種 NVIDIA 軟體套件(SDK),以及受邀參加地區活動曝光等。至於新創公司擴展最重要的資金環節,新創團隊則可透過 Inception Capital Connect 與全球 NVIDIA Inception VC Alliance 創投夥伴接觸,加速募資流程。

汎定科技與豐藝集團即是透過 NVIDIA Inception 新創計畫而結識。

豐藝集團策略長陳少翎表示:「汎定科技擁有絕佳的技術實力與發展潛力,瞄準的市場與豐藝集團的布局方向一致,很快就決定投資團隊。目前雖由豐藝集團100%持股,但仍維持汎定科技的獨立營運彈性,鼓勵其以新創速度深耕市場,同時,透過鏈結集團資源等方式深化對智慧醫療產業的佈局。」舉例來說,當豐藝集團與 GE、飛利浦、西門子等全球醫療大廠進行產品藍圖與市場規劃討論時,也會同步介紹汎定科技的產品服務與實務經驗,進而創造更多跨國合作的可能性。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

展望未來,汎定科技除持續推進小心肝 AI 的產品與市場布局、也將與 NVIDIA Inception 新創計畫更緊密連結到全球新創與創投網絡以強化產品的海外布局,也會透過跟集團子公司與客戶合作等方式,更好布局未來市場。

NVIDIAxFindingsTech
圖/ 數位時代

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓