「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?
「這是地表最強編碼模型!」Claude Sonnet 4.5上線:更快更穩不加價,它是GPT‑5 Codex最大剋星?

重點一:Anthropic 發布 Claude Sonnet 4.5,稱其為迄今最強;可在長時程任務中連續執行超過 30 小時,並在多項基準測試領先同業。

重點二:Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%,超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro;並強化電腦操作與代理能力。

重點三:Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增程式執行、檔案建立與文件/試算表/簡報生成功能;API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5,官方稱其為「迄今最強」版本;能在複雜的多步長任務中「連續專注」超過 30 小時,同時在多項公開基準測試刷新成績,展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0,4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%,並於 SWE-bench Verified 取得 77.2%;整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro,凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出,Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容,但強調其代理行為在長時間情境下維持一致性,減少過去常見的上下文遺失與錯誤累積。

就量化表現,該模型於 SWE-bench Verified 拿下 77.2%,在 OSWorld 取得 61.4% 並居於領先,分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時,在 AIME 2024(數學競賽基準)、MMMLU(14 種非英語科目知識)與 Vals AI Finance Agent(金融分析代理)等評測亦見進步,其中金融代理測試達 92%。

Claude Sonnet 4.5 基準測試
Sonnet 4.5 在 SWE-bench Verified 得分77.2%、OSWorld 61.4%,超過 OpenAI GPT-5 Codex 與 Google Gemini 2.5 Pro。
圖/ Anthropic

此外,Anthropic 表示已降低模型在「sycophancy(逢迎)」「deception(欺瞞)」「power-seeking(權力尋求)」與「鼓勵妄想傾向」等風險行為,回應外界對聊天機器人社會化使用的關注。

Claude Sonnet 4.5 更老實了
Anthropic指出,已降低模型在逢迎、欺瞞、權力尋求等AI風險行為。
圖/ Anthropic

根據《Ars Technica》報導,儘管業界對廠商自行公布的基準成績向來持審慎態度(可能受資料汙染或設計偏誤影響),Sonnet 4.5 仍相較 4.0 呈現實質躍進;並獲知名開發者 Simon Willison 初步肯定,稱其在程式能力上優於其近週常用的 GPT-5 Codex。

速度即智慧!Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora(cora.computer)總經理 Kieran Klaassen 的說法指出,Claude Sonnet 4.5 在 Claude Code/App 中「體感快約 50%」。同樣的大型程式碼評審任務,Sonnet 4.5 約 2 分鐘完成,GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下,更利於長時間配對工作。亦即, 能在大型上下文與多檔案間保持專注、不亂飄,並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例,他將三份營運試算表交給模型,便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出,在 Cora(Every 的郵件管理工具)專案裡有一個程式錯誤,先用 Claude Opus 4.1 嘗試未能解決,但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出,若使用者以 Claude Code 為日常編程主力,Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴;但若是 GPT-5 Codex 擁護者,編程難題仍建議以 Codex 為先。若是新專案、vibe coding,或需要 Claude「勤勉+速度」組合的任務,就值得考慮 Sonnet 4.5。

用價格換市占!Claude Sonnet 4.5「加速不加價」

為配合模型升級,Anthropic 同步發布 Claude Code 2.0(命令列 AI 代理)與 Claude Agent SDK(代理開發套件),瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint(檢查點)」以保存進度並可回滾,更新終端介面,並上線原生 VS Code 擴充;API 端亦新增「context editing(脈絡編輯)」與更佳的長任務記憶工具,改善長流程代理工作的穩定性。

在使用者端,Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」,並可在對話中直接產生試算表、投影片與文件;「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單/資料處理。

此外,Anthropic 推出為期五天的研究預覽「Imagine with Claude(與 Claude 想像)」供 Max 訂閱者體驗,展示模型在即時產生軟體上的潛力。

值得注意的是,Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度:輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1(輸入 15 美元、輸出 75 美元)的成本拉低到約五分之一,形成「以中檔價格提供近旗艦能力」的攻勢,目標明確對準主流對手如 GPT‑5 等。

Claude Sonnet 4.5 API價格
Anthropic指出,對標準 200K 上下文長度:輸入每百萬 token $3、輸出 $15。
圖/ Anthropic

第二段則針對超長上下文(超過 200K):輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計,讓需要長文脈的用例有合理成本,同時透過輸出端維持較高單價,以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理,並以輸出價差回收算力成本;配合「混合推理/擴展思考模式」,當開啟更長思考與高準確度輸出時,價格結構自然引導開發者優化 token 使用,避免不必要的長輸出。

簡單來說,這種定價策略的總體效果,是以極致性價比快速搶佔編程與 Agent 場景,讓開發者在可控成本下獲得高階能力,並對競品形成明顯的價格壓力。

延伸閱讀:因為AI,他成了身價1830億美元的CEO!Anthropic開發出最會寫程式的模型,為何又變AI頭號黑粉?

自掏腰包買書訓練AI合法嗎?Anthropic獲關鍵勝訴:「合理使用」原則是什麼?

資料來源:Ars TechnicaSimon willison01 Founder

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Anthropic #Claude
往下滑看下一篇文章
把技術變成實際訂單!中華電信 5G加速器攜手新創 推動 AI 與數位韌性應用落地
把技術變成實際訂單!中華電信 5G加速器攜手新創 推動 AI 與數位韌性應用落地

不少新創團隊普遍面臨技術成熟,但難以找到實際應用場域或跨越市場導入門檻的機會,使創新停留在概念驗證階段。對新創而言,能否進入適合的產業平台並對接市場需求,往往是推動成長的關鍵。

為了成為新創最強後盾,中華電信日前啟動「2026第八屆 5G 加速器」徵選活動。此次除了提供技術資源、場域驗證與企業媒合機會,更設置 「AI 創新特別獎」與「海地星空特別獎」,希望結合自身龐大的 5G 生態圈與產業資源,協助潛力新創把創新技術真正推進市場,加速走向商業落地。

中華電信舉辦「2026數位創新應用系列賽」宣告記者會,中華電信簡志誠董事長致詞
中華電信舉辦「2026數位創新應用系列賽」宣告記者會,中華電信簡志誠董事長致詞
圖/ 中華電信5G加速器

中華電信5G加速器:不只給資源,更幫新創找到市場

自 2018 年成立至今,中華電信 5G 加速器已累積輔導超過 80 家新創團隊,合作領域也從早期的 5G 應用,逐步延伸至 AI、資通安全、量子運算、數位娛樂、運動科技、創新永續、通訊基礎建設等不同面向。在這過程中,中華電信 5G 加速器逐步摸索出與其他企業加速器不同的定位:不只提供資源,更協助新創理解市場、對接客戶,讓技術真正走向商業落地。

也因此,中華電信 5G 加速器引進導師輔導(Mentor)機制,由公司內部主管擔任新創導師,協助潛力新創理解客戶痛點,更進一步把新創帶進實際市場。當既有客戶出現需求時,若新創有符合該需求的解決方案,中華電信便會協助對接客戶,形成所謂的業務協作,為新創帶來新的商機。目前已有超過 20 家新創透過與中華電信的業務協作,將技術轉化為實際訂單與營收,逐步走向規模化發展。

中華電信董事長簡志誠認為,AI時代的關鍵在於「應用落地」與「價值實現」。中華電信期許透過 5G 加速器徵選活動,向廣大新創團隊開放技術資源與實證場域,使其能從概念走向實作,進一步邁向產業化,構建共榮的AI創新生態系。

中華電信5g加速器徵件
一系列輔導資源 X 實證應用落地 X 展會人脈資源鏈結
圖/ 中華電信 5G 加速器

AI、數位韌性成主軸!中華電信 5G 加速器鎖定八大創新場景

延續這樣的理念,中華電信 5G 加速器在舉辦今(2026)年的徵選活動時,瞄準當前產業轉型的關鍵科技,定出數位韌性、智慧驅動、永續未來三大徵選主題,並向下延伸八大應用場景,包括海地星空、智慧製造、智慧醫療、智慧交通、數位娛樂、運動科技、資通安全及創新永續。

除了根據產業趨勢擬定徵選主題,中華電信也擴大去年新設的「特別獎」機制,期以「AI 創新特別獎」與「海地星空特別獎」,鼓勵更多新創團隊投入 AI 應用與新世代通訊網路創新。

從歷屆加速器輔導成果來看,除了有不少團隊與中華電信展開業務協作,還有超過 10 家新創入圍台灣各類 AI 大賞與指標性競賽,顯示中華電信所遴選的新創團隊,確實具備相當高的市場潛力與技術能量。也因此,中華電信今年持續辦理 AI 創新特別獎,為新創提供更多資源與支持,加快其商業落地與市場拓展的腳步。

由於台灣新創的創業主題日趨多元化,除了 AI 應用外,也有越來越多團隊開始投入通訊、網路與數位基礎建設相關領域,對此,中華電信特別設立「海地星空特別獎」新獎項,鼓勵更多新創投入發展創新網路應用,尤其在防災、救災、智慧城市與公共服務等面向,希望以中華電信的韌性網路架構為基礎,結合新創的創新應用模式,為民眾帶來更美好、便利的生活體驗,共同厚植整體社會與國家的數位韌性。

中華電信加速器8大徵件主題
中華電信加速器8大徵件主題
圖/ 中華電信5G加速器

不只拚 AI,更提前布局 6G!中華電信新增「海地星空特別獎」

這項新設立的「海地星空特別獎」,背後其實也呼應中華電信近年持續推動的「海地星空」戰略布局。考量到全球地緣政治風險升高、極端氣候頻繁,加上台灣本身位處地震與天然災害頻繁地區,因此中華電信近幾年積極投入發展海纜、光纖與行動通訊、微波及衛星通訊,打造互為備援、多層次的韌性網路。

這樣的戰略不僅為了回應當前需求,更能替未來 6G 時代提前打下基礎。中華電信以 AI、衛星與多層次網路技術為核心,再透過5G加速器平台與今年新增的「海地星空特別獎」,發掘具潛力的新創團隊與創新應用,讓技術在發展初期就能進入實際場域驗證與商業化探索,並協助串聯產業需求與市場機會,發揮5G加速器作為創新技術落地平台的價值。

對於正在尋找場域驗證、企業合作與市場機會的新創團隊而言,「2026 第八屆中華電信 5G 加速器」不只是一次競賽,更可能成為下一階段成長的重要起點。只要與海地星空、智慧製造、智慧醫療、智慧交通、數位娛樂、運動科技、資通安全及創新永續八大應用場景相關的新創,皆可踴躍報名,與中華電信一同搶進 AI 與數位韌性時代的新商機。

>>2026 第八屆中華電信 5G 加速器

>>立即報名

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓