「這是地表最強編碼模型！」Claude Sonnet 4.5上線：更快更穩不加價，它是GPT‑5 Codex最大剋星？|數位時代 BusinessNext

「這是地表最強編碼模型！」Claude Sonnet 4.5上線：更快更穩不加價，它是GPT‑5 Codex最大剋星？

Anthropic 發布 Claude Sonnet 4.5，稱其為迄今最強；可在長時程任務中連續執行超過 30 小時，並在多項基準測試領先同業。

重點一：Anthropic 發布 Claude Sonnet 4.5，稱其為迄今最強；可在長時程任務中連續執行超過 30 小時，並在多項基準測試領先同業。

重點二：Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%，超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro；並強化電腦操作與代理能力。

重點三：Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK，並為網頁與 App 新增程式執行、檔案建立與文件／試算表／簡報生成功能；API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5，官方稱其為「迄今最強」版本；能在複雜的多步長任務中「連續專注」超過 30 小時，同時在多項公開基準測試刷新成績，展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0，4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%，並於 SWE-bench Verified 取得 77.2%；整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro，凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出，Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容，但強調其代理行為在長時間情境下維持一致性，減少過去常見的上下文遺失與錯誤累積。

就量化表現，該模型於 SWE-bench Verified 拿下 77.2%，在 OSWorld 取得 61.4% 並居於領先，分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時，在 AIME 2024（數學競賽基準）、MMMLU（14 種非英語科目知識）與 Vals AI Finance Agent（金融分析代理）等評測亦見進步，其中金融代理測試達 92%。

此外，Anthropic 表示已降低模型在「sycophancy（逢迎）」「deception（欺瞞）」「power-seeking（權力尋求）」與「鼓勵妄想傾向」等風險行為，回應外界對聊天機器人社會化使用的關注。

根據《Ars Technica》報導，儘管業界對廠商自行公布的基準成績向來持審慎態度（可能受資料汙染或設計偏誤影響），Sonnet 4.5 仍相較 4.0 呈現實質躍進；並獲知名開發者 Simon Willison 初步肯定，稱其在程式能力上優於其近週常用的 GPT-5 Codex。

速度即智慧！Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora（cora.computer）總經理 Kieran Klaassen 的說法指出，Claude Sonnet 4.5 在 Claude Code／App 中「體感快約 50%」。同樣的大型程式碼評審任務，Sonnet 4.5 約 2 分鐘完成，GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下，更利於長時間配對工作。亦即， 能在大型上下文與多檔案間保持專注、不亂飄，並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例，他將三份營運試算表交給模型，便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出，在 Cora（Every 的郵件管理工具）專案裡有一個程式錯誤，先用 Claude Opus 4.1 嘗試未能解決，但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出，若使用者以 Claude Code 為日常編程主力，Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴；但若是 GPT-5 Codex 擁護者，編程難題仍建議以 Codex 為先。若是新專案、vibe coding，或需要 Claude「勤勉＋速度」組合的任務，就值得考慮 Sonnet 4.5。

用價格換市占！Claude Sonnet 4.5「加速不加價」

為配合模型升級，Anthropic 同步發布 Claude Code 2.0（命令列 AI 代理）與 Claude Agent SDK（代理開發套件），瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint（檢查點）」以保存進度並可回滾，更新終端介面，並上線原生 VS Code 擴充；API 端亦新增「context editing（脈絡編輯）」與更佳的長任務記憶工具，改善長流程代理工作的穩定性。

在使用者端，Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」，並可在對話中直接產生試算表、投影片與文件；「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單／資料處理。

此外，Anthropic 推出為期五天的研究預覽「Imagine with Claude（與 Claude 想像）」供 Max 訂閱者體驗，展示模型在即時產生軟體上的潛力。

值得注意的是，Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度：輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1（輸入 15 美元、輸出 75 美元）的成本拉低到約五分之一，形成「以中檔價格提供近旗艦能力」的攻勢，目標明確對準主流對手如 GPT‑5 等。

第二段則針對超長上下文（超過 200K）：輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計，讓需要長文脈的用例有合理成本，同時透過輸出端維持較高單價，以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理，並以輸出價差回收算力成本；配合「混合推理／擴展思考模式」，當開啟更長思考與高準確度輸出時，價格結構自然引導開發者優化 token 使用，避免不必要的長輸出。

簡單來說，這種定價策略的總體效果，是以極致性價比快速搶佔編程與 Agent 場景，讓開發者在可控成本下獲得高階能力，並對競品形成明顯的價格壓力。

延伸閱讀：因為AI，他成了身價1830億美元的CEO！Anthropic開發出最會寫程式的模型，為何又變AI頭號黑粉？

自掏腰包買書訓練AI合法嗎？Anthropic獲關鍵勝訴：「合理使用」原則是什麼？

資料來源：Ars Technica、Simon willison、01 Founder

本文初稿為AI編撰，整理．編輯/ 李先泰

Physical AI讓自駕車從「照規則開車」走向「理解世界」

過去，自駕車依靠高精地圖、光達（LiDAR）、攝影機等感測器，以及大量預先設定好的規則進行判斷，這種作法能處理相對固定的情境，但一旦遇到複雜且快速變化的交通環境，例如大量機車穿梭、行人突然穿越、不同國家的交通規則，系統很容易受到限制。

勤崴國際認為，Physical AI 的出現正改寫自駕車的發展模式：透過更強大的 GPU 算力，結合世界模型（World Model）、數位孿生（Digital Twin）與模擬器（Simulator），AI 能先在虛擬世界完成大量交通情境模擬，再將學習成果快速部署到真實道路，不僅大幅縮短訓練與驗證時間，也讓自駕系統持續學習與進化。

「在 Physical AI 賦能下，自駕車將從依照規則開車轉變成能理解環境、預測意圖，再做出最佳決策。」勤崴國際副總經理林映帆表示，例如當系統看到路邊有人揮手，不只是辨識動作，而是能推論對方有搭車需求；當機車快速切入車道，也能提前預測可能路徑，而非等事件發生後才反應。

這也意味著，自駕車的競爭已從「規則設計」走向「AI學習能力」的競爭：自駕車不僅是智慧移動的新載具，更是觀察 Physical AI 是否真正成熟的重要指標；換言之，Physical AI比拚的不是演算法，而是誰能持續累積真實場域、建立與完善資料庫，讓 AI 在每一次行駛中不斷學習、持續進化，形成下一波智慧移動競爭的關鍵。

七年累積三十個場域，勤崴國際打造台灣智慧移動新能量

相較於 Waymo、Tesla 的優勢來自數百萬輛車持續累積道路資料，勤崴國際的策略是透過不同場域的長期營運，建立屬於台灣的智慧移動資料庫。

自2019年投入自駕車商業化應用以來，勤崴國際不僅持續深耕高精地圖、自駕系統、車聯網及自駕運輸技術、於全台完成超過30個自駕場域部署，累積自駕行駛里程突破38萬公里、服務超過80萬人次，更逐步建立台灣少數具規模的智慧移動資料庫；為進一步加速自駕車產業價值鏈發展，勤崴國際也攜手車廠、路側設備，感測器、AI 平台、車聯網、客運與場域業者打造完整的自動駕駛生態系。

以台積電南科園區的自駕巴士服務為例，由於路線涵蓋園區內外道路，自駕車不僅要與物流車、叉車及一般車流共存，離開園區後更須面對台灣特有的高密度機車交通環境，對 AI 的感知與決策能力形成高度挑戰；截至今日，該服務已累積超過92,435人次搭乘、自駕行駛里程超過83,542公里，接駁率高達96.7%；此外，勤崴國際也於廠區內導入自駕接駁車與自駕載貨車，累積服務超過216,794人次，驗證自駕技術在智慧工廠場域的落地能力。

除了工業場域，勤崴也將自駕技術延伸至觀光應用，例如今（2026）年6月在南投埔里福興溫泉區推出「啡嚐咖心」觀光自駕車服務；林映帆指出，相較於工業場域重視效率，觀光應用更重視人車互動與乘車體驗，遊客只需一鍵即可啟動自駕接駁，系統除了安全辨識行人與周遭環境，也能透過語音互動提升搭乘安心感，證明自駕車不僅適用於產業應用，更可成為偏鄉觀光與高齡化社會的新一代公共運輸解決方案。

接下來，勤崴國際將憑藉著在南部科學園區、南投與新北市的落地運行經驗，攜手產業夥伴、針對未來對自駕公車有需求的城市，協助客運業者解決公車缺工等議題。

林映帆說：「我們的目標是提供自駕全方位解決方案。」在累積物流、廠區接駁、觀光、無塵室搬運等多元場域經驗後，勤崴逐步發展出「一個平台、多種載具、多種場域」策略：將共通技術平台模組化，再依不同客戶需求進行客製化調整，讓每新增一個場域，都成為下一個場域快速且安全部署的重要養分。

勤崴國際副總經理林映帆表示，將以「一個平台、多種載具、多種場域」策略，攜手自駕車產業鏈夥伴，協助AI自駕車等智慧移動落地應用，以及打造「國家隊」前進海外市場。

圖／數位時代

隨著Physical AI的成熟與落地，未來智慧移動的競爭，不再只是比誰擁有更大的模型，而是比誰能持續累積場域、建立完整資料庫，以及串聯完整生態系；在這個關鍵時刻，勤崴國際除因應不同場域客戶需求提供自駕車解方，也希望攜手更多產業夥伴，共同打造具有國際競爭力的智慧移動國家隊，讓台灣在全球自駕與 Physical AI 的新賽局中，占有一席關鍵位置。