Claude 3.5 Sonnet大升級!新功能「電腦操作」可解放雙手,能代訂機票的AI秘書不遠了?
Claude 3.5 Sonnet大升級!新功能「電腦操作」可解放雙手,能代訂機票的AI秘書不遠了?

AI新創公司Anthropic於10月22日發布升級版Claude 3.5 Sonnet,以及全新模型Claude 3.5 Haiku!

更新後的Claude 3.5 Sonnet, 開放用戶測試「電腦操作」(Computer Use)功能,這項技術允許AI能模擬人類操作滑鼠的動作,透過電腦的應用程式完成多步驟任務,亦即「AI代理」功能。

Anthropic也宣布在10月底釋出全新迷你模型Claude 3.5 Haiku,其在許多智慧基準測試上超過了上一代最大模型Claude 3 Opus,「在編碼任務上尤其強大。」

Claude 3.5 Sonnet評測表現大升級

升級後的Claude 3.5 Sonnet在效能上超越前一代,特別是在編碼、工具使用及推理任務中的表現有著顯著提升。

除了MATH略遜Gemini 1.5 Pro之外, Claude 3.5 Sonnet在其它評測都勝過Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o與GPT-4o mini。

在與撰寫程式相關的HummaEval及SWE-bench Verified評測中,Claude 3.5 Sonnet奪得了93.7%及49%的成績,高過前一個版本的88.1%與40.6%。

另一個TAU-bench,是用來測試AI代理工具於真實世界場景中的表現,能否處理複雜且多步驟的任務,並與使用者進行自然對話。 Claude 3.5 Sonnet在零售領域的表現達到69.2%,在航空領域的表現為46%,高於前一版的62.6%與36%。

Claude 3.5 Sonnet 與其他模型對比.jpg
圖/ Claude

靠AI訂機票?代理功能值得期待

Claude 3.5 Sonnet的「電腦操作」(Computer Use)功能,能夠模擬人類操作電腦,包括點擊按鈕、移動滑鼠游標、輸入文字等操作,甚至能夠進行網站導和即時網頁瀏覽。

Anthropic的科學總監賈里德.卡普蘭(Jared Kaplan)表示:「Claude 3.5 Sonnet可以理解並與任何桌面應用程式互動,完成數十甚至數百個步驟的任務,這是AI技術在實體世界應用中邁出的重要一步。」

亞馬遜是最早測試「電腦操作」功能來簡化內部流程的企業之一,其他初期測試者也包括Asana、Canva和Notion等知名企業,它們嘗試將功能應用於自動化任務中,例如設計與編輯流程、表單填寫、數據處理等。Replit則利用Claude 3.5開發了一個自動驗證應用程式功能,能在App的開發過程中自動檢查並驗證代碼。

Anthropic計劃未來將「電腦操作」功能擴展到更多應用場景,例如讓AI自動完成預訂航班、安排會議或報銷表單填寫等,進一步提升工作效率。

適合中小企業,更小更快的Claude 3.5 Haiku模型

Anthropic也宣布預計在10月底推出全新Claude 3.5 Haiku模型,這款模型是Claude家族中速度最快的產品。

根據官方說法,Claude 3.5 Haiku以與前代Claude 3 Haiku相同的成本與速度,展現了更強大的綜合能力,並在許多智能評測中超越了此前的最大模型Claude 3 Opus。在SWE-bench編碼評測中,以40.6%的成績勝過多款主流模型。

Claude 3.5 Haiku將先以純文字模式推出,未來也將支援圖像輸入功能。開發者可以透過Anthropic的API、Amazon Bedrock與Google Cloud的Vertex AI等平台進行使用。

如何防範代理AI失控?

儘管「電腦操作」功能開啟了AI應用的新可能性,但AI代理能模擬人類的操作,也意味著可能被濫用。過往的研究發現,AI模型在受到越獄攻擊(jailbreaking)時,有可能執行不法行為,例如購買假證件或發布虛假訊息。對此,Anthropic也在「電腦操作」功能的開發過程中採取了多項預防措施。

首先,Claude 3.5 Sonnet在訓練過程中並未使用用戶的螢幕截圖或輸入內容,確保模型不會接觸到用戶的隱私資料。

此外,Anthropic還開發了一系列分類器,能夠在AI執行被認為是高風險的行動時即時識別,並引導AI遠離高風險行動。例如,在社交媒體上發布資訊、創建帳戶或與政府網站互動,以減少風險。

Anthropic也會保留由「電腦操作」功能捕捉的螢幕截圖,保存期限至少為30天,若有合法需求,Anthropic也會依據法律程序配合調查。

延伸閱讀:虛擬員工時代來了?微軟Copilot Studio將推「AI代理」功能,11月將公開預覽
OpenAI告「Open AI」!一樁商標爭議為何9年才引爆,比奧特曼傳奇的人物或許是他

參考資料:AnthropicTechCrunchCNBC

本文初稿為AI編譯,整理.編輯/黃若彤

關鍵字: #人工智慧 #AI
往下滑看下一篇文章
AI代理時代已至!國泰金控以GAIA 2.0框架加速AI應用百花齊放
AI代理時代已至!國泰金控以GAIA 2.0框架加速AI應用百花齊放

AI正以驚人速度重塑世界樣貌,金融產業也不例外。國泰金控作為台灣最大的金融控股公司之一,不僅積極擁抱創新變革,更透過開放分享促進產業共好:在「2025國泰金控技術年會」中分享「GAIA 2.0技術框架」,揭示多代理(Multi-Agent)雲端協作架構,讓AI從知識問答助理進化成可以自主推論、規劃與協作的夥伴,拉開以人為中心的金融科技新世代序幕。

以GAIA 2.0技術框架為基礎,加速集團應用百花齊放

GAIA是國泰金控為實現AI即服務(AI as a Service)提出的關鍵技術框架,歷經一年的發展,不僅成功建立超過200種資料類別的知識庫、彙整50多種生成式AI模型的Model Hub、設有70道安全防護檢查點的AI護欄。

國泰金控
國泰金控副總暨國泰世華銀行數據長梁明喬分享GAIA 2.0技術框架與集團GenAI應用案例
圖/ 數位時代

國泰金控副總經理暨國泰世華銀行數據長梁明喬指出:「隨著代理式AI技術崛起,我們在今年提出GAIA 2.0技術框架,目標是讓AI助理(Assistant)進化成AI Agent,可以跨單位整合工具、數據與分工,實現真正的智慧協作。」

舉例來說,為深化集團員工運用AI提升工作效率,我們打造員工AI助手—Agia,協助同仁進行知識查詢、資料摘要等任務,提升效率與生產力;另外,透過AI自助開發平台—GAIA Studio,讓員工以No Code工具,連結內部知識庫,並以視覺化介面或Prompt快速自主開發,打造業務場景所需的生成式AI服務與工具。GAIA Studio 上線三個月已有28個部門自助開發超過40支內部應用AI服務(包含行銷文案、各類產品知識、趨勢摘要等)。

在技術面,具體作法是透過GAIA 2.0框架下的四個模組,包含負責統籌AI Agent任務分配與協作流程的「Agent Core核心框架」、提供安全自主運作環境的「Agent Workspace可控環境」、連結Agent間共通語言的「Agent Protocol串接協定」,以及集中管理AI工具與元件的「Agent Marketplace整合市集」,以加速AI Agent應用研發與部署。

梁明喬表示:「接下來,我們將以GAIA為引擎,打造通用型、業務型、IT型與服務型AI應用,如Vibe Coding、CUBE Intelligence等服務,一步一腳印擴展集團的AI Agent生態圈,型塑智慧金融新格局。」

舉例來說,隨著生成式AI普及,客戶對於數位(助理)服務的期待更高,國泰世華銀行數位品牌CUBE推出「CUBE Intelligence」兩項新服務,包含「升級版」智能助理–阿發,滿足客戶詢問複雜問題的需求,無論客戶提出什麼問題,都可以完整步驟與適當的情緒價值強化與客戶的連結,讓服務更智慧、貼心且符合期待。

國泰金控
國泰金控副總暨國泰世華銀行數位長陳冠學展示「CUBE Intelligence」兩項新服務
圖/ 數位時代

國泰金控副總經理暨國泰世華銀行數位長陳冠學表示:「除了升級版阿發,另一新服務是我們也在CUBE App新增『對話式功能搜尋(CUBE Search)』,就像把行員放到CUBE App一樣,讓客戶可以用自然語言輕鬆找到想要的服務,讓服務體驗變得更聰明、更人性也更懂你。」兩項CUBE Intelligence新服務即將在年底正式上線。

跨界合作推動台灣大型語言模型落地,加速生成式AI發展

大型語言模型具備強大的語意理解與內容生成能力,是生成式AI快速發展的關鍵推力。國立政治大學金融科技研究中心主任王儷玲指出:「金融產業因為有獨特的金融語境、法規語意以及在地化的繁體中文知識,國際通用模型並不適用,必須建構本土知識庫、標準化模型機制、AI 法規沙盒及在地算力平台,發展台灣企業共同主導與管理的大型語言模型,方能讓更多金融業者透過微調打造適用模型、加速可信賴的AI Agent服務落地。」

國泰金控數數發中心數據暨人工智慧發展部副總經理劉浩翔進一步補充:「本地大型語言模型的成功關鍵,不僅是掌握充足且高品質的數據,還要透過後訓練微調與人類回饋強化學習的訓練方式去微調出適用的AI模型,藉此提升答案的精準度,尤其是需要跨法規、多層邏輯的嚴謹金融專業知識。」

AI要成功,除了應用場景、模型,算力也扮演至關緊要角色,對此,鴻海科技集團亞灣超算執行長姚延宗表示:「本土算力是支持本土大型語言模型落地的關鍵。」不過,他也強調,AI算力快速迭代且進入門檻高,不是每一間企業都可以自建算力,因此,亞灣超算與NVIDIA合作啟用超算中心,讓金融等台灣企業可以按需租賃所需算力,解決資料共享等敏感問題,加速金融AI應用的多元發展。

國泰金控
產業與學界專家於國泰金控技術年會交流生成式AI如何在台落地應用,左起為:國泰金控副總經理施君蘭、政治大學金融科技研究中心主任王儷玲、國泰金控數數發中心副總經理劉浩翔、鴻海科技集團亞灣超算執行長姚延宗
圖/ 數位時代

總的來說,從GAIA 2.0技術框架的推出、生成式AI的落地應用、到積極參與本土大型語言模型建置等行動,可以清楚看到,國泰金控正由內而外推動全面AI創新:強化內部流程效率與治理能力、以智慧化服務提升客戶體驗,並透過技術開放與跨域合作,為金融產業的數位與AI智慧轉型注入新動能。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓