Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!
Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!

如果問當下最強的 AI 助手是哪個?那無庸置疑,絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了,直接炸出一大批重度用戶。靠它完成作業的的學生族群,一時之間面對論文無從下筆,靠它「續命」的打工人更是連班都不想上了。

今年以來,ChatGPT 每隔一段時間就會「暴斃」,號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀:ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?

Claude 2.1 大更新一次看

更新一:上下文長度翻倍至200K token

恰巧,近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token(token 是文本處理中的最小單位,如單字或片語),現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示,200K 上下文約等於 150000 個單字或 500 頁文本,這意味著你可以上傳代碼、財務報表、或長篇文學作品,供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢?我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本, Yi-34B 可以處理約 40 萬漢字超長文本輸入,約等於一本《儒林外史》的長度。

在語言模型上,長上下文能夠提供更精確的用法和含義,有助於消除歧義,幫助模型生成連貫、準確度的文本,比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上,含義就完全迥異。

值得一提的是,在 GPT-4 尚未恢復即時網路瀏覽功能之前,免費的 Claude 能夠即時訪問網頁連結並總結網頁內容,即使到了現在,也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔,哪怕碰上 GPT-4,Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告,並詢問同樣的問題。

3-2.jpg!720.jpeg
圖/ 愛范兒
4-3.jpg!720.jpeg
圖/ 愛范兒

二者的反應速度沒有拉開差距,但免費版 Claude 的回覆反而更流暢,且答案的質量也略高,而 GPT-4 的檢索功能還會因為分頁和檢視受到限制,相當不「靈性」。

檢索只是「兒戲」,作為提高學習或工作效率的工具,我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局,雖然表達的觀點都差不多,但 Claude 以富有邏輯的分點作答取勝。

8-4.jpg!720.jpeg
圖/ 愛范兒
9-4.jpg!720.jpeg
圖/ 愛范兒

更新二:降低模型幻覺,寧願表達遲疑也不會給不正確的答案

答是能答得上來,能不能答對才是關鍵。過去一年,我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍,但它也沒有給出明確的數據,以至於輝達科學家 Jim Fan 提出質疑:「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

10-3.png!720.jpg
圖/ 愛范兒

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明,遇到知識的盲區,Claude 2.1 更傾向於不確定的表達,而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是,假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備,它會誠懇地說「我不確定廣東的省會是不是哈爾濱」,而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三:增添新應用「工具使用」,整合API

Claude Pro 的訂閱費用約為 20 美元,使用次數達到免費版的五倍,普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時,Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子,每句 15-20 個單字,那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔,那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶,Claude 2.1 還貼心的根據開發者的需求,推出了一項名為「工具使用」的測試版功能,允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說,Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ,可以向搜尋引擎查詢訊息以回答問題,連接私有數據庫,從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作,比如使用計算器進行複雜的數值推理,將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務,結果如下 👇
• 開發者控制台優化體驗和用戶界面,使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題),有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來,方便回溯
• 支持生成代碼集成到 SDK 中,應用到實際項目中

更新四:導入系統提示功能,維持Claude人設

此外,Claude 2.1 還引入了「系統提示」功能,這是一種向 Claude 提供上下文和指令的方式,能夠讓 Claude 在角色扮演時更穩定地維持人設,同時對話中又不失個性和創造力。當然,不同於簡單 Prompt 的應用,該功能主要是面向開發者和高級用戶設計的,是在 API 使用的,而不是在網頁端使用。

和 Claude 2.0 一樣,Claude 2.1 每輸入 100 萬 token 需要花費 8 美元,比 GPT-4 Turbo 便宜了 2 美元,輸出為 24 美元,比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元,輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言,雖然 Claude 2.1 表現很強悍,但仍只能充當 ChatGPT 當機的替代品,想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方,Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例,儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強,但實際結果顯示,在需要回憶和準確理解上下文的能力上,Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後,網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham(美國著名程式設計師)的 218 篇文章湊了 128K 的文本量,他在這些文章的不同位置(從文章頂端 0% 到底部 100%)隨機插入一個語句:「在陽光明媚的日子裡,在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句,並回答有關這個語句的相關問題,最後採用業界常用的 LangChain AI 評估方法來評估答案。

14-2.png!720.jpg
圖/ 愛范兒

評估結果如上圖,GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭,無論上下文有多長,它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時,GPT-4 Turbo 的準確率才開始下降。

作為對比,該網友還提前要到了 Claude 2.1 Pro 的內測資格,並同樣做了「大海撈針」的測試。從評估的結果來看,在長達 20 萬 token(大約 470 頁)的文檔中,和 GPT-4 Turbo 一樣,Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前,遠低於 GPT-4 Turbo 的 73K。超過 24K 後,Claude 2.1 Pro 記憶就開始明顯下降,90K 後,效果變得更差,出錯率更是大幅度上升。

可以看到的是,隨著上下文長度的增加,GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度,但相比更實用的準確度,GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者,當 ChatGPT 崩潰,堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急,甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3,語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前,升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀:客製化太夯,ChatGPT Plus暫停註冊!開發者大會後為何網站被擠爆?亮點一次看

本文授權轉載自:愛范兒ifanr
責任編輯:蘇祐萱

往下滑看下一篇文章
硬體新創如何打國際盃?邁特Demo Day揭出海關鍵:技術是門票,信任才是護照
硬體新創如何打國際盃?邁特Demo Day揭出海關鍵:技術是門票,信任才是護照

第十屆邁特創新加速計畫Demo Day在2025 Meet Taipei盛大登場。今年邁特以「邁國際」為活動主軸,邀請加拿大、新加坡、日本和台灣的專家,除了探討全球市場的開拓,也期望運用邁特創新基地,建立具磁性的網絡(Magnetic Net),持續吸引硬體創新團隊與專家,建構蓬勃發展的全球硬體生態系。

中華民國全國創新創業總會秘書長謝戎峰在致詞時直指,台灣市場量體小,硬體新創要走到小量試產非常不容易,過往台積電就是為輝達做到開源、加速整合的角色,「邁特也在系統面扮演同樣角色,從打樣、試樣到小量試產,提供新創全方位協助。」

從矽島進化新創島,「國際化」是關鍵指標

事實上,邁特創新基地自2016年創立以來,便致力成為硬體創新領域的加速器,期望提供「從0到100的解決方案」,並打通「硬體創新的最後一哩路」。邁特創新基地執行長戴憶帆指出,台灣被譽為半導體、電子製造服務強國,在全球產業鏈中具核心地位。如今,台灣正在善用「矽島」具備的卓越製造、供應鏈能力,聚焦創新研發,成為讓硬科技落地、加速商業應用的「新創島」,「其中,『國際化』絕對是衡量新創團隊能否快速成長、取得成功的最重要指標。」

邁特創新基地
加拿大駐台北貿易辦事處副處長拓喬丹特別蒞臨分享,期待與更多台灣新創攜手合作。
圖/ 數位時代

目前,邁特已幫助來自全球逾13個國家、超過150家的新創公司向外擴展。而為了具體展現協助台灣硬體新創出海、邁國際的決心,本屆Demo Day特別邀請來自跨國創投的專家,一同探討全球市場的開拓。

加拿大駐台北貿易辦事處副處長拓喬丹(Jorden Turley)首先指出,邁特的國際協同合作理念,與加拿大不謀而合,「加拿大視台灣為亞太戰略中,不可或缺的重要夥伴,我們彼此間不是競爭而是合作。」例如台灣在硬體製造、實作方面有優勢,加拿大則在設計方面表現出色,多邊合作有助於企業分散風險,並加速打入第三市場。

講好故事、建立信任感,打破技術迷思

跨界對談開場前,主持人邁特創新基地顧問柯旂,也先回應「邁國際」不只是今年的主題,更是台灣硬體創新的必然道路。本屆 Demo Day 不僅邀請到加拿大駐台單位、日本京都大學創投、新加坡創新生態圈代表,更有台灣創新總會秘書長、台經院等重要嘉賓蒞臨,一同見證台灣硬體新創與全球鏈結的關鍵時刻。跨界對談更邀請包含:日本京都大學創投(Kyoto University Innovation Capital)亞太區業務發展經理Raymond Woo,以及德國馬牌集團(Continental)旗下創投部門的合作與創投管理總監邱殷樂,為新創提供具體出海建議。

戴憶帆強調,「國際化」已是台灣新創現今最重要的課題,而新加坡、日本會是台灣進軍國際的首選前哨站。新加坡作為東南亞地區的中心,許多國際團隊選擇在當地募資、上市櫃,介接資源方便;日本則與台灣的文化、理念相近,相當重視「信任」、夥伴關係,加上在東京、京都等頂尖大學裡,有最前沿的技術,對需要發展應用、商業化成長的新創來說,是值得尋求技術互補的合作對象。

邁特創新基地
跨界對談由左至右分別為主持人邁特創新基地顧問柯旂、邁特創新基地執行長戴憶帆、日本京都大學創投(Kyoto University Innovation Capital)亞太區業務發展經理Raymond Woo,以及德國馬牌集團(Continental)旗下創投部門的合作與創投管理總監邱殷樂,與現場與會者進行交流。
圖/ 數位時代

邱殷樂直指,台灣新創的技術極佳、很有實力,甚至勝過美國、以色列的公司,「最大的問題,是不會講述自己的故事,以及不清楚如何對接正確的人和事。」他建議,新創在展開跨國合作之前,必須先確定在台灣的根基已穩,同時了解自家的技術優勢,以便說服投資人和潛在客戶;在和大集團、大客戶合作時,也要找到能推動技術使用的關鍵人物或團隊。

Raymond Woo觀察,技術背景出生的創辦人,經常會犯下只看技術、看不到大局的盲點,加上創業是相當依賴人脈的事業,「新創必須學習用技術來解決特定商業問題,並與合作夥伴建立最重要的『信任』,否則技術再好、再先進,也無法順利擴展、被妥善應用。」

硬體新創精銳盡出,智慧農業、智慧醫療、綠色創新吸睛

精彩的對談後,緊接著輪到參與第十屆邁特創新加速器計畫,涵蓋智慧農業、智慧健康、智慧製造與綠色創新等硬體領域的六組新創團隊,一一登台Pitch,並由邱殷樂、Raymond Woo、日本村田製造所新規事業推進部部長東端和亮、邁特創新基地日本代表顧問上野峻基和華碩電腦協理Sean Lai等業界先進擔任評審。

首先登場的台灣百應生物科技,是運用AI、電腦視覺技術,實現家禽養殖的自主監控,完全無需人工干預,準確度已可達98.5%。擴核生醫科技則打造一款模組化、可程式化的實驗室自動化平台,能將整合液體處理、細胞培養、影像擷取和資料分析等流程集於一體,加速生技與藥物開發的研發、驗證流程。雨傘不滴的綠色創新專利產品「傘不滴」,是透過物理擠壓與高科技吸水部件,讓雨傘四秒內便完全不滴水,取代一次性塑膠套,解決公共場所地滑和環保痛點。恆帝斯智能科技是結合ESG輔導與碳IoT設備,自主開發韌體,解決聯網不穩、斷電導致的數據品質等問題,助力企業邁向淨零轉型。領動智慧科技的空中手寫輸入技術,鎖定的是下一代殺手級產品「智慧眼鏡」,透過高精度動態感測,為智慧眼鏡提供直覺、隱私友善的文字輸入解決方案。超術感醫學科技研發的AR顯微手術模擬訓練系統,則利用真實手術器械,提供精確控制回饋與AI動作分析,解決傳統訓練器械缺乏的「手感」問題,能被應用在眼科、神經外科等高精密的手術訓練。

最終大獎,分別由台灣百應生物科技、擴核生醫科技和超術感醫學科技抱走。東端和亮直言,透過此次Pitch,一方面看到台灣在軟硬整合的實力,更令人激賞的是,「團隊在營利之外,還致力解決社會問題,創造美好世界。」

邁特創新基地
日本村田製造所新規事業推進部部長東端和亮特別代表評審團致詞,除了欣賞台灣新創軟硬整合的實力,更發現團隊在營利之外,還致力解決社會問題,創造美好世界。
圖/ 數位時代

從在地驗證到鏈結全球,助新創在國際市場站穩腳跟

團隊對於自家產品、服務的用心,正是邁特極力提倡的核心價值,也是台灣新創通往世界舞台的基石。邁特創新加速計畫的運作模式,便如同硬體創新領域的國際嚮導,持續為新創團隊提供在地技術驗證和商業基礎訓練,並將新創的產品對接到國外大廠、國際創投。未來,台灣新創若能持續深化國際化、與多元夥伴合作,並具備正確的敘事能力和出海戰略,必能加速向外擴展,在全球市場中站穩腳跟。

立刻了解更多
https://bit.ly/m/mightynet

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓