Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!
Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!

如果問當下最強的 AI 助手是哪個?那無庸置疑,絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了,直接炸出一大批重度用戶。靠它完成作業的的學生族群,一時之間面對論文無從下筆,靠它「續命」的打工人更是連班都不想上了。

今年以來,ChatGPT 每隔一段時間就會「暴斃」,號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀:ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?

Claude 2.1 大更新一次看

更新一:上下文長度翻倍至200K token

恰巧,近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token(token 是文本處理中的最小單位,如單字或片語),現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示,200K 上下文約等於 150000 個單字或 500 頁文本,這意味著你可以上傳代碼、財務報表、或長篇文學作品,供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢?我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本, Yi-34B 可以處理約 40 萬漢字超長文本輸入,約等於一本《儒林外史》的長度。

在語言模型上,長上下文能夠提供更精確的用法和含義,有助於消除歧義,幫助模型生成連貫、準確度的文本,比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上,含義就完全迥異。

值得一提的是,在 GPT-4 尚未恢復即時網路瀏覽功能之前,免費的 Claude 能夠即時訪問網頁連結並總結網頁內容,即使到了現在,也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔,哪怕碰上 GPT-4,Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告,並詢問同樣的問題。

3-2.jpg!720.jpeg
圖/ 愛范兒
4-3.jpg!720.jpeg
圖/ 愛范兒

二者的反應速度沒有拉開差距,但免費版 Claude 的回覆反而更流暢,且答案的質量也略高,而 GPT-4 的檢索功能還會因為分頁和檢視受到限制,相當不「靈性」。

檢索只是「兒戲」,作為提高學習或工作效率的工具,我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局,雖然表達的觀點都差不多,但 Claude 以富有邏輯的分點作答取勝。

8-4.jpg!720.jpeg
圖/ 愛范兒
9-4.jpg!720.jpeg
圖/ 愛范兒

更新二:降低模型幻覺,寧願表達遲疑也不會給不正確的答案

答是能答得上來,能不能答對才是關鍵。過去一年,我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍,但它也沒有給出明確的數據,以至於輝達科學家 Jim Fan 提出質疑:「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

10-3.png!720.jpg
圖/ 愛范兒

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明,遇到知識的盲區,Claude 2.1 更傾向於不確定的表達,而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是,假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備,它會誠懇地說「我不確定廣東的省會是不是哈爾濱」,而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三:增添新應用「工具使用」,整合API

Claude Pro 的訂閱費用約為 20 美元,使用次數達到免費版的五倍,普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時,Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子,每句 15-20 個單字,那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔,那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶,Claude 2.1 還貼心的根據開發者的需求,推出了一項名為「工具使用」的測試版功能,允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說,Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ,可以向搜尋引擎查詢訊息以回答問題,連接私有數據庫,從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作,比如使用計算器進行複雜的數值推理,將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務,結果如下 👇
• 開發者控制台優化體驗和用戶界面,使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題),有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來,方便回溯
• 支持生成代碼集成到 SDK 中,應用到實際項目中

更新四:導入系統提示功能,維持Claude人設

此外,Claude 2.1 還引入了「系統提示」功能,這是一種向 Claude 提供上下文和指令的方式,能夠讓 Claude 在角色扮演時更穩定地維持人設,同時對話中又不失個性和創造力。當然,不同於簡單 Prompt 的應用,該功能主要是面向開發者和高級用戶設計的,是在 API 使用的,而不是在網頁端使用。

和 Claude 2.0 一樣,Claude 2.1 每輸入 100 萬 token 需要花費 8 美元,比 GPT-4 Turbo 便宜了 2 美元,輸出為 24 美元,比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元,輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言,雖然 Claude 2.1 表現很強悍,但仍只能充當 ChatGPT 當機的替代品,想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方,Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例,儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強,但實際結果顯示,在需要回憶和準確理解上下文的能力上,Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後,網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham(美國著名程式設計師)的 218 篇文章湊了 128K 的文本量,他在這些文章的不同位置(從文章頂端 0% 到底部 100%)隨機插入一個語句:「在陽光明媚的日子裡,在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句,並回答有關這個語句的相關問題,最後採用業界常用的 LangChain AI 評估方法來評估答案。

14-2.png!720.jpg
圖/ 愛范兒

評估結果如上圖,GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭,無論上下文有多長,它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時,GPT-4 Turbo 的準確率才開始下降。

作為對比,該網友還提前要到了 Claude 2.1 Pro 的內測資格,並同樣做了「大海撈針」的測試。從評估的結果來看,在長達 20 萬 token(大約 470 頁)的文檔中,和 GPT-4 Turbo 一樣,Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前,遠低於 GPT-4 Turbo 的 73K。超過 24K 後,Claude 2.1 Pro 記憶就開始明顯下降,90K 後,效果變得更差,出錯率更是大幅度上升。

可以看到的是,隨著上下文長度的增加,GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度,但相比更實用的準確度,GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者,當 ChatGPT 崩潰,堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急,甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3,語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前,升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀:客製化太夯,ChatGPT Plus暫停註冊!開發者大會後為何網站被擠爆?亮點一次看

本文授權轉載自:愛范兒ifanr
責任編輯:蘇祐萱

往下滑看下一篇文章
70%企業陷AI困境!「AI TAIWAN 未來商務展」助攻AI落地:一次集結逾250家技術服務商
70%企業陷AI困境!「AI TAIWAN 未來商務展」助攻AI落地:一次集結逾250家技術服務商

根據人工智慧科技基金會的《台灣產業 AI 化大調查》,過去兩年,台灣企業對 AI 的認知度顯著提升,但仍有高達七成的企業尚未跨越應用門檻。這是因為 AI 不只是單點技術的導入,更需要建構在完整的數據整合與組織協作基礎之上。在真正推動 AI 之前,必須先打穩「數位轉型」的基礎,透過全面數位化、調整管理流程與思維架構,才能真正開啟 AI 賦能的下一步,協助企業在市場變局中穩健應對。

正是在這樣的需求脈絡下,今年邁入第 11 屆的「AI TAIWAN 未來商務展」以「AI in Action」為主題,聚焦企業在導入過程中可能面臨的軟硬體挑戰與應用瓶頸。作為全台最大的 AI 轉型企業解決方案大展,展會邀請超過 250 家解方廠商與技術服務供應商,帶來管理應用、MarTech、生成式 AI、系統整合等多元解決方案,全面協助企業突破應用挑戰,加速 AI 落地。

六大展區全面出擊,解決企業軟硬體轉型需求

為完整串聯從技術到應用的多元需求,20205 AI TAIWAN 未來商務展規劃「營運解決方案」、「產業應用」、「企業 AI 導入與學習」、「AI 關鍵技術」、「國際創新」與「AI/數位人才媒合」六大展區。攜手 AWS、微星、威剛、女媧創造、正新等策展夥伴,呈現最新的 AI 應用;參展的解決方案供應商陣容則橫跨電信、雲端、行銷、零售、製造等產業,全面協助企業在 AI 技術導入過程中,一次找到合適的合作夥伴與服務模式。

本次展會更針對製造、科技行銷、零售等產業,舉辦「Solution Guide 解方媒合會」。媒合會邀請專業解方供應商分享實戰經驗與應用洞察,並提供現場一對一媒合服務。協助企業快速對接具體方案,進一步掌握落地細節與可行路徑。

五大技術研討會+高峰論壇,直擊前沿應用與趨勢

除了尋找合作解方,企業在面對 AI 落地時,更需要掌握最新的技術與市場趨勢。今年「AI TAIWAN 未來商務展」舉辦多場高峰論壇,邀請 Appier 及 iKala 董事、Google 前董事總經理簡立峰,以及美而快總經理王志仁等產業 20 多位重量級講者,分享他們對國際趨勢、產業發展與未來應用的第一手觀察。從市場動態到落地實例,協助企業一次掌握前線的商業機會與應用脈絡。

展會期間,亦將舉辦五場「AI 技術應用研討會」,涵蓋 AI 感知技術、生成式 AI、AI 代理、AI 資安、邊緣 AI 五大主題,透過深入剖析最新技術及應用模式,協助企業強化未來競爭力。

img-1723530102-15296.jpg
AI TAIWAN 未來商務展。
圖/ FC未來商務

國際團隊進駐+人才媒合,打開合作與成長新格局

當企業數位轉型與 AI 應用的基礎逐步到位,更長遠的競爭課題則是國際化布局與人才鏈接。今年展會特別與日本 Everidge 株式會社攜手合作,邀請來自 10 個國家、近 80 間的解決方案供應商,共組國際展區,協助台灣企業串聯全球 AI 生態圈,開啟跨國合作新契機。

同時,展會與數位人才媒合平台 Yourator 攜手合作,設立「AI/數位人才媒合專區」,協助企業補足 AI 專業人才缺口,為企業長期營運與競爭力奠定基礎。同時,專區也會透過職涯諮詢與快速面試,支援求職者釐清職務需求與瞭解未來 AI 人才趨勢。

不只是看見 AI,還要真正「用好 AI」!

當 AI 已成為顯學,企業不能再停留在「看見」的階段。2025 AI TAIWAN 未來商務展,正是企業找到最完整的軟硬體解方、國際夥伴、人才資源與轉型藍圖的最佳場域。6 月 26 日至 28 日,台北花博爭艷館將見證 AI 如何真正「in Action」,成為企業實現新商業價值、強化競爭力的重要驅動力。

.展會名稱:2025 AI TAIWAN 未來商務展
.時間:2025 年 6 月 26 日(四)~ 6 月 28 日(六)
.地點:台北花博爭艷館(Taipei Expo Park Ex
.報名連結:https://fcexhibition.pse.is/7p7h2b
.展會官網:https://www.futurecommerce.tw/

延伸閱讀:哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

本文授權轉自:FC未來商務

關鍵字: #AI #未來商務

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓