Claude實測｜ChatGPT最強對手再升級：減少AI幻覺、設定人設、一口氣讀15萬字！|數位時代 BusinessNext

Claude實測｜ChatGPT最強對手再升級：減少AI幻覺、設定人設、一口氣讀15萬字！

Claude推出最新版本 Claude 2.1，此版本能處理的上下文達200k token，且還能讓開發者自定義 API ，還有哪些功能？

如果問當下最強的 AI 助手是哪個？那無庸置疑，絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了，直接炸出一大批重度用戶。靠它完成作業的的學生族群，一時之間面對論文無從下筆，靠它「續命」的打工人更是連班都不想上了。

今年以來，ChatGPT 每隔一段時間就會「暴斃」，號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀：ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用！能讀整本書？支援中文？

Claude 2.1 大更新一次看

更新一：上下文長度翻倍至200K token

恰巧，近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token（token 是文本處理中的最小單位，如單字或片語），現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示，200K 上下文約等於 150000 個單字或 500 頁文本，這意味著你可以上傳代碼、財務報表、或長篇文學作品，供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢？我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本， Yi-34B 可以處理約 40 萬漢字超長文本輸入，約等於一本《儒林外史》的長度。

在語言模型上，長上下文能夠提供更精確的用法和含義，有助於消除歧義，幫助模型生成連貫、準確度的文本，比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上，含義就完全迥異。

值得一提的是，在 GPT-4 尚未恢復即時網路瀏覽功能之前，免費的 Claude 能夠即時訪問網頁連結並總結網頁內容，即使到了現在，也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔，哪怕碰上 GPT-4，Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告，並詢問同樣的問題。

二者的反應速度沒有拉開差距，但免費版 Claude 的回覆反而更流暢，且答案的質量也略高，而 GPT-4 的檢索功能還會因為分頁和檢視受到限制，相當不「靈性」。

檢索只是「兒戲」，作為提高學習或工作效率的工具，我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局，雖然表達的觀點都差不多，但 Claude 以富有邏輯的分點作答取勝。

更新二：降低模型幻覺，寧願表達遲疑也不會給不正確的答案

答是能答得上來，能不能答對才是關鍵。過去一年，我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍，但它也沒有給出明確的數據，以至於輝達科學家 Jim Fan 提出質疑：「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明，遇到知識的盲區，Claude 2.1 更傾向於不確定的表達，而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是，假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備，它會誠懇地說「我不確定廣東的省會是不是哈爾濱」，而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三：增添新應用「工具使用」，整合API

Claude Pro 的訂閱費用約為 20 美元，使用次數達到免費版的五倍，普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時，Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子，每句 15-20 個單字，那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔，那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶，Claude 2.1 還貼心的根據開發者的需求，推出了一項名為「工具使用」的測試版功能，允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說，Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ，可以向搜尋引擎查詢訊息以回答問題，連接私有數據庫，從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作，比如使用計算器進行複雜的數值推理，將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務，結果如下 👇
• 開發者控制台優化體驗和用戶界面，使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題)，有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來，方便回溯
• 支持生成代碼集成到 SDK 中，應用到實際項目中

更新四：導入系統提示功能，維持Claude人設

此外，Claude 2.1 還引入了「系統提示」功能，這是一種向 Claude 提供上下文和指令的方式，能夠讓 Claude 在角色扮演時更穩定地維持人設，同時對話中又不失個性和創造力。當然，不同於簡單 Prompt 的應用，該功能主要是面向開發者和高級用戶設計的，是在 API 使用的，而不是在網頁端使用。

和 Claude 2.0 一樣，Claude 2.1 每輸入 100 萬 token 需要花費 8 美元，比 GPT-4 Turbo 便宜了 2 美元，輸出為 24 美元，比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元，輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言，雖然 Claude 2.1 表現很強悍，但仍只能充當 ChatGPT 當機的替代品，想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方，Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例，儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強，但實際結果顯示，在需要回憶和準確理解上下文的能力上，Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後，網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham（美國著名程式設計師）的 218 篇文章湊了 128K 的文本量，他在這些文章的不同位置（從文章頂端 0% 到底部 100%）隨機插入一個語句：「在陽光明媚的日子裡，在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句，並回答有關這個語句的相關問題，最後採用業界常用的 LangChain AI 評估方法來評估答案。

評估結果如上圖，GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭，無論上下文有多長，它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時，GPT-4 Turbo 的準確率才開始下降。

作為對比，該網友還提前要到了 Claude 2.1 Pro 的內測資格，並同樣做了「大海撈針」的測試。從評估的結果來看，在長達 20 萬 token（大約 470 頁）的文檔中，和 GPT-4 Turbo 一樣，Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前，遠低於 GPT-4 Turbo 的 73K。超過 24K 後，Claude 2.1 Pro 記憶就開始明顯下降，90K 後，效果變得更差，出錯率更是大幅度上升。

可以看到的是，隨著上下文長度的增加，GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度，但相比更實用的準確度，GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者，當 ChatGPT 崩潰，堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急，甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3，語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前，升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀：客製化太夯，ChatGPT Plus暫停註冊！開發者大會後為何網站被擠爆？亮點一次看

本文授權轉載自：愛范兒ifanr
責任編輯：蘇祐萱

六大展區全面出擊，解決企業軟硬體轉型需求

為完整串聯從技術到應用的多元需求，20205 AI TAIWAN 未來商務展規劃「營運解決方案」、「產業應用」、「企業 AI 導入與學習」、「AI 關鍵技術」、「國際創新」與「AI／數位人才媒合」六大展區。攜手 AWS、微星、威剛、女媧創造、正新等策展夥伴，呈現最新的 AI 應用；參展的解決方案供應商陣容則橫跨電信、雲端、行銷、零售、製造等產業，全面協助企業在 AI 技術導入過程中，一次找到合適的合作夥伴與服務模式。

本次展會更針對製造、科技行銷、零售等產業，舉辦「Solution Guide 解方媒合會」。媒合會邀請專業解方供應商分享實戰經驗與應用洞察，並提供現場一對一媒合服務。協助企業快速對接具體方案，進一步掌握落地細節與可行路徑。

五大技術研討會＋高峰論壇，直擊前沿應用與趨勢

除了尋找合作解方，企業在面對 AI 落地時，更需要掌握最新的技術與市場趨勢。今年「AI TAIWAN 未來商務展」舉辦多場高峰論壇，邀請 Appier 及 iKala 董事、Google 前董事總經理簡立峰，以及美而快總經理王志仁等產業 20 多位重量級講者，分享他們對國際趨勢、產業發展與未來應用的第一手觀察。從市場動態到落地實例，協助企業一次掌握前線的商業機會與應用脈絡。

展會期間，亦將舉辦五場「AI 技術應用研討會」，涵蓋 AI 感知技術、生成式 AI、AI 代理、AI 資安、邊緣 AI 五大主題，透過深入剖析最新技術及應用模式，協助企業強化未來競爭力。

國際團隊進駐＋人才媒合，打開合作與成長新格局

當企業數位轉型與 AI 應用的基礎逐步到位，更長遠的競爭課題則是國際化布局與人才鏈接。今年展會特別與日本 Everidge 株式會社攜手合作，邀請來自 10 個國家、近 80 間的解決方案供應商，共組國際展區，協助台灣企業串聯全球 AI 生態圈，開啟跨國合作新契機。

同時，展會與數位人才媒合平台 Yourator 攜手合作，設立「AI／數位人才媒合專區」，協助企業補足 AI 專業人才缺口，為企業長期營運與競爭力奠定基礎。同時，專區也會透過職涯諮詢與快速面試，支援求職者釐清職務需求與瞭解未來 AI 人才趨勢。

不只是看見 AI，還要真正「用好 AI」！

當 AI 已成為顯學，企業不能再停留在「看見」的階段。2025 AI TAIWAN 未來商務展，正是企業找到最完整的軟硬體解方、國際夥伴、人才資源與轉型藍圖的最佳場域。6 月 26 日至 28 日，台北花博爭艷館將見證 AI 如何真正「in Action」，成為企業實現新商業價值、強化競爭力的重要驅動力。

．展會名稱：2025 AI TAIWAN 未來商務展
．時間：2025 年 6 月 26 日（四）～ 6 月 28 日（六）
．地點：台北花博爭艷館（Taipei Expo Park Ex
．報名連結：https://fcexhibition.pse.is/7p7h2b
．展會官網：https://www.futurecommerce.tw/