Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!
Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!

如果問當下最強的 AI 助手是哪個?那無庸置疑,絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了,直接炸出一大批重度用戶。靠它完成作業的的學生族群,一時之間面對論文無從下筆,靠它「續命」的打工人更是連班都不想上了。

今年以來,ChatGPT 每隔一段時間就會「暴斃」,號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀:ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?

Claude 2.1 大更新一次看

更新一:上下文長度翻倍至200K token

恰巧,近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token(token 是文本處理中的最小單位,如單字或片語),現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示,200K 上下文約等於 150000 個單字或 500 頁文本,這意味著你可以上傳代碼、財務報表、或長篇文學作品,供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢?我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本, Yi-34B 可以處理約 40 萬漢字超長文本輸入,約等於一本《儒林外史》的長度。

在語言模型上,長上下文能夠提供更精確的用法和含義,有助於消除歧義,幫助模型生成連貫、準確度的文本,比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上,含義就完全迥異。

值得一提的是,在 GPT-4 尚未恢復即時網路瀏覽功能之前,免費的 Claude 能夠即時訪問網頁連結並總結網頁內容,即使到了現在,也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔,哪怕碰上 GPT-4,Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告,並詢問同樣的問題。

3-2.jpg!720.jpeg
圖/ 愛范兒
4-3.jpg!720.jpeg
圖/ 愛范兒

二者的反應速度沒有拉開差距,但免費版 Claude 的回覆反而更流暢,且答案的質量也略高,而 GPT-4 的檢索功能還會因為分頁和檢視受到限制,相當不「靈性」。

檢索只是「兒戲」,作為提高學習或工作效率的工具,我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局,雖然表達的觀點都差不多,但 Claude 以富有邏輯的分點作答取勝。

8-4.jpg!720.jpeg
圖/ 愛范兒
9-4.jpg!720.jpeg
圖/ 愛范兒

更新二:降低模型幻覺,寧願表達遲疑也不會給不正確的答案

答是能答得上來,能不能答對才是關鍵。過去一年,我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍,但它也沒有給出明確的數據,以至於輝達科學家 Jim Fan 提出質疑:「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

10-3.png!720.jpg
圖/ 愛范兒

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明,遇到知識的盲區,Claude 2.1 更傾向於不確定的表達,而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是,假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備,它會誠懇地說「我不確定廣東的省會是不是哈爾濱」,而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三:增添新應用「工具使用」,整合API

Claude Pro 的訂閱費用約為 20 美元,使用次數達到免費版的五倍,普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時,Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子,每句 15-20 個單字,那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔,那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶,Claude 2.1 還貼心的根據開發者的需求,推出了一項名為「工具使用」的測試版功能,允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說,Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ,可以向搜尋引擎查詢訊息以回答問題,連接私有數據庫,從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作,比如使用計算器進行複雜的數值推理,將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務,結果如下 👇
• 開發者控制台優化體驗和用戶界面,使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題),有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來,方便回溯
• 支持生成代碼集成到 SDK 中,應用到實際項目中

更新四:導入系統提示功能,維持Claude人設

此外,Claude 2.1 還引入了「系統提示」功能,這是一種向 Claude 提供上下文和指令的方式,能夠讓 Claude 在角色扮演時更穩定地維持人設,同時對話中又不失個性和創造力。當然,不同於簡單 Prompt 的應用,該功能主要是面向開發者和高級用戶設計的,是在 API 使用的,而不是在網頁端使用。

和 Claude 2.0 一樣,Claude 2.1 每輸入 100 萬 token 需要花費 8 美元,比 GPT-4 Turbo 便宜了 2 美元,輸出為 24 美元,比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元,輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言,雖然 Claude 2.1 表現很強悍,但仍只能充當 ChatGPT 當機的替代品,想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方,Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例,儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強,但實際結果顯示,在需要回憶和準確理解上下文的能力上,Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後,網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham(美國著名程式設計師)的 218 篇文章湊了 128K 的文本量,他在這些文章的不同位置(從文章頂端 0% 到底部 100%)隨機插入一個語句:「在陽光明媚的日子裡,在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句,並回答有關這個語句的相關問題,最後採用業界常用的 LangChain AI 評估方法來評估答案。

14-2.png!720.jpg
圖/ 愛范兒

評估結果如上圖,GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭,無論上下文有多長,它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時,GPT-4 Turbo 的準確率才開始下降。

作為對比,該網友還提前要到了 Claude 2.1 Pro 的內測資格,並同樣做了「大海撈針」的測試。從評估的結果來看,在長達 20 萬 token(大約 470 頁)的文檔中,和 GPT-4 Turbo 一樣,Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前,遠低於 GPT-4 Turbo 的 73K。超過 24K 後,Claude 2.1 Pro 記憶就開始明顯下降,90K 後,效果變得更差,出錯率更是大幅度上升。

可以看到的是,隨著上下文長度的增加,GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度,但相比更實用的準確度,GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者,當 ChatGPT 崩潰,堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急,甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3,語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前,升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀:客製化太夯,ChatGPT Plus暫停註冊!開發者大會後為何網站被擠爆?亮點一次看

本文授權轉載自:愛范兒ifanr
責任編輯:蘇祐萱

往下滑看下一篇文章
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承

1973 年,良興從台北光華商場一間 50 坪的電子零件行起家,半個世紀後蛻變為年營收破十億、毛利率 18% 的全通路 3C 品牌。不過,伴隨規模擴張帶來的不只是成長,還有日益加劇的管理摩擦。門市遍布全台、品項高達近萬筆,加上跨部門協作頻繁,行政耗損與知識傳承的缺口,成為這家老字號邁向下一階段的隱形天花板。

良興總經理賴志達回顧,從電子零件跨入電商、從線下擴張到 OMO 全通路、再到會員深度經營,作為 3C 零售業者,良興每一波轉型都走在同業前面。「現在輪到 AI 了。如何做到人機協作、AI 賦能,就是良興第五波轉型的核心命題。」

AI 自動化,從行政細節釋放組織戰力

轉型需要夥伴,而賴志達評估合作夥伴的標準很明確:技術能力是基本,產業知識(Domain Know-how)的深度是關鍵,回饋速度更是最終決定因素。2025 年的未來商務展上,良興選擇攜手 Data-DI,看重的正是其「策略諮詢 + AI 產品 + 落地陪跑」三軌並行的實施能力。

很快的,良興與 Data-DI 合作的第一個專案,就落在最耗費人力、卻最常被忽視的環節:會議記錄。「會議如果沒有產值、沒有效果,對企業很傷!」賴志達說,他每天參加許多會議,但跨單位協作的會議記錄長期依賴人工聆聽與逐字整理,常出現人名誤植、決策遺漏、行動項目無人追蹤,讓會議效果大打折扣。

數智聚(良興)_1.JPG
良興總經理賴志達
圖/ 數位時代

為了解決會議記錄的痛點,Data-DI 業務副總包威棣指出,在導入工具以前,團隊須先釐清三件事:場景是否具備落地價值、哪些流程節點適合 AI 介入,以及以終為始地掌握客戶真正想要的輸出樣貌。這些看似基本的提問,都決定 AI 能否精準落地。

確認方向後,良興與 Data-DI 成功導入 AI 會議記錄自動化系統,透過模糊比對技術校正語音辨識誤差,並將生成的雙版本報告直接回存至既有資料庫,不僅將行政人員從重複性作業中釋放,也為後續的 AI 應用奠定扎實的系統整合基礎。

賴志達分享,現在他去外部開會也會用這個工具,運用 AI 把錄音轉文字、再整理成簡報,很快就能完成,更令外部夥伴驚艷。「我認為這是很成功的案子!也提醒想做 AI 的老闆們,與其急著搞大架構,不如先從小工具讓公司嘗試 AI,建立理解和認同。」

AI 把資深員工大腦轉化為資產

補完行政效率的缺口後,良興接著切入更深層的營運核心:知識傳承。過去,頂尖銷售經驗長期鎖在少數資深員工身上,新人培訓耗時三個月,員工離職即帶走知識資本。與此同時,網路資訊發達,消費者進店前早已掌握基本規格,3C 通路門市人員要如何發揮更多價值?「我要門市的人不是死背規格,而是面對客人時,能用客人能理解的方式對話。」賴志達說。

為此,Data-DI 協助良興建置 AI 門市教育訓練系統。系統透過六大自動化關卡,串接教材生成、審核上架、AI 銷售對練與成績回報,主管僅需在核心節點審核;員工透過手機語音對練,系統依口吻、專業度、回應力等維度自動評分。賴志達表示,目標是將新人培訓期縮短至一個月,讓數十年累積的銷售智慧轉化為可複製、可傳承的企業資產。

然而,要讓這套系統真正運作,得先解決兩個根本問題:資料從哪裡來?以及訓練如何更準確?

「以前大數據時代,講的是資料要大、全、細、實;現在 AI 要做到的是準(準確)、合(合乎場景)。」包威棣說。良興不同廠商提供的素材品質參差不齊,Data-DI 除了整合內部資料,也補充加入外部市場評測內容以填補空缺,再透過人員審核機制過濾雜訊,搭配 agent 架構的多層步驟與知識限定,確保系統能精準提煉對應品類的訓練素材。

數智聚(良興)_2.JPG
Data-DI 業務副總包威棣
圖/ 數位時代

賴志達則看得更遠:「這些教育訓練的內容,也將成為公司未來訓練機器人很好的原料。」

Data-DI 陪跑型顧問,帶領企業 AI 轉型

良興與 Data-DI 合作的兩個專案中,雙方共同克服了長提示詞邏輯混亂、AI 幻覺污染知識庫、逐字稿讀取逾時等技術難題。邁向下一步,賴志達表示,公司各部門很早就建置 Power BI 報表,但數據豐富不等於決策清晰。「數據是土壤,如果沒有梳理,就沒有用了。」因此,他的下一個目標是活化數據資本、推動行銷自動流,以精實的人力持續驅動成長。

數智聚(良興)_3.jpg
良興攜手 Data-DI 推動 AI 落地,以小步快跑模式為企業創造變革。
圖/ 數位時代

包威棣則從顧問視角歸納兩個觀察:AI 導入需要高層認同、由上而下推進,像賴志達這樣持續引領良興走在業界前端的決策者,就是不可或缺的推手;而單點工具的價值,終究要累積成組織體質的轉變才算真正落地。「就像會議記錄改變了會議當責的結構,人員訓練改變了知識傳承的方式。從點狀應用走向企業變革,這種決策思路才是 AI 真正深入落地產生價值的關鍵。」

最後,對於仍在觀望AI應用的企業,他則建議:「未來 AI 導致的落差只會愈來愈大,人會變成超級工作者,企業會變成超級企業。開始做就對了,先做一個三個月的小任務,降低落差、再急起追上。」從痛點切入、小步快跑,讓組織在實作中累積對 AI 的理解與信任,這正是 Data-DI 的陪跑哲學。

有關更多 Data-DI 相關資訊,請查詢網站:https://www.data-di.com/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓