Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!
Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!

如果問當下最強的 AI 助手是哪個?那無庸置疑,絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了,直接炸出一大批重度用戶。靠它完成作業的的學生族群,一時之間面對論文無從下筆,靠它「續命」的打工人更是連班都不想上了。

今年以來,ChatGPT 每隔一段時間就會「暴斃」,號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀:ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?

Claude 2.1 大更新一次看

更新一:上下文長度翻倍至200K token

恰巧,近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token(token 是文本處理中的最小單位,如單字或片語),現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示,200K 上下文約等於 150000 個單字或 500 頁文本,這意味著你可以上傳代碼、財務報表、或長篇文學作品,供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢?我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本, Yi-34B 可以處理約 40 萬漢字超長文本輸入,約等於一本《儒林外史》的長度。

在語言模型上,長上下文能夠提供更精確的用法和含義,有助於消除歧義,幫助模型生成連貫、準確度的文本,比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上,含義就完全迥異。

值得一提的是,在 GPT-4 尚未恢復即時網路瀏覽功能之前,免費的 Claude 能夠即時訪問網頁連結並總結網頁內容,即使到了現在,也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔,哪怕碰上 GPT-4,Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告,並詢問同樣的問題。

3-2.jpg!720.jpeg
圖/ 愛范兒
4-3.jpg!720.jpeg
圖/ 愛范兒

二者的反應速度沒有拉開差距,但免費版 Claude 的回覆反而更流暢,且答案的質量也略高,而 GPT-4 的檢索功能還會因為分頁和檢視受到限制,相當不「靈性」。

檢索只是「兒戲」,作為提高學習或工作效率的工具,我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局,雖然表達的觀點都差不多,但 Claude 以富有邏輯的分點作答取勝。

8-4.jpg!720.jpeg
圖/ 愛范兒
9-4.jpg!720.jpeg
圖/ 愛范兒

更新二:降低模型幻覺,寧願表達遲疑也不會給不正確的答案

答是能答得上來,能不能答對才是關鍵。過去一年,我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍,但它也沒有給出明確的數據,以至於輝達科學家 Jim Fan 提出質疑:「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

10-3.png!720.jpg
圖/ 愛范兒

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明,遇到知識的盲區,Claude 2.1 更傾向於不確定的表達,而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是,假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備,它會誠懇地說「我不確定廣東的省會是不是哈爾濱」,而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三:增添新應用「工具使用」,整合API

Claude Pro 的訂閱費用約為 20 美元,使用次數達到免費版的五倍,普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時,Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子,每句 15-20 個單字,那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔,那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶,Claude 2.1 還貼心的根據開發者的需求,推出了一項名為「工具使用」的測試版功能,允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說,Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ,可以向搜尋引擎查詢訊息以回答問題,連接私有數據庫,從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作,比如使用計算器進行複雜的數值推理,將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務,結果如下 👇
• 開發者控制台優化體驗和用戶界面,使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題),有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來,方便回溯
• 支持生成代碼集成到 SDK 中,應用到實際項目中

更新四:導入系統提示功能,維持Claude人設

此外,Claude 2.1 還引入了「系統提示」功能,這是一種向 Claude 提供上下文和指令的方式,能夠讓 Claude 在角色扮演時更穩定地維持人設,同時對話中又不失個性和創造力。當然,不同於簡單 Prompt 的應用,該功能主要是面向開發者和高級用戶設計的,是在 API 使用的,而不是在網頁端使用。

和 Claude 2.0 一樣,Claude 2.1 每輸入 100 萬 token 需要花費 8 美元,比 GPT-4 Turbo 便宜了 2 美元,輸出為 24 美元,比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元,輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言,雖然 Claude 2.1 表現很強悍,但仍只能充當 ChatGPT 當機的替代品,想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方,Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例,儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強,但實際結果顯示,在需要回憶和準確理解上下文的能力上,Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後,網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham(美國著名程式設計師)的 218 篇文章湊了 128K 的文本量,他在這些文章的不同位置(從文章頂端 0% 到底部 100%)隨機插入一個語句:「在陽光明媚的日子裡,在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句,並回答有關這個語句的相關問題,最後採用業界常用的 LangChain AI 評估方法來評估答案。

14-2.png!720.jpg
圖/ 愛范兒

評估結果如上圖,GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭,無論上下文有多長,它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時,GPT-4 Turbo 的準確率才開始下降。

作為對比,該網友還提前要到了 Claude 2.1 Pro 的內測資格,並同樣做了「大海撈針」的測試。從評估的結果來看,在長達 20 萬 token(大約 470 頁)的文檔中,和 GPT-4 Turbo 一樣,Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前,遠低於 GPT-4 Turbo 的 73K。超過 24K 後,Claude 2.1 Pro 記憶就開始明顯下降,90K 後,效果變得更差,出錯率更是大幅度上升。

可以看到的是,隨著上下文長度的增加,GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度,但相比更實用的準確度,GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者,當 ChatGPT 崩潰,堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急,甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3,語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前,升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀:客製化太夯,ChatGPT Plus暫停註冊!開發者大會後為何網站被擠爆?亮點一次看

本文授權轉載自:愛范兒ifanr
責任編輯:蘇祐萱

往下滑看下一篇文章
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點

Meet大南方2026不是一場讓你「露個臉、拿名片」的展會。
Meet大南方2026是一場讓你「找到真正客戶」的展會。

2025年,我們用一組數字證明了這件事:雙日觀展近1.3萬人次、290+組團隊參展、促成352組商機媒合。這個媒合數字是2024年的2.7倍。同一批展商、同一個場地,媒合效率在一年內跳了一個量級。

這代表什麼?意味著來到Meet大南方的人, 越來越不是來「逛展」,而是來「談生意」。

過去5年的經驗,我們有了一個心得,南台灣的企業主不是來聽矽谷故事的,他們是帶著明確的問題走進展場。

#0 2026Meet大南方徵展
2025 Meet大南方吸引近300家新創參展,雙日觀展近1.3萬人次。
圖/ Meet創業小聚

所以今年,我們不再單純以「趨勢」和「創業」為號召,正式把展會定位為「Meet Your Best Solution」。不談空泛願景、不畫技術大餅,而是把AI應用、智慧製造、ESG碳管理這些詞彙,翻譯成每一位企業主聽得懂的語言、用得上的解方。

對解方提供商意味著什麼?代表來到你攤位前的人並不是路人,極有可能就是來找答案的老闆。

為什麼你應該來?因為這是「南台灣市場的稀缺入口」

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

對正在開發南部市場的解方商來說,Meet大南方不只是「一次曝光機會」,還代表以下4件事:

第一,精準接觸南部企業決策者
傳產老闆、二代接班人、廠長、中小企業主……這些人平常不會出現在台北的科技活動,也很難透過線上管道觸及。為了把這群人真正拉到展會現場,過去幾個月《創業小聚》每月固定南下舉辦實體小聚,攜手高雄市經濟發展協會、高雄市建築經營協會、高雄市青年企業家協會與中山EMBA等組織,一場一場把在地企業主凝聚成一個社群。這群人不是展會當天才第一次聽到Meet大南方,他們早已是Meet大南方的一份子。

第二,從cold mail到warm lead的捷徑
兩天展期裡,除了攤位對話,我們會透過企業媒合會、投資人媒合會、新創交流之夜等機制,主動把你和潛在客戶、投資人湊到同一張桌子上。2025年這套機制為展商促成352組商機媒合,是前一年的2.7倍。現場示範、現場對話、現場加LINE,一次抵過3個月的線上開發。

#2 2026Meet大南方徵展
南台灣的企業主帶著明確的問題走進展場,找他們最迫切需要的解方。
圖/ Meet創業小聚

第三,解方區分類帶來精準人流
6大解方區依照企業痛點分類,觀展者按需求找到對應展區。來到你攤位的人,不會只有過路客,也有正在找你這類解方的決策者。

第四,南部市場的最低成本試水溫
對想評估是否投入南部市場的團隊,到高雄準備一個攤位的成本,遠低於派業務長駐南下3個月。2天內,你會得到足以判斷市場值不值得投入的第一手資訊。

值得一提的是,2025年Meet大南方的媒體曝光總效益超過新台幣3,000萬元,涵蓋《工商時報》、《經濟日報》、《數位時代》等91家媒體、共323則網路新聞露出。展商的品牌能量會自然搭上這波媒體浪潮。雖然這不該是你來的主要理由,但它確實是附贈的。

六大解方區:每一區都是一組企業痛點

今年我們把展區濃縮為6大「解方區」,每一區都直球對應一組具體的企業痛點:

智慧製造與產線升級 解方區——給自動化設備、AOI/AI視覺檢測、MES、工業物聯網、系統整合的團隊。對應痛點:缺工、良率不穩、設備老舊、排程沒效率。

數位管理與企業效率 解方區——給ERP/CRM/HRM、AI Agent、AI辦公工具、RPA、SaaS、FinTech支付、資安的團隊。這是最跨產業的一區,涵蓋所有企業的效率需求。

醫療健康與高齡照護 解方區——給遠距醫療、AI診斷、長照科技、健康數據、醫療管理系統的團隊。對應高齡化社會下的照護人力缺口與醫療數位化缺口。

#1 2026Meet大南方徵展
今年策劃6大「解方展區」,直接對應企業經營現場最常見的問題情境。
圖/ Meet創業小聚

淨零碳排與綠能永續 解方區——給碳盤查SaaS、ESG顧問工具、綠能設備、能源管理系統、循環經濟的團隊。供應鏈碳足跡要求已經壓到南部製造業頭上,這一區的需求只會愈來愈急。

品牌轉型與跨境行銷 解方區——給電商平台、跨境物流、MarTech、AI行銷工具、品牌顧問的團隊。南部有太多做代工做到品牌老化、想做電商卻不知從何開始的業者。

未來零售與餐飲科技 解方區——給POS、餐飲SaaS、無人商店、會員CRM、供應鏈方案的團隊。搭配「大南方餐飲創業沙龍」同步導流。

方案與招商資訊

2026 Meet Greater South亞灣新創大南方
時間:8/28(五)、8/29(六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展正式起跑,新創享專屬免費方案!
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

報名採審核制。請至Meet Online更新公司資料及填寫參展報名表單,主辦單位將以Email通知審核結果。若您的解方尚在評估是否合適,歡迎先聯繫我們,一起確認哪一個解方區最貼近你的目標客戶。

企業帶著問題來,我們希望你帶著解方來。
8月28-29日,高雄展覽館見。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館盛大舉辦,現已開放參展報名。
圖/ Meet創業小聚
關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓