Claude實測｜ChatGPT最強對手再升級：減少AI幻覺、設定人設、一口氣讀15萬字！|數位時代 BusinessNext

Claude實測｜ChatGPT最強對手再升級：減少AI幻覺、設定人設、一口氣讀15萬字！

Claude推出最新版本 Claude 2.1，此版本能處理的上下文達200k token，且還能讓開發者自定義 API ，還有哪些功能？

如果問當下最強的 AI 助手是哪個？那無庸置疑，絕對是 ChatGPT。

前不久 ChatGPT 猝不及防地故障了，直接炸出一大批重度用戶。靠它完成作業的的學生族群，一時之間面對論文無從下筆，靠它「續命」的打工人更是連班都不想上了。

今年以來，ChatGPT 每隔一段時間就會「暴斃」，號稱其最強平替的 Claude 或許是你最可靠的備選方案。

延伸閱讀：ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用！能讀整本書？支援中文？

Claude 2.1 大更新一次看

更新一：上下文長度翻倍至200K token

恰巧，近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token（token 是文本處理中的最小單位，如單字或片語），現在 Claude 2.1 Pro 版能處理高達 200K 上下文。

Anthropic 官方表示，200K 上下文約等於 150000 個單字或 500 頁文本，這意味著你可以上傳代碼、財務報表、或長篇文學作品，供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。

那它能處理漢語的能力有多強呢？我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本， Yi-34B 可以處理約 40 萬漢字超長文本輸入，約等於一本《儒林外史》的長度。

在語言模型上，長上下文能夠提供更精確的用法和含義，有助於消除歧義，幫助模型生成連貫、準確度的文本，比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上，含義就完全迥異。

值得一提的是，在 GPT-4 尚未恢復即時網路瀏覽功能之前，免費的 Claude 能夠即時訪問網頁連結並總結網頁內容，即使到了現在，也是當下 GPT-3.5 所不具備的優點。

免費版 Claude 還能讀取、分析和總結用戶上傳的文檔，哪怕碰上 GPT-4，Claude 處理文檔的表現也絲毫不遜色。

我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告，並詢問同樣的問題。

二者的反應速度沒有拉開差距，但免費版 Claude 的回覆反而更流暢，且答案的質量也略高，而 GPT-4 的檢索功能還會因為分頁和檢視受到限制，相當不「靈性」。

檢索只是「兒戲」，作為提高學習或工作效率的工具，我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局，雖然表達的觀點都差不多，但 Claude 以富有邏輯的分點作答取勝。

更新二：降低模型幻覺，寧願表達遲疑也不會給不正確的答案

答是能答得上來，能不能答對才是關鍵。過去一年，我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍，但它也沒有給出明確的數據，以至於輝達科學家 Jim Fan 提出質疑：「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」

Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明，遇到知識的盲區，Claude 2.1 更傾向於不確定的表達，而不是生造似是而非的回答來欺騙用戶。

簡單點理解就是，假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備，它會誠懇地說「我不確定廣東的省會是不是哈爾濱」，而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三：增添新應用「工具使用」，整合API

Claude Pro 的訂閱費用約為 20 美元，使用次數達到免費版的五倍，普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時，Claude 就會發出提醒。

假設你的對話長度約為 200 個英語句子，每句 15-20 個單字，那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔，那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。

除了普通用戶，Claude 2.1 還貼心的根據開發者的需求，推出了一項名為「工具使用」的測試版功能，允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。

也就是說，Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ，可以向搜尋引擎查詢訊息以回答問題，連接私有數據庫，從數據庫搜尋訊息。

你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作，比如使用計算器進行複雜的數值推理，將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務，結果如下 👇
• 開發者控制台優化體驗和用戶界面，使基於 Claude API 的開發更便捷
• 更容易測試新的 prompt(輸入提示/問題)，有利於模型的持續改進
• 讓開發者像在沙盒環境中叠代試錯不同的 prompt
• 可以為不同的項目創建多個 prompt 並快速切換
• prompt 的修改會自動保存下來，方便回溯
• 支持生成代碼集成到 SDK 中，應用到實際項目中

更新四：導入系統提示功能，維持Claude人設

此外，Claude 2.1 還引入了「系統提示」功能，這是一種向 Claude 提供上下文和指令的方式，能夠讓 Claude 在角色扮演時更穩定地維持人設，同時對話中又不失個性和創造力。當然，不同於簡單 Prompt 的應用，該功能主要是面向開發者和高級用戶設計的，是在 API 使用的，而不是在網頁端使用。

和 Claude 2.0 一樣，Claude 2.1 每輸入 100 萬 token 需要花費 8 美元，比 GPT-4 Turbo 便宜了 2 美元，輸出為 24 美元，比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元，輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言，雖然 Claude 2.1 表現很強悍，但仍只能充當 ChatGPT 當機的替代品，想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方，Claude 2.1 就像是丐版的 GPT-4。

以 Claude 2.1 Pro 最擅長的 200K 為例，儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強，但實際結果顯示，在需要回憶和準確理解上下文的能力上，Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。

OpenAI 開發者大會之後，網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham（美國著名程式設計師）的 218 篇文章湊了 128K 的文本量，他在這些文章的不同位置（從文章頂端 0% 到底部 100%）隨機插入一個語句：「在陽光明媚的日子裡，在多洛雷斯公園吃三明治是在舊金山的最佳活動。」

然後他讓 GPT-4 Turbo 模型搜尋這個語句，並回答有關這個語句的相關問題，最後採用業界常用的 LangChain AI 評估方法來評估答案。

評估結果如上圖，GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭，無論上下文有多長，它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時，GPT-4 Turbo 的準確率才開始下降。

作為對比，該網友還提前要到了 Claude 2.1 Pro 的內測資格，並同樣做了「大海撈針」的測試。從評估的結果來看，在長達 20 萬 token（大約 470 頁）的文檔中，和 GPT-4 Turbo 一樣，Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。

但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前，遠低於 GPT-4 Turbo 的 73K。超過 24K 後，Claude 2.1 Pro 記憶就開始明顯下降，90K 後，效果變得更差，出錯率更是大幅度上升。

可以看到的是，隨著上下文長度的增加，GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度，但相比更實用的準確度，GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。

Claude 或許是免費版中最強的大模型之一。如果你是文字工作者，當 ChatGPT 崩潰，堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急，甚至表現得要更好。

但個性化的 GPTs、輕鬆生圖的 DALL·E3，語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前，升級後的 Claude 2.1 Pro 版本也得敗下陣來。

延伸閱讀：客製化太夯，ChatGPT Plus暫停註冊！開發者大會後為何網站被擠爆？亮點一次看

本文授權轉載自：愛范兒ifanr
責任編輯：蘇祐萱

從矽島進化新創島，「國際化」是關鍵指標

事實上，邁特創新基地自2016年創立以來，便致力成為硬體創新領域的加速器，期望提供「從0到100的解決方案」，並打通「硬體創新的最後一哩路」。邁特創新基地執行長戴憶帆指出，台灣被譽為半導體、電子製造服務強國，在全球產業鏈中具核心地位。如今，台灣正在善用「矽島」具備的卓越製造、供應鏈能力，聚焦創新研發，成為讓硬科技落地、加速商業應用的「新創島」，「其中，『國際化』絕對是衡量新創團隊能否快速成長、取得成功的最重要指標。」

目前，邁特已幫助來自全球逾13個國家、超過150家的新創公司向外擴展。而為了具體展現協助台灣硬體新創出海、邁國際的決心，本屆Demo Day特別邀請來自跨國創投的專家，一同探討全球市場的開拓。

加拿大駐台北貿易辦事處副處長拓喬丹（Jorden Turley）首先指出，邁特的國際協同合作理念，與加拿大不謀而合，「加拿大視台灣為亞太戰略中，不可或缺的重要夥伴，我們彼此間不是競爭而是合作。」例如台灣在硬體製造、實作方面有優勢，加拿大則在設計方面表現出色，多邊合作有助於企業分散風險，並加速打入第三市場。

講好故事、建立信任感，打破技術迷思

跨界對談開場前，主持人邁特創新基地顧問柯旂，也先回應「邁國際」不只是今年的主題，更是台灣硬體創新的必然道路。本屆 Demo Day 不僅邀請到加拿大駐台單位、日本京都大學創投、新加坡創新生態圈代表，更有台灣創新總會秘書長、台經院等重要嘉賓蒞臨，一同見證台灣硬體新創與全球鏈結的關鍵時刻。跨界對談更邀請包含：日本京都大學創投（Kyoto University Innovation Capital）亞太區業務發展經理Raymond Woo，以及德國馬牌集團（Continental）旗下創投部門的合作與創投管理總監邱殷樂，為新創提供具體出海建議。

戴憶帆強調，「國際化」已是台灣新創現今最重要的課題，而新加坡、日本會是台灣進軍國際的首選前哨站。新加坡作為東南亞地區的中心，許多國際團隊選擇在當地募資、上市櫃，介接資源方便；日本則與台灣的文化、理念相近，相當重視「信任」、夥伴關係，加上在東京、京都等頂尖大學裡，有最前沿的技術，對需要發展應用、商業化成長的新創來說，是值得尋求技術互補的合作對象。

跨界對談由左至右分別為主持人邁特創新基地顧問柯旂、邁特創新基地執行長戴憶帆、日本京都大學創投（Kyoto University Innovation Capital）亞太區業務發展經理Raymond Woo，以及德國馬牌集團（Continental）旗下創投部門的合作與創投管理總監邱殷樂，與現場與會者進行交流。

圖／數位時代

邱殷樂直指，台灣新創的技術極佳、很有實力，甚至勝過美國、以色列的公司，「最大的問題，是不會講述自己的故事，以及不清楚如何對接正確的人和事。」他建議，新創在展開跨國合作之前，必須先確定在台灣的根基已穩，同時了解自家的技術優勢，以便說服投資人和潛在客戶；在和大集團、大客戶合作時，也要找到能推動技術使用的關鍵人物或團隊。

Raymond Woo觀察，技術背景出生的創辦人，經常會犯下只看技術、看不到大局的盲點，加上創業是相當依賴人脈的事業，「新創必須學習用技術來解決特定商業問題，並與合作夥伴建立最重要的『信任』，否則技術再好、再先進，也無法順利擴展、被妥善應用。」

硬體新創精銳盡出，智慧農業、智慧醫療、綠色創新吸睛

精彩的對談後，緊接著輪到參與第十屆邁特創新加速器計畫，涵蓋智慧農業、智慧健康、智慧製造與綠色創新等硬體領域的六組新創團隊，一一登台Pitch，並由邱殷樂、Raymond Woo、日本村田製造所新規事業推進部部長東端和亮、邁特創新基地日本代表顧問上野峻基和華碩電腦協理Sean Lai等業界先進擔任評審。

首先登場的台灣百應生物科技，是運用AI、電腦視覺技術，實現家禽養殖的自主監控，完全無需人工干預，準確度已可達98.5％。擴核生醫科技則打造一款模組化、可程式化的實驗室自動化平台，能將整合液體處理、細胞培養、影像擷取和資料分析等流程集於一體，加速生技與藥物開發的研發、驗證流程。雨傘不滴的綠色創新專利產品「傘不滴」，是透過物理擠壓與高科技吸水部件，讓雨傘四秒內便完全不滴水，取代一次性塑膠套，解決公共場所地滑和環保痛點。恆帝斯智能科技是結合ESG輔導與碳IoT設備，自主開發韌體，解決聯網不穩、斷電導致的數據品質等問題，助力企業邁向淨零轉型。領動智慧科技的空中手寫輸入技術，鎖定的是下一代殺手級產品「智慧眼鏡」，透過高精度動態感測，為智慧眼鏡提供直覺、隱私友善的文字輸入解決方案。超術感醫學科技研發的AR顯微手術模擬訓練系統，則利用真實手術器械，提供精確控制回饋與AI動作分析，解決傳統訓練器械缺乏的「手感」問題，能被應用在眼科、神經外科等高精密的手術訓練。

最終大獎，分別由台灣百應生物科技、擴核生醫科技和超術感醫學科技抱走。東端和亮直言，透過此次Pitch，一方面看到台灣在軟硬整合的實力，更令人激賞的是，「團隊在營利之外，還致力解決社會問題，創造美好世界。」

從在地驗證到鏈結全球，助新創在國際市場站穩腳跟

團隊對於自家產品、服務的用心，正是邁特極力提倡的核心價值，也是台灣新創通往世界舞台的基石。邁特創新加速計畫的運作模式，便如同硬體創新領域的國際嚮導，持續為新創團隊提供在地技術驗證和商業基礎訓練，並將新創的產品對接到國外大廠、國際創投。未來，台灣新創若能持續深化國際化、與多元夥伴合作，並具備正確的敘事能力和出海戰略，必能加速向外擴展，在全球市場中站穩腳跟。