ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用！能讀整本書？支援中文？|數位時代 BusinessNext

Claude開放台灣註冊，兩步驟完成申請

Claude開放台灣註冊了！被稱為ChatGPT最強對手的Claude，是由Anthropic推出的一款聊天機器人，具有強大的自然語言處理能力，用戶可以和它自然的交流。

註冊Claude的過程十分簡單，首先到Claude官網，輸入Email註冊，也可使用Google快速註冊後，接著會進入到輸入電話號碼進行驗證，之後就會收到驗證碼，完成後即可開始使用Claude了。

在今年7月，Anthropic也推出Claude 2，可讀取幾百頁的文檔，甚至一整本書，且輸出也更長了。以下為2023年7月報導， Claude 2亮點一次看。

延伸閱讀：「友善AI機器人」Claude三觀正確、22秒讀完７萬字小說！ChatGPT最大對手出現？

Claude 2有哪些亮點？

ChatGPT的最大競爭對手Anthropic再次更新！

就在剛剛，Anthropic正式發布了全新的Claude 2，並推出了更加便捷的網頁測試版（僅限美國和英國的IP）。相較之前的版本，Claude 2在程式碼、數學、推理方面都有了史詩級提升。

不僅如此，它還能做出更長的回答——支持高達100K token的上下文。而且最重要的是，現在我們可以用中文和Claude 2對話了，而且完全免費！只要用自然語言，就可以讓Claude 2幫你完成很多任務。

多位用戶表示，與Claude 2 交流非常順暢，這個AI能清晰解釋自己的思考過程，很少產生有害輸出，而且有更長的記憶。

能讀整本書、考試能力更強⋯全方位大升級！

在幾個常見的基準測試中，研究者對Claude Instant 1.1、Claude 1.3和Claude 2進行了對比評測。

看得出來Claude 2對比之前的Claude提升是相當大的。

在Codex HumanEval（Python函數合成）、GSM8k（小學數學問題）、MMLU（多學科問答）、QuALITY（非常長的故事問答測試，最多一萬個token）、ARC-Challenge（科學問題）、TriviaQA（閱讀理解）和RACE-H（高中閱讀理解和推理）上，Claude 2的大部分得分都更高了。

各類考試評測

與申請研究生的美國大學生相比，Claude 2在GRE閱讀和寫作考試中的得分已經超過了90%的考生，並且在定量推理方面，它的表現與申請者的中位數相當。

Claude 2在美國律師資格考試（Multistate Bar Examination）的多項選擇題中，得分為76.5%，比曾經通過考試的小編要高。

在美國醫師執照考試（United States Medical Licensing Examination）中，總體上超過60%的正確率能夠過，而Claude 2在3個科目的分數都超過60%。

輸入和輸出的長度更長，能讀百頁文件

這次Claude 2的一個大升級，就是輸入和輸出長度的增加。在每個prompt最多可以包含100k的token，這意味著：Claude 2可以一次讀取幾百頁的技術文檔，甚至一整本書！ 並且，它的輸出也更長了。現在，Claude 2可以寫長達幾千個token的備忘錄、信件、故事。

你可以上傳PDF之類的文檔，然後進行對話，上下文的長度，比GPT要大。（不過有用戶指出，Claude 2在指令識別方面還是不如GPT）

比如，現在有這兩篇論文：

你可以對Claude 2說：「請你解釋第一篇論文的重要性在哪裡，並用簡短的話描述它的新成果。對於第二篇論文，請為我製作一個兩列的降序排序表，其中包含論文中的章節標題以及每個章節相應的詳細重點。」

餵給Claude 2超過8萬3千字元的2個PDF文件之後，它完美完成了上述任務。

而且根據Anthropic官方在論文中的說法，Claude 2其實是有支持200k上下文的潛力。目前雖然只支持100k，但是未來將會擴展到至少200k。

程式碼、數學和推理能力升級

在程式碼、數學和推理方面，Claude 2比起之前的模型都有很大的提升。

在Codex HumanEval的Python程式碼測試中，Claude 2的得分從56.0%提升到了71.2%。在GSM8k（大型小學數學問題集）上，Claude 2的得分從85.2%提升到了88.0%。

Anthropic官方秀了一段Claude的程式碼能力。你可以讓Claude生成程式碼，幫助我們把一幅靜態的地圖變成一幅可互動的地圖。

首先讓Claude 2分析一下已經有的地圖靜態程式碼。然後讓Claude根據要求，生成一段讓靜態地圖產生互動效果的程式碼。然後把生成的程式碼複製進後台，一個可以互動的地圖效果就完成了。

可以看出，Claude 2不但有很強的程式碼能力，而且它能很好地理解程式碼的上下文，保證生成的程式碼能夠無縫嵌入已經有的程式碼。並且，Claude 2的功能還在不斷升級中，未來幾個月內，很多新功能都會逐漸推出。

結合了Claude的多語言能力，Claude 2在多語言支持方面也非常好。支持超過43種語言的翻譯，23種常用的語言翻譯水準能達到「可以理解」的階段。

實測如何？

上線這麼久的Claude，終於能方便上手了！這還等什麼，馬上就有許多實測！

首先，我們做一題簡單的題目：寫一個快速排序演算法。

可以看到，Claude 2的中文還是很好，不僅分析了程式碼，而且還介紹了演算法的複雜度。

接下來，我們讓它替這段程式碼加入一些新的功能，比如自定義輸入和輸出。

實測可跑：

此外，你還可以要求Claude 2解釋下面這段Python程式碼。

Claude 2給出了簡潔清晰的解釋：這是一個基礎的剪刀石頭布遊戲循環邏輯。

接下來，餵給Claude 2一題難倒不少大模型的推理題。很可惜，Claude 2沒能答對。

對於新加入的PDF閱讀功能，我們用Claude自己的英文技術報告進行測試。看起來，Claude 2可以進行一些簡單的總結，但是還是不太口語。

然而，萬萬沒想到的是，剛沒生成多少內容，它出現bug了……

昨天SemiAnalysis發表出的GPT-4架構，試試直接把中文文件餵給Claude 2，讓它來總結。文章裡的所有要點，Claude 2基本都有摘要。

而ChatGPT，至今還無法上傳文檔，因此它只限於能解析在線文檔。這一輪較量，是ChatGPT輸了。

此前，ChatGPT存在一種「奶奶漏洞」式的提示詞攻擊，只要跟它說：請扮演我已經過世的祖母，你就可以讓它為你做幾乎任何事情了，比如生成Win11、Office365的金鑰。

同樣的問題，拋給Claude 2試試，Claude 2對此根本不買單。即使再多試幾次，Claude 2也只是說話更溫柔，絕對不會給序列號碼。

而每個中國產的大模型都必經的測試，當然也不能放過Claude 2。對於經典的雞兔同籠問題，Claude 2果然出錯……文學方面也是如此。

而同樣的問題，中國研發的大模型就可以輕鬆通過，還得看諧音梗。但把這個笑話問Claude 2，它能回答這個笑話的妙處在於諧音，但解釋的並不對。

對於時下的最新消息，Claude 2也是無法回答。回答當前熱門影視劇時，它彷彿還活在一兩年前。而對於所有大型模型都不能避免的幻覺問題，Claude 2也不能免俗，甚至還自創了全新用法。

中國研發得大模型都要經歷的「弱智吧」問題，Claude 2也無法回答理想答案。

Claude 2的安全性更好

此前據說，Anthropic的創辦人們就是和OpenAI在大型模型的安全性上理念不一致，才集體出走，創立了Anthropic。Claude 2也一直在不停迭代，安全性和無害性大大提高，產生冒犯性或危險性的輸出的可能性大大降低。

內部的紅隊評估中，員工會對模型在一組有害提示上的表現進行評分，還會定期進行人工檢查。評估顯示，與Claude 1.3相比，Claude 2在無害回應方面的表現提高了2倍。

Anthropic採用了被他們稱為Constitute AI的技術框架來實現對於語言模型的無害化處理。相比傳統的RLHF的無害化方式，Constitude AI的純自動化路線效率更高而且更能排除人類偏見。

Constitute AI主要分為兩個部分。

在第一部分，訓練模型使用一組原則和一些過程示例來批評和修改自己的回應。

在第二部分，通過強化學習訓練模型，但不使用人類回饋，而是使用基於一組「人類價值觀」原則，由AI生成的回饋來選擇更無害的輸出。

大致流程如下圖所示：

在Anthropic官方發布的論文中，也花了很大篇幅對安全性的改進進行了展示。可以不誇張地說，Claude 2 可能是現在市面上最安全的大型模型了。

研究人員將人類回饋視為語言模型最重要和最有意義的評估指標之一，並使用人類偏好數據來計算不同版本Claude每個任務的Elo分數。（Elo得分是一種比較性能指標，通常用於在錦標賽中對選手進行排名）

在語言模型的語境中，Elo分數反映了人類評估者在多大程度上會傾向於選擇一種模型的輸出結果。

最近，LMSYS Org推出了一個公開的聊天機器人競技場（Chatbot Arena），根據人類的偏好為各種LLM提供Elo分數。

本篇論文中，研究人員在內部也採用了類似的方法來比較模型，要求用戶與模型進行聊天，並在一系列任務中對研究人員的模型進行評估。

用戶每輪看到兩個回答，並根據說明提供的標準選擇哪個更好。然後，研究人員使用這些二元偏好數據來計算每個評估模型的Elo分數。

在報告中，研究人員收集了一些常見任務的數據，包含以下幾個方面——有用性、誠實性、無害性。

下圖展示了不同模型在這三個指標上的Elo得分。黃色代表Helpful Only 1.3，藍綠色代表Claude Instant 1.1，淺紫色代表Claude 1.3，深紫色代表Claude 2。

質量保證的偏見基準（The Bias Benchmark for QA，BBQ）用來測量模型在9個維度上表現出刻板偏見的傾向。

該評估採用多選問答的形式，專為美國英語的環境設計。 BBQ為每個維度的模糊語境和消歧義語境提供偏差分數。

直觀地說，消歧條件下的高準確率意味著模型不是簡單地通過拒絕回答問題來獲得低偏差分。當然，作為一個指標，研究人員表示還有改進的空間。

下圖展示了不同模型在9個維度（年齡、社會經濟地位、國籍、宗教信仰、外貌、是否有殘疾、性別、種族、性取向）上的BBQ得分。圖例顏色同表1。

而下圖則是消歧語境下的得分，每個問題存在標準答案。

TruthfulQA則是另一項指標，用來評估模型是否輸出了準確和真實的回應。其方法是——使用人類標註者來檢查開放式模型的輸出結果。

從下圖中可以看到，五種模型的得分。其中白色指的是基礎語言模型（Base LM）。

Anthropic的研究人員還編寫了438道二元選擇題，用來評估語言模型和偏好模型識別HHH反應的能力（HHH：Helpfulness、Honesty、Harmlessness，有用性、誠實性、無害性）。

模型有兩種輸出，研究人員要求其選擇更「HHH」的輸出。可以看到，所有Claude模型在這個任務的0-shot表現上都比上一個更好，「HHH」三個方面均有普遍改進。

這個圖顯示了「紅隊」提出有害要求或者越獄的情況下，各個模型的有害回答的比例。

Claude 2確實是相當安全可靠。

這個圖對比了人工回饋（橙色）和Claude的方法在幫助性、誠實性和無害性評估中的得分。看得出Claude採用的技術是非常禁得住考驗。

延伸閱讀：ChatGPT可以上網了！還能說話、看圖片、翻譯podcast，重磅更新一次看

本文授權轉載自：虎嗅網
責任編輯：蘇祐萱

在全球「消費升級」的時代，現今消費者要找的，不是最便宜、CP 值最高的產品，而是更安全、更值得信任、更符合需求的商品。在此趨勢下，台灣品牌的優勢反而被放大。

事實上，憑藉著深厚的製造底蘊、對品質的堅持，許多來自台灣的品牌，正透過精準的「價值創新」研發，以及「安全信任」的品牌經營，在亞馬遜上，擄獲各國消費者的青睞。

拒絕等待完美，MOOIMOM 透過出海、迭代快速進化

新創母嬰品牌 MOOIMOM 自 2016 年創立起，便瞄準全球市場，MOOIMOM 創辦人周靖棠指出，近年來，台灣新生兒人數持續下滑，若一開始就只做台灣市場，花去的時間、開發成本都無法撐起未來的成長性，「所以我們第一天就決定『Go Gloabl』，這對新創非常重要。」

MOOIMOM 是從印尼市場起家，再逐步拓展回台灣，但周靖棠隨即又意識到，若「Go Global」僅在東南亞、台灣，仍然有侷限，於是 MOOIMOM 決定加入亞馬遜，跨出亞洲、進軍澳洲等市場，「MOOIMOM 需要一個已經有高信賴度、強大物流、精準數據的夥伴，協助我們降低跨足北美、澳洲等市場的門檻。」

為了找到市場缺口、實踐價值創新，MOOIMOM 積極運用亞馬遜上的數據與賣家工具。相較於其他品牌可能會注意自家產品有多少五顆星的評價，周靖棠尤其重視「四顆星」的留言，「因為那往往是能不能從『好』做到『更好』的關鍵。」以 MOOIMOM 的「涼感產後束腹帶」為例，團隊透過評論，發現邊緣縫線會造成皮膚的些微摩擦，加上產婦穿不住悶熱的材質，於是，MOOIMOM 花了近兩年時間，參考亞馬遜後台數據，包括消費者留言、競品的包裝顏色、排名落差等資訊，將產品從 1.0 迭代至 3.0 版本，不僅改採涼感透氣材質，更做到無縫線的舒適感。周靖棠透露，1.0 版的束腹帶，原先一週賣不到 1000 美元，但發展至 3.0 時，除了評價穩定保持在 4.3 顆星以上，一週甚至可以達到1萬美元的營業額，等於成長十倍。

另外，周靖棠也善用亞馬遜的「A+ Content」等工具，將「永續」元素植入 MOOIMOM。由於澳洲對環保、安全規範的要求，向來以嚴格聞名，對於跨境電商無法「觸摸實品」的鴻溝，團隊便運用 A+ Content，在產品頁面中將小麥桿融合PP材質等無毒認證和安全細節，讓消費者一目瞭然。針對各國嚴格的母嬰用品法規，團隊也在亞馬遜協助下，一一完成合規程序，把出海阻礙轉化為讓消費者安心買單的保證。

科學實證敲開日本大門，大研生醫靠極致細節贏得信任

以德國頂級魚油、視易適葉黃素等產品聞名的大研生醫，起初是為了自己和家人的保健需求創立，在台灣取得佳績後，大研決定將這份堅持帶向世界。而出海的首站，是保健食品發展逾百年、相當競爭的日本市場。

大研生醫出海首站就挑戰保健食品發展逾百年、相當競爭的日本市場，大研生醫董事長林東慶表示，進入日本市場真的很辛苦，但當收到日本消費者正向的回饋時，對團隊帶來很大的鼓舞。

圖／數位時代

大研生醫董事長林東慶解釋，先選擇日本，是因為當地消費者偏好網購、多居住於公寓，購物習慣、商業環境和台灣相近。至於決定透過亞馬遜進軍日本，一方面出於亞馬遜是日本使用率最高的電商網站之一。其次，在日本市場想「從 0 到 1」發展不易，溝通成本高，「但亞馬遜上的消費者，都很願意接受新東西。代表我們更容易在上面找到對的人。」

林東慶特別提到，日本保健食品市場歷史悠久，卻並非完全沒有切入機會。例如：日本延續過往經驗，原料進展未必跟上時代需求，市面的魚油濃度普遍都不足。除了端出創新的產品之外，想進入相對成熟的日本保健品市場，安全有效、建立信任是唯一真理，「大研經營的正是『信任』，信任背後代表了你的產品、服務和品牌。而亞馬遜就是過程中的最強後盾。」

大研透過亞馬遜的後台數據，從消費習慣與市場需求兩個面向，深入了解日本市場。例如，日本消費者偏好小顆粒、一天可服用多顆保健品；另一方面，日本社會因工作壓力大，助眠、舒緩情緒等產品需求也持續成長。團隊再搭配「在地製造、世界原料」的策略，讓「Made in Japan」成為敲門磚，「就和在台灣帶起『高濃度魚油』的風潮一樣，我們以國際頂級專利原料、強大的科學實證及嚴格的產品檢驗，帶起新趨勢。」

大研甚至將細節延伸至包裝、服務。比方說，日本家戶的信箱尺寸偏小，大研的包裝設計，便要確保能順利投遞進信箱；消費者認為用紙盒包裝更安全，大研也從善如流，採精緻紙盒而非美國市場的簡約瓶裝。由於在每個環節都做到極致，大研才進軍日本亞馬遜半年，就奪下 Omega-3 魚油類目排名第一，整體 BSR 也達到 1000 至 1200 名以內。

接下來，大研計劃進軍極度重視天然與健康的澳洲市場，以及競爭激烈的美國市場，林東慶強調，大研期望透過亞馬遜，將對品質的堅持帶出台灣，成為具影響力的全球品牌。

大研生醫因應不同市場消費習慣，推出日本、美國、台灣三種版本魚油產品，同樣訴求高濃度、高品質。不僅在生產上呼應其「在地製造、世界原料」的全球化策略，更配合當地市場習慣，量身定做外包裝規劃，左：日本版、中：美國版、右：台灣版德國頂級魚油）

圖／數位時代

跳脫傳統代工宿命，特力集團用數據算出市場需求

擁有 30 年歷史的特力集團，從傳統 B2B 貿易起家，如今再下一城、攻入跨境電商市場，在亞馬遜上的營收，每月穩定達到美元六位數。這背後，是一場為了解決傳統代工痛點發起的 DNA 轉型。

特力集團業務總監 Isaac Liao 指出，傳統 B2B 貿易是特力深厚且穩固的根基，但為了在全球供應鏈重組的變局中更具敏捷度，特力必須打破過去與終端市場之間的隔紗。但中上游企業打下游 B2C 戰局，最怕盲目下注或因為怕虧損而不敢試錯。特力的心法，是建立一個「基於數據的科學容錯機制」，把亞馬遜當成全球導航儀，大膽做小規模的市場實驗，算準了、看清了再重注出擊。

Isaac 透露，特力在歐美家居市場突圍的關鍵，在於用「數據」找出消費者的痛點，再據此創新產品，「中上游企業常覺得自家產品無敵，怎麼會賣不好？但在電商戰場，消費者沒搜那個關鍵字，產品再好都等於不存在。」特力是用亞馬遜的商機探測器、品牌分析工具，抓出高需求、低競爭的藍海市場，並將自家產品、競品的負評，作為研發參考。例如團隊抽絲剝繭後，發現消費者通常在購買資源回收桶時，最痛恨「異味洩漏」和「腳踏板易壞」；買烤肉推車時，則有「說明書看不懂」、「組裝太複雜」等痛點。團隊會再據此回頭改良製程、產品，並將行銷時，將這些痛點的「解方」直接放大在亞馬遜的產品頁面 A+ Content 和主圖影片中。

Isaac 特別提到，近期特力導入了亞馬遜行銷雲（Amazon Marketing Cloud, AMC），拆解完整的消費旅程。以特力在亞馬遜熱銷的烤肉推車為例，透過 AMC 的底層數據藍圖，團隊發現歐洲消費者從心動到行動平均需要三週。消費者可能在第一週看球賽時，先被特力的品牌影片廣告（DSP）吸引；第二週滑亞馬遜時，看到展示型廣告（SD）被再次提醒；直到第三週週末要辦派對了，才在搜尋框輸入關鍵字並透過商品廣告（SP）下單結帳，「AMC 讓我們看清這條跨渠道的『消費旅程藍圖』，把過去盲目砸廣告的焦慮，變成每分錢都能精算回報率的高精準 ROI 投資。」

特力已立下月營收達七位數美元的新目標。Isaac 透露，團隊正積極布局生成式引擎優化（GEO）等最新 AI 搜尋趨勢，並根據亞馬遜的後台數據，延伸家居周邊產品線，期望推動內部從「製造思維」進化為「市場和品牌思維」，讓台灣深厚的製造底蘊，能在國際零售舞台上走得更深、更遠。

在迎戰「消費升級」的此刻，台灣企業從來不缺好技術，缺的是直面終端市場的勇氣與機會。而亞馬遜提供的，不只是一套銷售工具，而是一套完整的「持續創新」能力——從全球物流、在地合規，到消費者洞察與數據分析，讓品牌得以直接理解世界各地消費者的真實需求。透過這套基礎設施，品牌能在國際市場中「快速測試、快速修正、快速成長」，把每一次迭代都變成站穩腳步的養分。台灣品牌只要願意邁出第一步，再借力亞馬遜的全球能力，勢必能在世界舞台走得更穩、更遠，實踐「Go Global From Day One」的布局。

想要挑戰跨境，讓更多人認識你的產品嗎？
立即報名 Taiwan Select Day