Deep Research怎麼用?GPT、Perplexity、Grok大評測:誰最強?誰CP值最高?
Deep Research怎麼用?GPT、Perplexity、Grok大評測:誰最強?誰CP值最高?

各大科技巨頭近期紛紛推出DeepResearch功能,通常標榜了先進的資訊蒐集、分析與報告生成能力,但實際使用起來,究竟哪裡不一樣?

2025年1月底,中國DeepSeek問世可說是為了這場AI競賽擊發了起跑第一槍,基於R1模型的DeepResearch功能驚豔各界,更挑戰了美國在AI領域的技術主導地位。

事實上,Google最早於去年12月初率先推出基於Gemini 1.5 Pro模型的DeepResearch功能。而在DeepSeek後,包括OpenAI、Perplexity,以及由特斯拉創辦人馬斯克旗下xAI所發布的Grok3模型,陸續在2月份發布「深度研究」功能。

那麼,各家的DeepResearch功能差異為何?

《數位時代》以下將以「檔案解讀」及「開放式提問」兩大題,針對各家模型進行資料搜尋的「廣度」、「深度」、「可讀性」等維度進行整體評分,來看看對於慣用繁體中文的台灣用戶來說,哪一家的產品最實用。

要先說明的是,以下測試檔案解讀皆採用主計總處的「2024全年及12月的工業及服務業薪資統計結果」,該檔案一共34頁,並包含大量行業薪資數據。而提示詞為: 「請就檔案內容提出關鍵洞察」 ,旨在利用相對抽象的提問測試各模型對用戶需求的理解程度。

而「開放式提問」,則以歸納國內外新聞為題,具體提示詞為: 「請協助整理至今30天內的國際&台灣10大新聞」 ,旨在測試各家模型的搜尋廣度以及理解深度。

註:本次由於DeepSeek過程中一直呈現過載狀態,故未納入評測。

選手一:ChatGPT(GPT 4.5)

ChatGPT部分以GPT 4.5模型為測試,在上傳檔案之後並輸入提示詞之後,約莫在30秒之內生成出七項洞察要點。其中,較為關鍵的訊息包括「全體受僱員工的經常性薪資」,以及「12月總薪資的平均數」,均在第一點出現。

但針對薪資分布差距,僅列出中位數及年增率,雖有提到「第9十分位」與「第1十分位」比值,但卻未列出檔案中的具體數據,必須追問「請提出具體數據」才可撈出數據;行業別薪資差異部分,也僅列出最高薪行業(金融業)及部分高薪行業;而對「低薪行業」的描述則更少。

GPT4.5.jpg
ChatGPT 4.5的生成速度快,但在沒有精確提示的情況下,論述深度有賴用戶進一步提問強化。
圖/ ChatGPT

在加分項上追問「請協助列出各產業薪資中位數排名」, ChatGPT所列出的分數並未完全依照高低排列,需要用戶進一步整理才可使用 ;除此之外,在評測時雖然輸入繁中提示詞,原始資料也是中文,但ChatGPT多次都以英文回覆,需要請他「說中文」,才會把生成結果翻譯成中文。

GPT排名.jpg
要求GPT 4.5整理數據排名,有子母項目混用的問題,導致數據未依照高低排序。
圖/ ChatGPT

而在新聞搜尋方面,GPT確實有理解「至今30天內」為2025年2月10日至3月12日, 但在新聞內容上信度頗低,有過度簡化(例如:全球通脹壓力持續,多國面臨高通脹率),甚至是引用維基百科,把2024年的花蓮強震當作新聞露出。

選手二:Perplexity(DeepResearch)

Perplexity的深度搜尋特色是生成內容結構化完整,更像是由人類寫出來的報告。舉例而言,包括經常性薪資平均數及成長率,以及成長因素,再到各產業差異發展,論述的架構要更為理想。另外,夾帶檔案後的生成時間約莫在30秒以內。

值得注意的是,Perplexity會自動在各標題上產生連結,方便用戶點擊,針對有興趣深入研究的項目進一步追問,相較ChatGPT更為人性化。

per結構.jpg
Perplexity深度研究的論述結構完整。
圖/ Perplexity

而在加分項上追問「請協助列出各產業薪資中位數排名」, Perplexity就會自動歸納檔案中的表格,並附上「中位數/平均數比」,以及各產業年增率,甚至提出「前三大高薪產業占總受僱人數僅8.74%」等更深入經過推論的洞察 。但Perplexity的表格僅列出薪資中位數前12高,同時仍有部分排名錯置的問題(更低的排名卻較高),不過正確性無誤。

per中位數排名.jpg
Perplexity整理的表格各自正確性無誤,但排名未依照高低順序。
圖/ Perplexity

而在新聞搜尋方面,Perplexity對國際新聞的表現比台灣本地新聞更理想,前五條確實為近一個月內的國際要聞,但第六名之後就有報題重複,以及納入2024年末新聞的狀況;台灣新聞方面,可從引用資料察覺AI大量引用國內媒體的2024年回顧新聞,因此時效性幾乎都與提示詞不太吻合。

per國際新聞.jpg
Perplexity的國際新聞排名,多為政治經濟議題。
圖/ Perplexity

選手三:Gemini(DeepResearch with 2.5 Pro)

實測時發現, Gemini的DeepResearch無法夾帶檔案(測試帳號為Advanced版) ,因此改用唯一可夾帶PDF檔的模型2.0 flash進行測試。

結果發現,Gemini的生成結果類似GPT 4.5,採以列點的方式將重點摘要出來,雖在資料正確性上無誤,但並未將大量資料結構化,導致可讀性偏低,若用戶本身對於這類型資料沒有基礎概念,不容易在生成結果上產生深入洞察。

GEM檔案輸出.jpg
Gemini的資料處理能力與ChatGPT雷同,精準、快速,但深度不足。
圖/ Gemini

而在加分項上追問「請協助列出各產業薪資中位數排名」,Gemini確實依照金額高低,將列入統計數據逐一列點排出。

值得注意的是,由於原檔案內有部分產業分成母項與子項, 例如「批發及零售業」底下,還可細分為「批發」及「零售」兩項,而Gemini選擇將母項(兩項子項加總)排除,因此在排名上更為直觀,也是在加分項上贏過CahtGPT的關鍵。

GEM加分.jpg
Gemini重組資訊的能力尚算可靠,用戶可進一步提示優化。
圖/ Gemini

而在新聞搜尋方面切換回DeepResearch,Gemini的亮點是,可以在生成結果之前「編輯研究計畫」,Gemini會列出研究題目的各種項目,協助用戶提出更精確的研究架構。而若回應「不用更動」,就會依照計畫生成結果。

GEM計畫.jpg
Gemini可以再生成前優化提示,或可取得更好的成果。
圖/ Gemini

生成出爐後,Gemini的優勢是與Google文件整合度高,因此可以直接將成果輸出,方便用戶取用。 但第一版生成結果雖以中文提問,卻是以日文顯示成果,必須進一步請AI顯示中文。(應與引用資料為日文有關)

而在新聞選擇上,國際新聞的時效性更為精準,主題大多以地緣衝突與選舉為主。 這點可以從引用資料來源有限觀察到,Gemini生成國際要聞僅引用3條來源,應該是主題雷同的關鍵 ;而在台灣新聞方面,一貫的引用舊文、過度簡化問題也有發生,甚至有蘇貞昌擔任行政院長時期的新聞。

Gemini新聞.jpg
Gemini歸納新聞的能力有待加強。
圖/ Gemini

選手四:Grok(Grok 3)

在夾帶檔案之後,Grok的特色是會跑出一連串的推論過程(Perplexity也有這個過程),可發現AI確實一步一步的透過提示詞擬定生成內容,並有強調「必須驗證關鍵訊息」。 但Grok生成也耗時相對久,前後約為4分鐘。

首先,Grok的資料結構化功能相當完整,內容優先擷取關鍵訊息,包括「薪資增長」、「行業差異」與「就業動態」,並在往下的篇章逐一描述原因。例如: 「住宿和餐飲業薪資最低,為30,960新台幣,反映了非典型員工比例較高的影響。」

GROK洞察.jpg
Grok的資料結構能力,與Perplexity相當,甚至更理想一些。
圖/ Grok

令人眼睛一亮的是,Grok生成的第二部分是「詳細報告」,其中針對「行業特定數據」進行分析(在沒有進一步提問的情況下),自動將「中位數經常性薪資」依照高低排名,並附上年增率數據(但部分產業數據有遺漏),內文也有進一步高薪行業的背景因素概略說明。

GROK薪資中位數.jpg
Grok的初次生成結果不俗,但部分資料有遺漏問題。
圖/ Grok

而在加分項上追問「請協助列出各產業薪資中位數排名」,Grok在推論接近10分鐘後仍未產出結果。經查詢推論過程, Grok卡關的關鍵在於無法理解中文「中位數」跟「平均數」的定義,而被AI認為是相同的值而產生混亂。

在經過將近13分鐘的推論後, Grok列出一份清單,但「中位數」與「平均數」混淆的問題並未解決。經過思維過程查詢,該表中的「年增率」是Grok利用各產業2024年每個月的總表推論運算而成。 雖然Grok疑似因中文能力而造成錯誤推論,但其推論功能令人眼睛為之一亮。

GROK行業排.jpg
Grok雖然沒有生成正確的表格,但推論過程顯示了改善中文問題後的潛力。
圖/ Grok

來到新聞搜尋環節,Grok與其他AI模型差異頗大,它在新聞篩選上首先考慮了選材多元性。在國際新聞上,烏俄停火被認為是最大頭條,而德州野火則被選為第二名。第三名以後陸續有AI突破、美股下跌等要聞,但與其他家模型一致的是有過度簡化描述的問題,導致參考度不高。

而在台灣新聞方面,Grok甚至指出 「假設3月有總統選舉,結果可能主導新聞走向」 ,可以說凸顯Grok活躍的推論能力,反而可能導致蒐集客觀訊息的能力存在重大偏差。就結論上來說,一樣是國際新聞比台灣新聞更具參考性。

GROK台灣新聞.jpg
Grok在新聞歸納上不盡理想。
圖/ Grok

結論:Perplexity最泛用、Grok推論活躍、Gemini與ChatGPT持平

根據測試結果,各模型在「廣度」、「深度」及「可讀性」三個維度上各有優劣:

ChatGPT(GPT 4.5)

優勢 :反應速度偏快,生成內容重點清楚無誤,數據準確性高。

劣勢 :資料結構性偏低,且對繁體中文支持不足(需多次提醒使用中文),新聞搜尋時效性不佳。

適用場景 :適合需要快速獲取概要資訊的用戶,但對深度研究需求較高者可能不夠理想。

Perplexity(DeepResearch)

優勢 :生成內容結構化程度高,提供深入洞察,且自動生成表格輔助理解,頗為好用。

劣勢 :部分排名仍有錯置問題,台灣本地新聞時效性較差。

適用場景 :適合需要結構化報告與深入分析的用戶。

Gemini(2.0 flash + 1.5 Pro)

優勢 :資料正確性高,生成結果直觀,且可手動優化提示詞,與Google生態系統整合度佳。

劣勢 :無法處理複雜結構化數據,搜尋廣度略低,可讀性較低。

適用場景 :適合簡單資料整理,與重度Google生態系用戶。

Grok(Grok 3)

優勢 :推論過程透明,資料結構化能力最強,且具備活躍推論能力,潛力可期。

劣勢 :處理速度相對慢,對中文詞彙的理解存在偏差,比其他模型明顯更差。

適用場景 :適合需要透明推論過程與多元視角的用戶,但需容忍較長生成時間。

若從訂閱費的CP值角度出發, 目前Gemini、Grok、Perplexity都開放免費用戶試用Deep Research功能 。至於ChatGPT則僅開放Plus方案以上用戶使用,得購買每月20美元方案才能解鎖。

Gemini、Grok、Perplexity雖開放免費使用,但要注意的是次數有限,且有上下文窗口的token限制;目前,Gemini advanced可透過訂閱「Google One AI」使用,月費為新台幣650元;Perplexity Pro訂閱費也是每月20美元;Grok的超級方案則為每月30美元。

不能只靠AI!「人機協作」是優化關鍵

而在評測4家深度搜尋功能後,可以確定的是,目前AI工具的最大貢獻在於免於人類一次性的讀取大量資料,並從中歸納出重要數據,或是代勞部分製表的工作時間,對於需要快速產出數據精華的用戶而言,十分實用。

但在資訊歸納上,AI的資料結構化能力仍有待加強,尤其是在提示詞較為模糊的情況下,會讓AI的推論能力難以發揮;除此之外,AI在梳理資料或是推論上,仍有不低的機率產生錯誤,因此逐一查核數據正確性非常重要。

因此,若用戶要對資料提出更深入的洞察與詮釋,建議還是在充分閱讀資料後,不斷與AI對話並隨之調整提示詞,才可獲得更理想的成果。

最後必須聲明,這份評測是在相當有限的條件限制下推導出來的結果。換言之,任何人使用不同提示詞,都可能會得到更理想的結果,故本文的評測結果有一定侷限。

延伸閱讀:台積電傳找輝達、AMD、博通「合資經營」英特爾!台積持股比率不超過50%
影片|Perplexity教學|讓資料搜尋更簡單的AI!免費版Perplexity怎麼用?4大優點、中文設定一次看

責任編輯:李先泰

本文不開放轉載

往下滑看下一篇文章
AI顛覆零售行銷!SAP Emarsys如何助品牌在智慧零售時代,面對品牌轉型挑戰
AI顛覆零售行銷!SAP Emarsys如何助品牌在智慧零售時代,面對品牌轉型挑戰

2025 SAP Emarsys 行銷高峰會日前盛大登場,對談聚焦「AI × 智慧零售 × 個人化數據」三大核心議題,邀集零售、顧問與科技領域專家齊聚一堂,透過一系列主題演講與實務對談,深度剖析品牌如何在生成式 AI 與數據浪潮下加速轉型、強化顧客關係。

現場不僅邀請SAP Emarsys大中華區總經理林彥菁分享AI時代下,如何善用工具抓住消費者的心,並邀請到Deloitte勤業眾信科技與轉型服務事業群資深執行副總經理張益紳、SMCP區域數字化發展及營運總監黃灝良、萬達寵物行銷長何文君、SAP Emarsys資深客戶成功經理李婉琪,以及SAP Emarsys台灣商務代表陳聖文,藉由應用實例與行銷科技實戰經驗,為品牌在AI時代,協助開啟更具洞察與行動力的轉型藍圖。

SAP
Deloitte勤業眾信科技與轉型服務事業群資深執行副總經理張益紳
圖/ 數位時代

吸引消費者難度飆升,靠SAP Emarsys落實超個人化

2025年2月,Deloitte與SAP攜手完成一份全球消費性產品互動報告,當中提及5大關鍵趨勢,包括:吸引與留住消費者越來越難、AI與個人化成為創新的主推力、消費通路多樣化與不確定性、Dark Data造成的困擾,以及Z世代行為的轉變。

張益紳引述報告內容指出,77%的行銷人員認為必須改變與消費者互動的方式,76%認為要比以往更快速地適應市場變化,而這些都指向同個方向:「AI是提升效率、洞察行為的關鍵工具」。AI時代品牌要突圍,就必須將個人化體驗升級,走向「超個人化」,把每個消費者視為獨立個體,藉由SAP Emarsys等行銷科技工具,企業可更快速落實個人化體驗,真正讓AI成為品牌與顧客之間的橋樑。不過他也提醒,AI雖然能提升效率,但最終仍須仰賴人工把關品質。

談到個人化,李婉琪說到,許多企業初次導入SAP Emarsys所服務面對的第一個挑戰,就是數據來源過於分散,「比如線上、線下、LINE、會員資料都分開,要做 Machine Learning 就會有難度。」因此,SAP Emarsys團隊會先協助客戶整合多元資料,讓後續的AI分析與客戶旅程規劃更有效率。

她建議企業在選擇AI工具時,「必須清楚導入這套工具的核心目的,也要看這個平台未來是不是有持續優化、能整合、夠穩定。」SAP Emarsys的服務剛好都符合這些特點,能讓品牌無後顧之憂。

SAP
SAP Emarsys大中華區總經理林彥菁
圖/ 數位時代

SAP Emarsys在AI應用已有具體實踐,助顧客加快行銷速度

隨著全球零售加速進入數據驅動時代,該如何在短時間內抓住消費者眼球?林彥菁剖析:「從行銷人員的角度,現階段品牌只有黃金9秒的時間跟客戶互動。」 品牌必須從各式平台,抓住客戶的忠誠度,行銷人員也要從不同的角度出發,去設計策略與顧客互動。她舉例,像「登記保固」可以促進忠誠度,「QR Code」可帶來二次銷售,甚至從一個人的購物行為延伸到另一個人、從線上帶到線下,都是行銷人員可以觸發互動的時刻。SAP Emarsys提供「行銷自動化」的平台,能串接不同管道,幫助品牌跟客戶互動。

SAP Emarsys在AI應用上,已有不少具體實踐。包括提供15種以上的「預設報表模板」,能夠節省資料整理時間,並導入「自然語言儀表板」,讓企業的非技術人員也能自定義查詢與分析。AI能搜尋最合適產品、推薦熱門主題行銷內容。SAP也計畫推出新產品「SAP Joule」,整合ERP、供應鏈等,透過Agent溝通生成指令,幫助企業快速達成預期業務成果,協助品牌發揮AI整合應用的效益。

林彥菁強調:「AI或現在經常在討論的ChatGPT,就是可以幫大家做到「Time to Market」或者「Time to Value」,節省大家操作的時間。」SAP Emarsys的角色,就是幫助品牌整合跨通路資料、串接SAP生態系產品,並透過AI與行銷自動化功能,節省客戶團隊日常操作與內容產製的時間,加快行銷反應速度。

SAP
萬達寵物行銷長何文君
圖/ 數位時代

SAP Emarsys合作,萬達寵物繳出漂亮成績單

沒有好的AI工具有多痛苦?黃灝良指出其在剛加入這個品牌時發現的4個核心問題,包括資料分散、CRM與顧客資訊斷裂、前線銷售缺乏工具與洞察、競爭對手在數位轉型領先等。他強調,在公司內同樣是「轉換」,每個部門的定義卻不同,「同企業要唱同一首歌,講同一種語言才行。」因此,資料定義、公司管理非常重要,而且智慧零售不是只有科技,更關鍵的是用數據建立信任。他說:「我們要求團隊每一次與顧客互動,都要成為一個可以產生轉換的行動。而這一切的基礎,是要先與他互動建立關係。」

目前有不少企業都已經享受到使用SAP Emarsys的好處。何文君指出,旗下擁有超過126間「寵物公園」實體門市的萬達寵物與SAP Emarsys合作後,寫下亮眼的成績單,包括:客戶流失率下降、回購率成效翻倍、高忠誠黑卡會員人數也因此倍數成長。

萬達寵物透過SAP Emarsys的系統,針對會員的年齡、養寵類型、交易商品、品牌偏好、來店頻率、購買時段等資料建模,描繪出一條條購物旅程腳本,建立超過1000種會員輪廓。何文君認為,好的CRM就像GPT,能不斷學習、測試、優化,萬達寵物在與SAP Emarsys的CRM上合作能成功,也仰賴有好的系統支撐,加上有耐心的團隊,去debug解決問題。

SAP
SAP Emarsys台灣商務代表陳聖文
圖/ 數位時代

SAP Emarsys解決企業個人化行銷的痛點,助品牌在AI時代進化

整場活動中,雖然不斷提到AI時代個人化的重要性,不過陳聖文也提醒道:「如果線上、線下資料整合不全,就會形成數據孤島,讓個人化非常不精準。」數位時代總編王志仁也形容數據孤島就如同「地圖上看2公分,但實際行軍要200公里。」表面上資料彷彿已經齊備,實際上部門之間缺乏整合,數據無法流通、無法即時應用,導致企業決策像是在迷霧中摸索前行,耗時又低效,而SAP Emarsys的系統能整合非常多資料,包括原生的ERP,以及品牌的官網、APP等,讓內部的黃金數據不會被遺漏。

陳聖文指出,最重要的還是「原生雲」的整合、將線上、線下過去的資料都先整回來,再去想如何與消費者做溝通,將LINE、網站、廣告全都當成溝通場景。他也提醒,若設定的時候有一個節點沒處理好,就可能成資料孤島。畢竟,在AI驅動的行銷時代,唯有將資料真正整合,讓每一次溝通都建立在用戶行為之上,品牌才能精準觸及受眾、創造實質轉換。SAP Emarsys也會持續協助零售品牌,在AI時代更進化。

歡迎下載 SAP Emarsys: 全球消費性產品互動報告 | 台灣版

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓