無論所在產業是軟體、硬體,還是屬於生產、零售或行銷,各行各業都必須隨時瞭解當今趨勢,以便跟上產業脈動。許多從業人員除了每日追蹤國內外新聞、參加產業研討會,也會藉由閱讀年度白皮書、論文等研究調查內容,來跟上產業趨勢。
然而,研究報告往往數十頁、數百頁起跳,在時間有限的情況下,是否可以運用 AI 來協助我們快速理解內容?使用時,又該注意哪些要點?本文將評比 ChatGPT 4o、Copilot、NotebookLM 3 款 AI 工具的文本閱讀能力,實測哪款 AI 最適合做為資料整理幫手,並嘗試提出合理的協作模式。
本次使用 SHOPLINE 的《2024 品牌團購全攻略》做為基礎文本,實測過程使用完全相同的資料來源、prompt,比對 ChatGPT 4o、Copilot、NotebookLM 三款 AI 的回答策略、深度與正確性。
為了符合不同性質的文本理解需求,實測將分為 3 個階段,依指令的複雜性,循序漸進進行測試:
- 第一階段「提供文本細節」:詢問資料中明確提及的數據。
- 第二階段「提出洞察分析」:賦予 AI 特定職位與使用情境,要求整理整份資料的關鍵洞察。
- 第三階段「跨文本整合」:加入第二份文本《2024 台灣網紅行銷與社群趨勢洞察報告》,要求 AI 進行跨文本的整合,比對 2 份文本的相似與相異處。
第一階段:提供文本細節
第一階段從最簡單的資訊確認開始,詢問《2024 品牌團購全攻略》明確提及的「團購成長數據」。
prompt:請問今年臺灣團購的成長狀況如何?請附上數據佐證。
ChatGPT 4o
ChatGPT 4o 的回答簡潔有力,單純呈現團購市場的數據增長。
Copilot
Copilot 除了列出成長數據之外,另外納入文本中「各產業的團購表現」。
NotebookLM
NotebookLM 除了列出成長數據之外,另外分析了文本中提到「可能導致團購市場增長的原因」。特別的是,NotebookLM 主動提醒使用者需注意資料來源的數據計算方式。
整體而言,三款 AI 的資訊辨認能力都不錯,數據也正確無誤,但是回答的深度有所不同:ChatGPT 4o 的回答較為簡潔、直接明瞭,僅回答問題本身;Copilot、NotebookLM 則是更進一步,透過連結整份資料的不同內容,做出更具深度的回覆。
經過來回實測,發現 Copilot 的「資訊架構」能力較強,擅長將資料歸納成層級分明的結構化資料; NotebookLM 則是「批判思考」能力較強,除了列出資料內容外,往往會做出批評或提醒,例如點出某數據的調查方式可能不夠公允或完整等。
在第一階段,若是需要整理資料內容,推薦生成速度較快的 ChatGPT 4o,或是資訊層級明確的 Copilot;若是需要進行進一步的分析,則建議使用會引導使用者思考的 NotebookLM。
第二階段:提出洞察分析
第二階段賦予 AI「品牌行銷顧問」的角色,任務為提供重要的產業趨勢與相關數據給客戶參考,藉此瞭解 AI 推理使用者需求的能力。
prompt:你是一名專業的品牌行銷顧問,擅長為品牌規劃銷售策略,提高客戶營收、開展新的商業可能性。目前取得一份《2024 品牌團購全攻略》資料,需要從中擷取並整理出三個最重要的洞察,提供重要的產業趨勢與相關數據給客戶參考。
ChatGPT 4o
ChatGPT 4o 提出的三大洞察分為「團購經濟成長潛力」、「品牌電商團購的顯著成長」與「與 KOL 合作的效果顯著」,每項洞察皆附上 1 至 2 項相關數據。與第一階段相同,ChatGPT 4o 提供的內容是三者之中最簡短的。
Copilot
Copilot 提出的三大洞察分別為「團購市場的巨大成長潛力」、「年輕女性消費者主導團購市場」與「品牌電商團購的顯著成長」。相比 ChatGPT 4o,Copilot 增加了一個資料階層,引用的數據資料也較多。
NotebookLM
NotebookLM 提出的三大洞察分別為「團購市場持續穩定成長,品牌電商團購表現尤其亮眼」、「網紅/KOL 合作是品牌電商團購的主流趨勢」與「品牌商家利用團購達成多重目標,包含提升業績、增加品牌曝光以及接觸精準受眾」。
NotebookLM 是三款 AI 中回答篇幅最長的,並且在每項洞察後都撰寫出「分析」,進一步說明使用者應該如何解讀各項洞察內容。
與第一階段的結果類似,ChatGPT 4o 回答最為直接簡潔,Copilot 回答的資訊結構清晰,NotebookLM 除了整理出資料內容,更針對數據提出行動方針。雖然 NotebookLM 的分析其實不算深入,但整體而言,編輯認為 NotebookLM 最符合 prompt 所提供的「使用情境」,因此實用性、完整度最高。
第三階段:跨文本整合
在第三階段,AI 除了需要處理《2024 品牌團購全攻略》,還需要整合《2024 台灣網紅行銷與社群趨勢洞察報告》,並提出兩份資料的整合與分析。本次要求 AI 提供較初階的「相似/相異」資料比對。
prompt:你是一名專業的品牌行銷顧問,擅長為品牌規劃銷售策略,提高客戶營收、開展新的商業可能性。目前取得《2024品牌團購全攻略》、《2024 台灣網紅行銷與社群趨勢洞察報告》二份資料。你的任務是比對兩份資料,提出兩份中相似與相異的趨勢觀察或數據。
ChatGPT 4o
ChatGPT 4o的回答中規中矩,純粹抓出兩份資料相似的大方向概念,實際提及的數據資料不多。
Copilot
Copilot 依然十分堅持資料階層的清晰程度,然而內容方向比 ChatGPT 4o 更加模糊,數據資料也更少。
NotebookLM
NotebookLM 提供的內容依舊最長,抓出的相似處比 ChatGPT 4o、Copilot 多出一點(網紅/KOL合作的必要性),看起來整體分析更加完整。
乍看會認為 ChatGPT 4o 的回答頗為敷衍,然而仔細觀察會發現,ChatGPT 4o 回答雖簡短,卻是唯一在數據歸納與推理方面沒有出錯的 AI。
Copilot 回覆中出現錯誤的資訊來源與推理。回覆中寫到:「《2024 品牌團購全攻略》:提到疫情期間消費者購物習慣的改變,47.6% 的消費者轉向網路購物,這推動了網紅團購的發展」,然而《2024 品牌團購全攻略》全篇研究均未提及此數據。經確認,此數據來自臺灣趨勢調查發布之《第三級警戒下防疫新生活調查》,實為第三級警戒下有 47.6% 的民眾從實體轉換為網路購買,此外,調查也並未提及此數據與網紅團購之間的關係。
NotebookLM 也出現錯誤歸納的問題。回覆中提到「兩份報告都明確指出團購市場的持續增長」,然而《2024 台灣網紅行銷與社群趨勢洞察報告》其實僅提及網紅廣告預算上升,並未討論團購市場。或許網紅廣告預算上升、團購市場持續增長兩者確實有正相關,但 NotebookLM 的歸納依然有不小的問題。
在跨文本整合這方面,ChatGPT 4o 的整合內容中規中矩;Copilot、NotebookLM 則是出現不少東拼西湊的情況,並且出問題的部分十分細微,使用者很難一眼就能辨識出來,需要多加留意、仔細檢查。
目前判斷 AI 仍然會出現錯誤,並且若沒有細心查證,細微的錯誤非常容易被忽略。因此, 目前不推薦純粹倚靠 AI 來進行跨文本的整合分析。
3 款 AI 工具,該怎麼選?如何合作?
經過本次實測,《未來商務》編輯想要再度提醒讀者,AI 並非完美,而是如同人類一樣會犯錯,如何找出最合適的協作模式,才是我們目前需要面對的挑戰。因此,目前工作者與 AI 協作時,必須將「查證」列為必備過程;此外,下 prompt 時,可以加入「請勿使用文章中未提及的資料」做為提醒,盡量避免 AI 胡亂生成或引用其他無關資料。
那麼,針對閱讀文本、整理資料類型的工作,我們應該如何在 3 款不盡完美的 AI 工具中做出選擇?綜合考量使用方便性、完整性與分析能力,若是僅需簡單、快速確認具體數據,推薦使用 ChatGPT 4o;若是需要較複雜的資訊整理,《未來商務》編輯目前傾向使用 NotebookLM,不僅因為它的回答往往完整性較高,關鍵決勝點在於 NotebookLM 會自動抓出每個數據的參考內容,方便使用者對照查證。
ChatGPT 4o | Copilot | NotebookLM | |
---|---|---|---|
回覆生成速度 | ●●● | ●●○ | ●○○ |
單篇研究的資訊正確性 | ●●● | ●●● | ●●● |
多篇研究的資訊正確性 | ●●● | ●○○ | ●●○ |
資訊分析能力 | ●○○ | ●●○ | ●●● |
跨文本整合能力 | ●●○ | ●○○ | ●●○ |
人工查證便利性 | ●○○ | ●○○ | ●●● |
延伸閱讀:實測|AI搜尋引擎Perplexity、Liner、Felo收集資料哪家強?這款還能做社群搜尋!
微軟Microsoft 365個人及家用版能用Copilot了!3步驟快速上手「AI助理」
本文授權轉載自:未來商務