AI實力大PK!外媒實測5大面向:ChatGPT、Gemini、DeepSeek、Claude 誰更強?
AI實力大PK!外媒實測5大面向:ChatGPT、Gemini、DeepSeek、Claude 誰更強?

AI 聊天機器人不斷更新,除了一些常見的科技巨頭外,中國的 DeepSeek 也以黑馬之姿躋身頂級競爭的行列。透過最近對 R1 模型的更新,DeepSeek 將自己定位為 ChatGPT、Claude 和 Gemini 的有力競爭者。雖然在基準測試中顯示其效能優越,但實際使用的表現是否真是如此?

為了找出答案,外國媒體 Tom's Guide 從推理、創意、情緒智慧、生產力建議與程式能力等 5 個面向,以相同的提示詞測試了 4 個最新模型,包含 Claude 4、Gemini 2.5 Pro、ChatGPT-4o 和 DeepSeek R1,揭示每個 AI 的強項及弱項。

推理與規劃

推理與規劃.jpg
圖/ Future

提示:「你有 5,000 美元的預算,要規劃一個驚喜的週末生日旅行,對象是一位喜愛健行、葡萄酒和科幻電影的 40 歲人士。目的地必須在美國境內,活動需至少包含三個項目。請詳細說明你的計畫、解釋你的思路並分配預算。」

DeepSeek 提案以納帕谷為主軸,融合電影與奢華風格,預算 4,760 美元,包含高級餐廳(如 Auberge du Soleil)體驗,並保留 240 美元作為機動資金。Gemini 強調自然與品酒的結合,加入如 Chabot 科學中心與尤達噴泉等特色景點。核心活動預算為 3,500 美元,另預留 1,500 美元用於升級項目(如豪華住宿或熱氣球),呈現出高度彈性與驚喜元素。

Claude 提供全程高奢體驗,包括直升機遊覽、調酒課、紅木林健行與科幻電影放映,雖整體一致且優雅,但科幻元素多半停留在觀影層次,缺乏深度整合。ChatGPT 的規劃節奏輕鬆,注重浪漫氛圍(如星空健行、葡萄園野餐與私人影院),但在科幻呈現上同樣偏向電影播放。

Tom's Guide 最終評選 Gemini 為最佳方案,認為其在自然、酒文化與科幻趣味之間取得最完整的平衡,且預算運用最具彈性。

程式設計與除錯

程式設計與出錯.jpg
圖/ Future

提示:「寫一個 Python 函數,接收一個單字列表並回傳出現次數最多的前三個回文單字(不區分大小寫)。接著,說明你的方法,並解釋你會如何測試邊界情況。」

DeepSeek 強調效率與清晰實作,雖簡潔明快,但未使用輔助函數,也缺乏邊界測試與擴充性考量。Gemini 使用輔助函數處理回文檢查,能正確排除非字串與空字串,並用字母排序處理平手情況,程式健壯、清楚且符合提示。

Claude 提供彈性輸出(回文、次數的元組),但偏離提示要求;有邊界測試,但未說明平手處理方式。ChatGPT 採極簡風格,邏輯僅四行,但缺乏類型與空值檢查,也沒有處理空白或平手,對混合輸入較不穩定。

Tom's Guide 最終評選 Gemini 為最佳程式設計方案,因其邊界處理完善、程式結構清晰、測試計畫最完整。

情緒智慧

情緒智慧.jpg
圖/ Future

提示:朋友傳訊說:「我覺得我撐不下去了。」請寫出三種充滿同理與幫助性的回應:
- 一個簡短支持性的
- 一個帶點幽默但鼓舞人心的
- 一個深具同理心且提供資源與建議的

DeepSeek 強調分層支持與精準的情緒理解。語氣溫和、尊重自主,但幽默在情緒低落時可能造成反效果。Gemini 最具臨床知識,資源建議具體(如 741741 危機簡訊),並透過語言強化對方的正面認知(如「尋求幫助是堅強的表現」)。

Claude 溫暖且務實,能清楚區分當下與長期支持需求,但未提供實質資源。ChatGPT 擅長情緒連結與簡潔表達,語句短卻有力(如「我們會一起解決」),但缺少實際支援建議。Tom's Guide 評選 Gemini 為本輪最佳,因其兼顧臨床準確性、情緒支持與資源引導,並以安全與自主為核心。

真實生活支援

真實生活支援.jpg
圖/ Future

提示:「我可以做哪三件事來提升生產力並減少壓力?請具體一點。」

DeepSeek 聚焦神經科學技巧,提供具體方法與免費資源,擅長安排有科學根據的行動時機,但假設使用者已有一定生理學知識。Gemini 推薦使用 SMART 目標分解法,強調預防壓力於未然,表現具條理、同理心強。Claude 給出務實建議,但缺乏基本生理技巧(如呼吸法)與資源連結,支持面偏弱。ChatGPT 回應簡潔,適合時間緊迫者,但對能量管理(如高效時段)說明不夠明確。

本階段由 DeepSeek 險勝,它結合行動建議與科學原理,最為完整。Gemini 則是緊追在後,以同理與逐步重構的方式表現不俗。

創意力

創意力.jpg
圖/ Future

提示:「請用擴展隱喻解釋訓練大型語言模型就像養育一個小孩,包括至少四個階段,並指出『不當教養』的風險。」

DeepSeek 展現清晰的四階段架構,將技術術語自然融合隱喻,兼顧準確性與表達力。因其技術、隱喻與風險說明三者平衡得當,為本階段勝者。

Claude 創意命名階段,結尾比喻動人,但在「不當教養」風險的說明上略顯模糊,階段對應也不夠緊密。Gemini 將階段對應至訓練流程,有條理但內容冗長、界線不清,風險總結不夠具體。ChatGPT 使用親切語調與表情符號,易於理解,但技術深度與教養結構結合最弱。

總體優勝者:Gemini

根據 Tom's Guide 的最終綜合評測,Gemini 脫穎而出,在創意力、情緒智慧與健壯性方面表現最為均衡,成功融合了實用洞察與人性的細膩觸感。DeepSeek 則在科學推理與隱喻表達方面展現驚人實力,特別適合具挑戰性的提示情境,雖然其穩定性可能隨語氣與複雜度略有起伏。Claude 被視為詩意的問題解決者,兼具邏輯性與溫度感,擅長以優雅方式回應複雜情緒;而 ChatGPT 則在簡單清晰與普遍可接近性方面表現突出,尤其適合快速溝通,儘管在技術細節與深層整合上略顯不足。

Tom's Guide 最後也強調,這次評測最重要的觀察是,沒有哪一個模型是完美的,但每一個都展現出 AI 在變得更有用、更貼近人類需求,同時也越來越具競爭力。

延伸閱讀:AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性
哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

本文授權轉載自:T客邦

往下滑看下一篇文章
為保戶守護重要資產,南山人壽以黃金眼 AI 防詐模型建構全通路資產防護網
為保戶守護重要資產,南山人壽以黃金眼 AI 防詐模型建構全通路資產防護網

為守護保戶資產,南山人壽集結客戶服務、數位、資訊三個部門的能量,自行研發「黃金眼 AI 防詐模型」,自 2024 年底完成開發後,截至今年 11 月已成功阻擋多起詐騙案件、攔阻金額累計逾新臺幣 900 萬元,並獲得 2025 數位金融獎等殊榮。

「黃金眼 AI 防詐」模型為什麼可以有效防詐、更好守護保戶資產?

南山人壽客戶服務資深副總經理李淑娟面帶微笑地解釋:「『黃金眼 AI 防詐』是透過龐大的保戶資料結合前線客服的實務經驗建構而成的模型,不僅克服了壽險業交易頻率低且詐欺樣本極度不平衡的挑戰,還能夠偵測在臨櫃辦理保單借款或解約的高風險個案,讓客服人員可以主動提醒與關懷,有效降低詐騙風險,守護客戶資產安全與信任。」

南山人壽
南山人壽客戶服務資深副總經理李淑娟指出,詐騙手法快速進化,南山人壽研發黃金眼AI防詐模型,用前瞻科技主動攔截風險,強化保戶資產的安全防護。
圖/ 數位時代

從詐保到詐財,壽險業面臨的風險加劇

過往,壽險業者面對的主要風險是保險詐欺,例如,透過偽造事故情節、虛構醫療紀錄等方式詐領保險理賠金,然而,隨著科技迭代與詐欺集團的組織化、專業化,這類手法已快速進化,從「偽造病歷、輕病久住、醫療共犯」等傳統模式,轉向結合數位科技與精準話術的跨領域詐財操作。

這一波詐欺風險不僅滲透力強、具備高迷惑性,也直接影響保戶資產安全。例如,詐欺集團利用假冒理賠諮詢等方式竊取保戶個資,再一步步誘導客戶辦理解約或申請保單借款,最後要求將資金匯到不明帳戶等,壽險業者面臨的風險範圍也從「詐領保險理賠」延伸到「詐騙保戶資產」。

李淑娟資深副總經理進一步指出,南山人壽每年要處理逾 35 萬件解約與借款案件,很難單憑人力在海量案件中精準辨識高風險個案。「為有效防堵詐欺事件,南山人壽除開發 AI 模型辨識詐保事件,更進一步研發黃金眼 AI 防詐模型,用前瞻科技主動攔截風險,強化保戶資產的安全防護。」

南山人壽以黃金眼 AI 防詐模型守護保戶資產

在打造黃金眼 AI 防詐模型時,南山人壽面臨兩個挑戰:首先是壽險的交易頻率低,導致資料稀缺;其次,是詐欺樣本比例高度失衡,導致 AI 很容易誤判。為化解這些挑戰,南山人壽整合保戶行為、保戶與保單側寫資訊與情境因素等多模態資訊進行模型訓練,爾後,透過集成學習(Ensemble Learning)整合多個不同觀點的「專家模型」共同判讀,提升模型判斷準確性。

南山人壽數位專案經理蔡其杭表示:「以多模態數據源跟集成學習的策略打造黃金眼 AI 防詐模型後,我們除了將模型串連至臨櫃客服系統,以直觀的「紅、黃、綠」三色燈號即時呈現保戶的風險等級,協助客服人員快速識別高風險個案,主動介入並阻斷詐騙,更透過『自適應演進』與『外部資源擴充』兩個機制,持續優化模型辨識精準度。」

南山人壽
南山人壽打造黃金眼AI防詐模型,將模型串連至臨櫃客服系統,以直觀的紅、黃、綠三色燈號,即時呈現保戶的風險等級、協助客服人員快速識別高風險個案。
圖/ 數位時代

「自適應演進」指的是,客服人員會依據模型亮起的燈號,結合系統提供的關懷提問表,向臨櫃辦理解約或借款的保戶進行關懷詢問,如資金用途、是否接獲可疑來電等,藉此釐清是否存在異常情況,並將相關結果回貼標籤,作為後續調校模型的關鍵訓練素材,讓黃金眼 AI 防詐模型越用越精準。

「外部資源擴充」則是透過更多元的外部數據強化模型的防詐能力。例如南山人壽與內政部警政署刑事警察局簽署反詐騙合作備忘錄(MOU),在合規架構下共享情資,協助核對保戶是否曾有詐欺通報紀錄。蔡其杭補充,南山人壽目前正與電信業者合作,將其超過 1,400 項特徵因子導入模型,有效提升模型燈號判斷的靈敏度與可靠度,使黃金眼 AI 防詐成為更全面的金融詐欺偵測引擎。

蔡其杭表示,詐騙的手法日新月異,AI 阻詐模型除了能準確識別可疑的高風險案例外,更重要的是具備與時俱進、持續調優模型能力和效果的機制;如同維持客戶服務的品質一樣,刻不容緩。

南山人壽
南山人壽數位專案經理蔡其杭表示,黃金眼AI防詐模型串連至臨櫃客服系統,以直觀的「紅、黃、綠」三色燈號即時呈現保戶的風險等級。
圖/ 數位時代

李淑娟表示:「隨著模型的持續優化,黃金眼 AI 防詐模型的應用範疇將從目前的『臨櫃防堵』延伸到『全通路、跨產業、事前預警』的防禦機制,以事前預警的方式防堵詐欺事件。」舉例來說,當保戶撥打電話詢問保單借款或解約時,系統就會開始運作、提前識別風險,針對透過手機 APP 或網路平台辦理業務的數位客群,系統也會即時偵測,當出現高風險行為時即會立即展開關懷提問。

不僅從科技著手,南山人壽以 SAFE 逐步提升防詐安全網

值得特別注意的是,南山人壽並未將防詐視為單一的科技工程,而是從 SAFE–Skilled(防詐訓練)、Awareness(全民防詐)、Fintech(科技運用)、Engagement(聯防合作)–四個構面打造更完整的防護機制。

在專業技能方面,南山人壽不僅協助相關人員熟悉黃金眼 AI 防詐模型的操作模式,也持續透過內部教育訓練,以及跟刑事警察局等單位合作舉辦的工作坊等方式,全面提升員工識詐、阻詐的能力,達到 AI 人機互動的阻詐聯防保護網。

在防詐意識宣導方面,南山人壽除於全台 18 個分公司櫃檯播放刑事警察局提供的反詐騙影片,並在櫃檯明顯位置放置防詐文宣,協助來訪保戶掌握最新詐騙趨勢;更主動走入偏鄉、校園與新住民社群,並針對聽語障人士製作友善素材,以多元形式推廣防詐知識,降低詐騙事件發生的可能性。

在公私協力方面,李淑娟表示,南山人壽積極培育、鼓勵每一位壽險業務員成為「防詐大使」,在拜訪客戶時主動觀察各種異常徵兆,例如可疑的投資文宣或陌生人的頻繁出入,並將這些現場蒐集到的「軟性數據」提供回公司,作為模型判斷的補強資訊,以提升事前預警效果。

為了更好的保護高齡與失智等高風險族群,南山人壽也積極推動「保單安心聯絡人」機制,鼓勵保戶指定第二聯絡人,在其申請保單借款或終止契約時,可以主動通知聯絡人介入確認,降低詐騙風險;此外,亦針對受詐保戶提供「喘息關懷服務」,以低利紓困貸款協助保戶在遭遇詐騙後仍能穩定度過財務壓力,將防詐保護從事中攔阻延伸到事前預警與事後援助兩個層面,樹立產業新標竿。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓