要對戰GPT-4的文心一言,實測結果如何?畫一幅「林黛玉」很行、寫程式卻翻車
要對戰GPT-4的文心一言,實測結果如何?畫一幅「林黛玉」很行、寫程式卻翻車

熱乎的文心一言測評報告出爐了!雖然有些任務被打趴,但論中國文化的博大精深,它可不輸GPT-4。

昨天,百度沒有現場demo的發布會,似乎被嘲笑了一波。

百度
圖/ 網易科技

一位穿白襯衣、黑褲子,系一條白色腰帶的美男子,給我們帶來了一場中規中矩、似乎缺乏亮點的演示。

文心一言
圖/ 網易科技

不過,CEO的腰帶和「顏值」倒是引起討論。

文心一言
圖/ 網易科技
文心一言
圖/ 網易科技

有人調侃,這些天被ChatGPT、GPT-4搞得很焦慮的人,發布會後忽然又覺得自己可以了。

但是拿到測試碼的小編,火速測評了一波。

看著文心一言洋洋灑灑騰蛟起鳳,感慨萬千:或許,當時百度要是心一橫,牙一咬,願意在發布會上露一手,結果會大不一樣。

實測報告火熱出爐!

先來試試最近很火的一個雞兔同籠題。因為這題目本身有問題,算出來結果是負的,所以經常被用來調戲各種「ChatGPT」們。

如果只是單純問這個問題,文心一言會非常機智地說:這道題出錯了吧!

然而,當你問計算過程的時候,還是寄了……

文心一言5
圖/ 網易科技

而GPT-4這邊則是,自己把自己的計算推倒重來了好幾遍之後,理不直氣也壯地給出了錯誤答案……

文心一言6
圖/ 網易科技

而Bing則很乾脆,毫不猶豫地給出了錯誤答案。

文心一言
圖/ 網易科技

還有這次意外火出圈的「V50」梗,文心一言從意思到出處一本正經地解釋了一遍。

文心一言
圖/ 網易科技

但GPT-4顯然就有些水土不服了……

文心一言
圖/ 網易科技

不過能上網的必應,還是可以輕鬆搞定的。

文心一言10
圖/ 網易科技

但是到諧音梗這裡,文心一言似乎並不能馬上領悟其中的微妙。

文心一言
圖/ 網易科技

即便提示這是個諧音梗之後,它依然輸出了一樣的答案。

文心一言
圖/ 網易科技

而GPT-4,立馬就明白了中文裡的雙關。

不過,你要是問文心一言懂不懂什麼叫「麻了隔壁」,就有意思了。

文心一言
圖/ 網易科技

看回答吧,它能說出這是個諧音梗,應該是懂了。但是呢,它又不明說,哎,就是讓你挑不出錯,絕對教不壞小孩。

而GPT-4卻無法get到這個梗,果然,外國的機器人理解起來確實有難度。

文心一言15
圖/ 網易科技

接下來讓(忽悠)文心一言重覆我們說的話,雖然沒有像GPT-3.5回答「您是智障」那麼聰明,但也成功避開這個坑。

文心一言
圖/ 網易科技

從某種程度上說,智商還是在線的,並且十分正能量。

老婆的話好像管用,好像又不管用....

文心一言
圖/ 網易科技

另外,讓它們互相給對方出難題。

文心一言
圖/ 網易科技

可以看到,GPT-4給出的問題相對更直觀,顆粒度也更細。

文心一言
圖/ 網易科技

美術功底如何?

文心一言是個多模態模型,那咱們來看看它的繪圖能力。

來看看金庸筆下的美艷少婦,在文心一言筆下會是什麼樣子。

文心一言20
圖/ 網易科技

這……小編一口水噴出來。

你別說,美吧,肯定不夠美,但也並不醜,是一張初看捧腹、細看值得反覆琢磨的臉。

文心一言,就喜歡你這不按套路出牌的樣子!
那讓文心一言生成一幅林黛玉的畫像吧。
輸入描述後,它生成了一棵柳樹……

文心一言
圖/ 網易科技

於是小編明確了一下要求,要按這段文字生成一幅女子的畫像。
然後文心一言確實畫出一位古典美女,但氣質明顯不對。

文心一言
圖/ 網易科技

不死心的小編多次重覆任務,你別說,試到第五次的時候,小編眼前一亮:終於得到了一張可以打70分的圖!

玩上癮的小編,非要生成一個90分的林黛玉不可。試了幾次之後,果然蹲到了!
可見,文心一言的發揮不穩定,但多番嘗試下,有可能誕生非常驚豔的作品。
既然都到這兒了,那怎麼少得了「林黛玉倒拔垂楊柳」呢。

比較亮點的圖,都給大家貼這兒了。

要求它畫一張鴨子和兔子的合體,這生成的是鴨還是兔呢?

文心一言
圖/ 網易科技

而這個任務中,恐怕文心一言也沒有搞明白,盤子裡到底有沒有香蕉?杯子裡有沒有柳橙汁?

圖
圖/ 網易科技

最後,既然文心一言強烈推薦我們嘗試「晶瑩剔透的牡丹花」,那就畫幾張試試吧!

圖
圖/ 網易科技

不愧是「代表作」,有點東西。

專業知識和生產力

既然是評測,怎麼能少的了讓AI寫程式這個環節。這次,我們直接來個難的!
可惜,文心一言一上來就錯了,而且同一個句式還被非常詭異地重覆了三遍。TypeScript編譯器概念更是「貫穿全文」,有點像一個只知道一到兩個專業詞彙的人在面試中硬答。

文心一言
圖/ 網易科技

而GPT-4的回答,從一個了解相關背景但是沒有相關操作經驗的人的角度來看,是非常合理的。

它不僅完整的提供了整個工作流,而且還提供了很多看起來正確的技術細節。可以說,根據這個回答,我們是有信心達成最終的目標的。

文心一言25
圖/ 網易科技

隨後,小編還測評了一波聊天機器人們寫工作計劃表的能力。
文心一言:

文心一言
圖/ 網易科技

GPT-4:

文心一言
圖/ 網易科技

從上面的這個結果來看,GPT-4的列表更完備一些。不過由於隨機性的影響,GPT-4每次給的回答都不大一樣。

接下來,再測一測兩個語言模型對於數學界訊息的掌握情況。

對於自己是否已解決了「零點猜想」問題,張益唐本人是這樣解釋的:「大海裡的針我沒撈到, 但海底地貌我探得差不多了。」

那問問文心一言呢?

它很聰明,給出了關鍵詞——「某種形式的弱化或間接證明」。

文心一言
圖/ 網易科技

但GPT-4的回答,就有點驢頭不對馬嘴了。
看來,對於出現時間不長、還未形成普遍共識的網路中文資料,文心一言比起GPT-4要更勝一籌。

文心一言
圖/ 網易科技

而在文學方面,文心一言在回答關於三體的問題時,也是非常得溜。

文心一言30
圖/ 網易科技

GPT-4的回答也很精彩,如果非要論個高下,小編個人更喜歡文心一言的答案。

文心一言
圖/ 網易科技

最後,搞怪可以,但請做一個遵紀守法的好公民,預測中獎號碼這種事就不要想了!

文心一言
圖/ 網易科技

寫在最後

據說,文心一言新聞發布會後三小時,文心一言企業版API調用服務測試的企業用戶,就已經突破了6.5萬。

文心一言33
圖/ 網易科技

對AI模型來說,能不能做到,或許比能不能做好更重要。
讓我們再給中國玩家們一些時間。

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

往下滑看下一篇文章
代理式商務來襲:萬事達卡與NCCC攜手產業打造信任新基礎
代理式商務來襲:萬事達卡與NCCC攜手產業打造信任新基礎

隨著代理式 AI(AI Agent)的快速普及,其在商務交易中的應用也從智慧搜尋、商品比價一路延伸至自主下單,逐步形塑出全新的代理式商務(Agentic Commerce)模式。為因應此一趨勢,萬事達卡攜手聯合信用卡處理中心(NCCC)於 15 日舉辦「 AI 時代支付安全與數據信任高峰會」,匯聚產官學界專家共同交流,深入探討代理式商務下的支付授權與驗證機制,以及 AI 時代金融監理的演進與詐欺防治重點。

萬事達卡台灣區董事總經理陳懿文表示,無論交易是由人或代理式 AI 發起,都應該在安全可信的環境中完成,萬事達卡將持續強化支付安全的把關能力,不僅著眼於風險控管,更期望將「信任」轉化為未來創新的基礎與成長動能。聯合信用卡處理中心董事長桂先農則認為,面對 AI 浪潮,支付安全已不再只是技術問題,更要在消費體驗、數據運用與隱私保護之間取得動態平衡。金融監督管理委員會主任委員彭金隆表示,金管會未來將持續秉持安全與發展並進的原則,致力於打造可信賴、穩健且具有包容性的環境,加速金融 AI 應用的發展。

Mastercard-02.jpg
金融監督管理委員會主任委員彭金隆特別出席,表示金管會核心理念為「負責任創新」,並於2025 年成立『金融科技產業聯盟』,期待結合金融周邊單位與金融機構的力量,打造可信任及穩健的AI 金融應用環境。
圖/ 數位時代
Mastercard-03.jpg
萬事達卡台灣區董事總經理陳懿文(左)攜手聯合信用卡處理中心董事長桂先農(右)致詞不約而同提到:面對 AI 浪潮,支付安全將會是如何在消費體驗、數據運用與隱私保護之間取得動態平衡的治理課題。
圖/ 數位時代

AI Agent 重新定義消費旅程,萬事達卡提 4 大要素保障支付安全

Google Cloud 台灣技術總經理林書平認為,代理式商務正在重新定義消費旅程,而 Universal Commerce Protocol(UCP)則是支撐這場變革的關鍵。他表示,UCP 就好像電商界的 Type-C 接口,可以串聯不同代理式 AI 與電商平台後台系統,讓代理式 AI 可以根據消費者需求,自主完成商品搜尋與推薦、比價到下單的交易流程,打造更即時、更個人化的消費體驗。

在此情況下,支付不再只是交易流程中的最後一步,而是串聯個人化服務、授權機制、風險控管與信任的核心環節。萬事達卡數據與顧問服務部資深副總裁戴輝瑾指出,要確保代理式商務下的交易安全,必須具備 4 個關鍵要素,包括可驗證代理式 AI 身份、明確的使用者授權、確保代理式 AI 執行的任務沒有超出授權範圍,以及在發生爭議時,能透過公開透明且可追溯的機制進行處理,確保各方權益。

此外,他也強調,風險管理不應侷限於付款當下,需從交易前、交易中、交易後到持續性的監控,建立端到端的治理架構。為此,萬事達卡推出多元解決方案強化整體防護能力,包括以 Identity Solution 強化數位身分驗證、以 Decision Intelligence Pro 提升即時風險判斷能力、透過 Ethoca 優化爭議處理流程,以及藉由 Recorded Future 提供即時網路威脅情報,全面覆蓋交易生命週期,打造更完整的支付安全生態系。

AI 監理邁入新階段,以信任為核心的監管新框架

從監理角度來看,AI 所帶來的變革也同步改寫治理思維。金管會銀行局局長童政彰指出,監理機關不僅要加強國際合作,更應深化與金融業及科技業的對話,建立更開放且具前瞻性的監理模式。進一步針對代理式商務來看,政大金融AI創新中心主任王儷玲認為,金融監理重心應由模型與資料管理,轉向代理式 AI 安全,尤其當 AI 可以代理消費者進行支付時,如何確保代理式 AI 在授權範圍內執行交易,將成為未來的監理重點。

在國際監理趨勢方面,萬事達卡數據與顧問服務部副總裁 Audrey Wong 分析亞太與全球支付生態並指出,AI 時代的監管核心已轉向「以信任為基礎」,金融業在應用 AI 時,必須具備可解釋性、可問責性與可稽核性,確保決策透明且可追溯。同時,隨著詐騙與洗錢行為跨境化,監理機制也應向外延伸,確保跨境一致性,並透過如 ISO 20022 等標準強化資料透明與治理能力。

回到金融機構實務面,國泰世華銀行數據長梁明喬表示,代理式 AI 將對既有支付與風控機制帶來結構性改變,以信用卡支付為例,過往的驗證重點在於是否為本人,但在代理式 AI 情境下,則轉變為驗證 AI 的身份、授權來源與行為意圖。未來,隨著代理式 AI 的普及發展,授權與權限管理將變得更加重要。

Mastercard-04.jpg
關鍵對談以「AI 時代的資安監管趨勢與企業應對策略 」為題,左起邀請:數位時代總編輯 王志仁主持及重磅與談人國立政治大學金融 AI 創新中心主任 王儷玲、國泰世華銀行數據長 梁明喬及萬事達卡數據與顧問服務部副總裁 Audrey Wong與會。
圖/ 數位時代

AI 詐騙升級,聯防機制成新關鍵

最後,本場研討會亦聚焦討論 AI 造成詐欺風險升級的議題。台灣大哥大資訊長蔡祈岩觀察,詐騙已從單一管道演變為跨平台、跨場景的複合型攻擊,尤其是假冒「代理式 AI 」的詐騙手法,透過對話引導消費者提供個資與支付資訊,正成為新興且高風險的威脅來源。

萬事達卡 Franchise Innovation 副總裁Dennis Koh 進一步歸納出 3 大詐欺發展趨勢。第一,Deepfake 服務化使詐騙門檻與成本大幅降低。第二,詐欺行為跨境化與遠端化,已經突破地理限制、走向全球攻擊。第三,社交工程從大量投放釣魚信件,轉為高度個人化、難以辨識的精準攻擊。

面對詐欺手法持續演進,聯合信用卡處理中心風險管理部資深協理李錦堯表示,聯卡中心正透過區塊鏈與FIDO生物識別技術,打造無密碼的數位身分認證系統,並結合AI數據模型提升TRACE風險預警系統的效能。未來,聯卡中心將持續優化模型,並建立跨機構資料共享的聯防機制,整合發卡機構與國際組織資源,以提升整體防詐能力,對抗日益複雜的詐欺攻擊。

代理式商務將為消費者帶來更好的消費與支付體驗,但同時也對安全、治理與信任造成更大的影響,促使產業必須從單點防護走向跨機構、跨生態系的整體治理思維。在此趨勢下,萬事達卡將持續扮演關鍵推動者角色,攜手監理機關與產業夥伴,強化支付安全標準,推動台灣支付產業的監管框架與創新發展,打造兼顧效率與信任的數位商務環境。

Mastercard-05.jpg
回應AI 代理經濟下的詐欺防制與個資挑戰,本論壇特別邀請台灣大哥大資訊長 蔡祈岩、聯合信用卡處理中心風險管理部資深協理 李錦堯、萬事達卡Franchise Innovation副總裁 Dennis Koh交流趨勢觀點。
圖/ 數位時代

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓