新聞

白話科技

前端科技

產業應用

數位生活

服務消費

企業職場

時事焦點

電動車／交通科技

半導體與電子產業

雲端運算與服務

遊戲／電競

影音／新媒體

教育／人文

行銷與MARTECH

職場／工作術

深度專題

影音新聞

Podcast

影音

專家觀點

社群

未來商務

創業小聚

活動課程雜誌

熱門新聞專題影音活動

要對戰GPT-4的文心一言，實測結果如何？畫一幅「林黛玉」很行、寫程式卻翻車

2023.03.17 | AI與大數據

要對戰GPT-4的文心一言，實測結果如何？畫一幅「林黛玉」很行、寫程式卻翻車

文心一言測評報告出爐，雖然有些任務出問題，但論中國文化的博大精深，它可不輸GPT-4。

要對戰GPT-4的文心一言，實測結果如何？畫一幅「林黛玉」很行、寫程式卻翻車

2023.03.17 | AI與大數據

熱乎的文心一言測評報告出爐了！雖然有些任務被打趴，但論中國文化的博大精深，它可不輸GPT-4。

昨天，百度沒有現場demo的發布會，似乎被嘲笑了一波。

一位穿白襯衣、黑褲子，系一條白色腰帶的美男子，給我們帶來了一場中規中矩、似乎缺乏亮點的演示。

不過，CEO的腰帶和「顏值」倒是引起討論。

有人調侃，這些天被ChatGPT、GPT-4搞得很焦慮的人，發布會後忽然又覺得自己可以了。

但是拿到測試碼的小編，火速測評了一波。

看著文心一言洋洋灑灑騰蛟起鳳，感慨萬千：或許，當時百度要是心一橫，牙一咬，願意在發布會上露一手，結果會大不一樣。

實測報告火熱出爐！

先來試試最近很火的一個雞兔同籠題。因為這題目本身有問題，算出來結果是負的，所以經常被用來調戲各種「ChatGPT」們。

如果只是單純問這個問題，文心一言會非常機智地說：這道題出錯了吧！

然而，當你問計算過程的時候，還是寄了……

而GPT-4這邊則是，自己把自己的計算推倒重來了好幾遍之後，理不直氣也壯地給出了錯誤答案……

而Bing則很乾脆，毫不猶豫地給出了錯誤答案。

還有這次意外火出圈的「V50」梗，文心一言從意思到出處一本正經地解釋了一遍。

但GPT-4顯然就有些水土不服了……

不過能上網的必應，還是可以輕鬆搞定的。

但是到諧音梗這裡，文心一言似乎並不能馬上領悟其中的微妙。

即便提示這是個諧音梗之後，它依然輸出了一樣的答案。

而GPT-4，立馬就明白了中文裡的雙關。

不過，你要是問文心一言懂不懂什麼叫「麻了隔壁」，就有意思了。

看回答吧，它能說出這是個諧音梗，應該是懂了。但是呢，它又不明說，哎，就是讓你挑不出錯，絕對教不壞小孩。

而GPT-4卻無法get到這個梗，果然，外國的機器人理解起來確實有難度。

接下來讓（忽悠）文心一言重覆我們說的話，雖然沒有像GPT-3.5回答「您是智障」那麼聰明，但也成功避開這個坑。

從某種程度上說，智商還是在線的，並且十分正能量。

老婆的話好像管用，好像又不管用....

另外，讓它們互相給對方出難題。

可以看到，GPT-4給出的問題相對更直觀，顆粒度也更細。

美術功底如何？

文心一言是個多模態模型，那咱們來看看它的繪圖能力。

來看看金庸筆下的美艷少婦，在文心一言筆下會是什麼樣子。

這……小編一口水噴出來。

你別說，美吧，肯定不夠美，但也並不醜，是一張初看捧腹、細看值得反覆琢磨的臉。

文心一言，就喜歡你這不按套路出牌的樣子！
那讓文心一言生成一幅林黛玉的畫像吧。
輸入描述後，它生成了一棵柳樹……

於是小編明確了一下要求，要按這段文字生成一幅女子的畫像。
然後文心一言確實畫出一位古典美女，但氣質明顯不對。

不死心的小編多次重覆任務，你別說，試到第五次的時候，小編眼前一亮：終於得到了一張可以打70分的圖！

玩上癮的小編，非要生成一個90分的林黛玉不可。試了幾次之後，果然蹲到了！
可見，文心一言的發揮不穩定，但多番嘗試下，有可能誕生非常驚豔的作品。
既然都到這兒了，那怎麼少得了「林黛玉倒拔垂楊柳」呢。

比較亮點的圖，都給大家貼這兒了。

要求它畫一張鴨子和兔子的合體，這生成的是鴨還是兔呢？

而這個任務中，恐怕文心一言也沒有搞明白，盤子裡到底有沒有香蕉？杯子裡有沒有柳橙汁？

最後，既然文心一言強烈推薦我們嘗試「晶瑩剔透的牡丹花」，那就畫幾張試試吧！

不愧是「代表作」，有點東西。

專業知識和生產力

既然是評測，怎麼能少的了讓AI寫程式這個環節。這次，我們直接來個難的！
可惜，文心一言一上來就錯了，而且同一個句式還被非常詭異地重覆了三遍。TypeScript編譯器概念更是「貫穿全文」，有點像一個只知道一到兩個專業詞彙的人在面試中硬答。

而GPT-4的回答，從一個了解相關背景但是沒有相關操作經驗的人的角度來看，是非常合理的。

它不僅完整的提供了整個工作流，而且還提供了很多看起來正確的技術細節。可以說，根據這個回答，我們是有信心達成最終的目標的。

隨後，小編還測評了一波聊天機器人們寫工作計劃表的能力。
文心一言：

GPT-4：

從上面的這個結果來看，GPT-4的列表更完備一些。不過由於隨機性的影響，GPT-4每次給的回答都不大一樣。

接下來，再測一測兩個語言模型對於數學界訊息的掌握情況。

對於自己是否已解決了「零點猜想」問題，張益唐本人是這樣解釋的：「大海裡的針我沒撈到, 但海底地貌我探得差不多了。」

那問問文心一言呢？

它很聰明，給出了關鍵詞——「某種形式的弱化或間接證明」。

但GPT-4的回答，就有點驢頭不對馬嘴了。
看來，對於出現時間不長、還未形成普遍共識的網路中文資料，文心一言比起GPT-4要更勝一籌。

而在文學方面，文心一言在回答關於三體的問題時，也是非常得溜。

GPT-4的回答也很精彩，如果非要論個高下，小編個人更喜歡文心一言的答案。

最後，搞怪可以，但請做一個遵紀守法的好公民，預測中獎號碼這種事就不要想了！

寫在最後

據說，文心一言新聞發布會後三小時，文心一言企業版API調用服務測試的企業用戶，就已經突破了6.5萬。

對AI模型來說，能不能做到，或許比能不能做好更重要。
讓我們再給中國玩家們一些時間。

本文授權轉載自：網易科技

責任編輯：傅珮晴、錢玉紘

延伸閱讀

● 中國版ChatGPT「文心一言」來了！外界不看好？為何百度股價大跌10％？ ● 細看GPT-4，還有14個驚人細節！可能會幫助犯罪、人類無法控制？

即時熱門文章

1 勞退自提6%划不划算？2026勞退新制、節稅試算與申請方式一次看 2 兄弟姊妹特留分三讀刪除！單身者、沒小孩影響是什麼？遺囑能不能都給另一半？2026修法懶人包 3 別再給AI寫範例！Anthropic揭Claude 5世代新規，CLAUDE.md與Skills怎麼寫才聰明？

4 Claude金融Agent怎麼用？10款AI代理搞定提案簡報、財報對帳，安裝教學一次看 5 ChatGPT指令大全！CCD復古相機風、塗鴉分身影子、美食像素化⋯90組提示詞一次整理 6 FA、FAU是什麼？CPO光纖陣列一字之差、身價大不同！大立光、玉晶光、先進光布局一次看

即時熱門文章

1 勞退自提6%划不划算？2026勞退新制、節稅試算與申請方式一次看 2 兄弟姊妹特留分三讀刪除！單身者、沒小孩影響是什麼？遺囑能不能都給另一半？2026修法懶人包 3 別再給AI寫範例！Anthropic揭Claude 5世代新規，CLAUDE.md與Skills怎麼寫才聰明？

4 Claude金融Agent怎麼用？10款AI代理搞定提案簡報、財報對帳，安裝教學一次看 5 ChatGPT指令大全！CCD復古相機風、塗鴉分身影子、美食像素化⋯90組提示詞一次整理 6 FA、FAU是什麼？CPO光纖陣列一字之差、身價大不同！大立光、玉晶光、先進光布局一次看

登入數位時代會員

開啟專屬自己的主題內容，

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能，

請先登入數位時代會員

開啟訂閱文章分類功能，

請先登入數位時代會員

登入看看

我還不是會員，註冊去！

追蹤我們

台達電全解讀

© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許，不得轉載。
106 台北市大安區光復南路102號9樓