機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?
機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?

前幾天燈神給我發了一篇文章,講的是用機器學習的方式來判定紅樓夢後40回到底是不是曹雪芹寫的。

圖說明

黛玉重建桃花社。畫家孫溫。圖片來自:Wikipedia


我這段時間也在自學Andrew Ng的機器學習課程,還差4週就能完成課程了。

電腦是一個很強調learning by doing的學科,於是我也來「學以致用」,用剛學到的SVM演算法來分析下雪芹老師到底有沒有寫後面的40回。

作為一個從沒看過紅樓夢的人,我的大致思路是這樣的:

  1. 受到《獵人》裡蟻王破解會長無敵招數的啟發,每個人的寫作都有些小習慣,雖然文章前後說的內容會有差別,但是這些用詞的小習慣不容易改變;

  2. 用開源的分詞工具把全書分詞(python的jieba分詞),然後統計詞頻。把出現頻率超過100次的詞語找出來,人工去掉一些可能因為文章內容造成前後出現不一致的人名、地名;

  3. 然後每一章按照2中的詞頻表,看這一章中出現這些詞語的頻率;

  4. 前80回、後40回各選15回作為機器學習的資料,讓機器學習這些章節的用詞特點,然後推算其他章節的用詞特點是屬於前80回呢、還是後40回;

  5. 如果機器根據這些用詞特徵推算的是否屬於後40回的結果跟實際的結果吻合,那麼就說明後40回的寫作風格跟前80回有很大不同,很可能是兩個人寫的;

好了,下面我儘量少涉及數學跟程式設計的知識,來一步步解讀機器學習是怎麼完成這個問題的。

生成全書的詞頻表

圖說明

我截取了其中一段的詞頻表。像寶二爺、黛玉笑這種涉及人物的詞語,可能前面戲份多、後面戲份少,所以就不選它們作為用詞習慣的特徵,而像忽然、故、只要、可不是這種承接性質的碎詞,就不太容易會受情節的影響,所以適合選出來作為用詞習慣的特徵。

最終,我按照出現從多到少排序,選擇了278個詞作為機器學習的用詞習慣。

將120回的詞頻進行統計

接下來我把每一回出現這278個詞的頻率統計出來,得到我們給機器學習的樣本。這個樣本的樣子大概是這樣的:

圖說明

比如以B行2列舉例,說明在第一回裡面「道」這個動詞,出現了36次。

通常我們在進行複雜的事情前,喜歡先簡化問題,或者給自己一些直觀的圖表,以便瞭解問題。機器學習也是一樣的。

我嘗試著在圖上把前80回和後40回習慣用詞出現的頻率畫出來。以第一回為例,x1座標代表「道」出現多少次,x2座標代表「說」出現多少次,x3座標代表「也」出現多少次......x280座標代表「則」出現多少次。

什麼?超過三維了,那人類的大腦可是沒辦法理解的啊。

沒關係,當我們用燈光照射一個立體的圖時,平面會有它的影子。這個影子雖然沒有立體圖的資訊這麼豐富,不過我們看影子還是可以猜出來大致的樣子。對於高緯度的問題,我們也可以用投影的方式來降低緯度。

雖然資訊損失了不少,不過能給我們一個直觀的感受。

圖說明

這個是120個章節的用詞習慣從278緯降到3維以後的圖,紅色+的點是前80回,藍色o的點是後40回。

從這個圖可以很直接地看到,確實在用詞習慣上有明顯的區別。就算我們沒有機器學習工具的幫忙,也可以大膽猜測後40回是出自於另外一個人了。

下面我們用機器學習來看精確一點的判斷。

機器學習

透過課程我大致瞭解了SVM的原理和簡化版問題的演算法實現,不過對於複雜問題我還是沒這個能力寫程式。於是用python的scikit庫來幫助我來完成這個預測。

演算法的步驟很簡單,前80回、後40回各選15個來餵給機器學習它們的特點,然後把剩下的章節輸入給機器,問它們屬於前80回還是後40回。

圖說明

看out[44]的結果,代表了機器預測這120回的用詞習慣到底屬不屬於後40回(0為不屬於,1為屬於)。

如果你看不懂上面的程式碼,沒關係。我告訴你結果好了。

機器在學習以後告訴我,如果我把隨便一章的用詞習慣告訴它、但不告訴它到底是前80回還是後40回,那麼機器有95%的把握能猜出它是不是後40回。

至此,我們可以很有信心地判斷它們的寫作風格不同。

那麼,問題來了,會不會因為是情節的需要所以導致寫作風格不同了呢?

情節不同會造成用詞習慣多大的差別?

好吧,那我再來做一個旁證。我把另外一部四大名著「三國演義」拿來分析,看看上部跟下部的用詞習慣會不會有比較明顯的差別。

圖說明

這個是三國演義的用詞習慣縮到三維以後的圖,紅色+代表前60部的用詞習慣,藍色o代表後60部的用詞習慣。

你可能會說,雖然中間交叉的地方比較多,但是還是可以看出來是有區分的。

可如果你比對一下跟紅樓夢的圖,你就會發現紅樓夢的差別會明顯得多。

圖說明

紅色+為紅樓夢前80回/三國前60回,藍色o紅樓夢後40回/三國後60回

最後,用機器學習的方式來說,如果我把三國演義隨便一章的用詞習慣告訴它、但不告訴它到底是前60回還是後60回,那麼機器有7成的把握猜對,這個準確度已經遠遠低於紅樓夢的95%的預測水準。

所以,我們用「三國演義」這個旁證來分析,即便是因為情節需要導致的用詞習慣差別也不應該這麼大。

所以,我們就更有信心說曹老先生沒有寫後40回了。

更多的機器學習有趣的玩法,我會在學習的過程中慢慢嘗試的。以上。

本文作者黎晨,原文刊載於他的微信公眾號:黎小晨想太多

關鍵字: #機器學習
往下滑看下一篇文章
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率

在 AI 快速進入企業營運核心的時代,數據不再只是被動的分析素材,而是 AI 模型運作與決策優化的重要基礎。

零售品牌積極累積大量第一方數據,例如會員資料、交易紀錄以及線上與線下行為數據,但因這些數據分散於不同系統,缺乏統一的身分識別機制以及明確的元數據(Metadata)定義,導致難以整合與分析,同時,也影響 AI 對這些數據資產的理解與應用。

為解決上述挑戰,Vpon 威朋將累積十餘年的實務經驗轉化為產品與服務,如 Audience Center 與 AI Agent 等解決方案,並透過專業顧問團隊協助企業完成數據收集、清理、整合與分析等關鍵流程,從資料清理到 AI-Ready 再到落地應用,讓行銷與業務團隊能以自然語言將數據查詢與分群受眾逐步自動化,大幅縮短過去仰賴技術與分析團隊溝通需求與開發分析邏輯的時間。

Vpon 助零售業打造 AI-Ready 數據基礎,以 Audience Center 驅動業務商機

如何建立 AI Ready 數據基礎建設?

Vpon 威朋數據科學經理廖宜楷指出,在 AI 驅動的時代,數據的品質決定模型價值。其中四個關鍵分別是:建構標準化的數據採集與處理管線,透過統一的工程規範,確保所有進入系統的數據在格式、維度與質量上具備高度一致性;其次是定義語義清晰的元數據(Metadata)體系,確保數據能夠被 AI 理解與使用,從而產出具備可靠性的產出結果;再來是打破企業內部的「數據孤島」, 透過完整整合線上(Web/App)行為與線下(POS/CRM)會員資訊,建構全方位的會員數據輪廓,精準捕捉消費者的跨通路行為軌跡。最後,數據的價值隨時間遞減,AI 的決策品質取決於數據的「新鮮度」,因此,數據的持續更新與自動化維護,不僅能讓企業在動態市場中保持敏銳,還可進一步深化會員輪廓分析的即時性。

舉例來說,在 Vpon 團隊的協助下,台灣百貨零售龍頭透過整合 Web 與 App 行為資料,並將線上與線下數據集中於數據中台進行分析,將傳統耗時數小時的複雜資料庫分析工作縮短至秒級回應,並基於此高效率基礎,進一步開發不同業務主題的預測與分群模型,提升行銷精準度與營運決策的敏捷性。

扎實數據基礎的價值落實:Audience Center 如何賦能企業實現「數據即戰力」?

有了堅實的數據底座後,下一步是透過 Audience Center 將數據資產轉化為商業動能。

廖宜楷指出,在變化快速的零售與數位行銷市場中,速度就是競爭力。然而,仍有許多企業在數據應用上面臨嚴重的溝通與技術斷層。過去,當行銷或業務人員需要數據支持時,通常得花費繁複的內部流程申請需求、討論需求,才會進到後續的資料清理、建模與分析,最後才能得到想要的分析結果或行銷名單。這種以「週」為單位的進程,不僅拖慢了決策效率,更讓企業在競爭激烈的市場中錯失先機。

Audience Center 的核心價值在於徹底翻轉上述流程,將數據處理轉化為數據服務,透過直覺的介面與背後扎實的數據基礎支撐,讓非技術人員不用編寫程式碼,即可自行組合維度,大幅縮短從需求到執行的距離,將原先需要耗時數週的作業流程優化成秒級產出。

「Audience Center 的導入,不僅有助於提升效率,更賦予企業快速試錯與精準捕獲趨勢的能力,讓數據真正成為驅動業務增長的引擎。」廖宜楷如此總結。

#1 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學經理 廖宜楷
圖/ 數位時代

以 AI Agent 重塑數據使用方式,讓數據更貼近決策流程

「Vpon 除提供 Audience Center 協助品牌發揮第一方數據資產價值、提供豐沛的第三方數據助品牌深化對客戶輪廓的掌握度,更推出 AI Agent 服務讓品牌與行銷人員能更直覺地使用數據。」Vpon 威朋數據科學資深總監陳文謙表示,在數位轉型的過程中,許多企業面臨的挑戰不僅是數據整合,更包括如何讓不同部門的人員都能更即時協作與應用數據,有鑑於此,Vpon 推出四種 AI Agent 協助企業分析與應用數據,極大化第三方數據成效:

第一,以 Reporting Agent 讓高階主管或行銷人員可以自然語言查詢數據與生成報表,即時掌握市場動態,加速決策下達與決策品質。

第二,透過 Insight Agent 確保數據分析不受分析人員的主觀意識或產業知識侷限,可以輕鬆完成跨領域數據分析、快速挖掘潛在市場機會與消費者洞察。

第三,藉由 Audience Agent 將客戶分群方式從規則導向(Rule-based)轉變為關聯導向,以關聯分析擴大受眾範圍,協助品牌找出更多潛在客群。

第四,推出 Creative Agent 協助行銷人員分析廣告素材表現的根本原因,釐清受眾喜歡的素材跟不喜歡的素材,藉此優化廣告投放內容,持續提升轉換率。

陳文謙表示:「透過 AI Agent 的輔助,品牌不僅能更快完成數據分析,也能將分析結果直接轉化為行銷策略與創意建議,降低跨部門溝通成本,讓數據真正參與決策流程。」

#2 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學資深總監 陳文謙
圖/ 數位時代

鏈結數據生態夥伴,以跨境數據放大行銷效益

除了協助品牌主建立 AI Ready 的數據基礎環境並提升數據使用效率,Vpon 也持續拓展數據生態圈,協助零售品牌更精準布局海外市場。

Vpon 威朋產品行銷資深經理邱心儒表示,跨境行銷過去多仰賴經驗與市場直覺,但透過數據整合與 AI 分析,品牌能更精準理解海外消費者的旅遊與消費行為。

以 Vpon 與日本 Loyalty Marketing Inc. 合作為例說明,透過雙方的獨家合作,企業可以結合 Ponta 超過一億的會員數據、問卷調查結果以及 Vpon 的七大數據來源,深入分析日本消費者的消費偏好與購買力——包括哪些日本族群對台灣品牌最感興趣、最受歡迎的台灣商品類型,以及不同客群的價格敏感度與回購行為等,將行銷決策從過往的經驗判斷轉變為精準的數據洞察,成為品牌出海的重要工具。

簡言之,對零售品牌而言,跨境數據是理解海外旅客真實樣貌的一大利器,也能進一步優化廣告投放、內容策略與商品布局,讓品牌在拓展國際市場時,可以更有效率地接觸潛在客群,放大行銷效益。

#3 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋產品行銷資深經理 邱心儒
圖/ 數位時代

展望未來,Vpon 將持續擴展數據生態圈並優化產品服務,幫助零售品牌從數據整合、AI 分析到市場決策建立完整的數據應用循環,希望以數據夥伴的角色與品牌共同成長,打造互利共贏的數據生態。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓