機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?
機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?

前幾天燈神給我發了一篇文章,講的是用機器學習的方式來判定紅樓夢後40回到底是不是曹雪芹寫的。

圖說明

黛玉重建桃花社。畫家孫溫。圖片來自:Wikipedia


我這段時間也在自學Andrew Ng的機器學習課程,還差4週就能完成課程了。

電腦是一個很強調learning by doing的學科,於是我也來「學以致用」,用剛學到的SVM演算法來分析下雪芹老師到底有沒有寫後面的40回。

作為一個從沒看過紅樓夢的人,我的大致思路是這樣的:

  1. 受到《獵人》裡蟻王破解會長無敵招數的啟發,每個人的寫作都有些小習慣,雖然文章前後說的內容會有差別,但是這些用詞的小習慣不容易改變;

  2. 用開源的分詞工具把全書分詞(python的jieba分詞),然後統計詞頻。把出現頻率超過100次的詞語找出來,人工去掉一些可能因為文章內容造成前後出現不一致的人名、地名;

  3. 然後每一章按照2中的詞頻表,看這一章中出現這些詞語的頻率;

  4. 前80回、後40回各選15回作為機器學習的資料,讓機器學習這些章節的用詞特點,然後推算其他章節的用詞特點是屬於前80回呢、還是後40回;

  5. 如果機器根據這些用詞特徵推算的是否屬於後40回的結果跟實際的結果吻合,那麼就說明後40回的寫作風格跟前80回有很大不同,很可能是兩個人寫的;

好了,下面我儘量少涉及數學跟程式設計的知識,來一步步解讀機器學習是怎麼完成這個問題的。

生成全書的詞頻表

圖說明

我截取了其中一段的詞頻表。像寶二爺、黛玉笑這種涉及人物的詞語,可能前面戲份多、後面戲份少,所以就不選它們作為用詞習慣的特徵,而像忽然、故、只要、可不是這種承接性質的碎詞,就不太容易會受情節的影響,所以適合選出來作為用詞習慣的特徵。

最終,我按照出現從多到少排序,選擇了278個詞作為機器學習的用詞習慣。

將120回的詞頻進行統計

接下來我把每一回出現這278個詞的頻率統計出來,得到我們給機器學習的樣本。這個樣本的樣子大概是這樣的:

圖說明

比如以B行2列舉例,說明在第一回裡面「道」這個動詞,出現了36次。

通常我們在進行複雜的事情前,喜歡先簡化問題,或者給自己一些直觀的圖表,以便瞭解問題。機器學習也是一樣的。

我嘗試著在圖上把前80回和後40回習慣用詞出現的頻率畫出來。以第一回為例,x1座標代表「道」出現多少次,x2座標代表「說」出現多少次,x3座標代表「也」出現多少次......x280座標代表「則」出現多少次。

什麼?超過三維了,那人類的大腦可是沒辦法理解的啊。

沒關係,當我們用燈光照射一個立體的圖時,平面會有它的影子。這個影子雖然沒有立體圖的資訊這麼豐富,不過我們看影子還是可以猜出來大致的樣子。對於高緯度的問題,我們也可以用投影的方式來降低緯度。

雖然資訊損失了不少,不過能給我們一個直觀的感受。

圖說明

這個是120個章節的用詞習慣從278緯降到3維以後的圖,紅色+的點是前80回,藍色o的點是後40回。

從這個圖可以很直接地看到,確實在用詞習慣上有明顯的區別。就算我們沒有機器學習工具的幫忙,也可以大膽猜測後40回是出自於另外一個人了。

下面我們用機器學習來看精確一點的判斷。

機器學習

透過課程我大致瞭解了SVM的原理和簡化版問題的演算法實現,不過對於複雜問題我還是沒這個能力寫程式。於是用python的scikit庫來幫助我來完成這個預測。

演算法的步驟很簡單,前80回、後40回各選15個來餵給機器學習它們的特點,然後把剩下的章節輸入給機器,問它們屬於前80回還是後40回。

圖說明

看out[44]的結果,代表了機器預測這120回的用詞習慣到底屬不屬於後40回(0為不屬於,1為屬於)。

如果你看不懂上面的程式碼,沒關係。我告訴你結果好了。

機器在學習以後告訴我,如果我把隨便一章的用詞習慣告訴它、但不告訴它到底是前80回還是後40回,那麼機器有95%的把握能猜出它是不是後40回。

至此,我們可以很有信心地判斷它們的寫作風格不同。

那麼,問題來了,會不會因為是情節的需要所以導致寫作風格不同了呢?

情節不同會造成用詞習慣多大的差別?

好吧,那我再來做一個旁證。我把另外一部四大名著「三國演義」拿來分析,看看上部跟下部的用詞習慣會不會有比較明顯的差別。

圖說明

這個是三國演義的用詞習慣縮到三維以後的圖,紅色+代表前60部的用詞習慣,藍色o代表後60部的用詞習慣。

你可能會說,雖然中間交叉的地方比較多,但是還是可以看出來是有區分的。

可如果你比對一下跟紅樓夢的圖,你就會發現紅樓夢的差別會明顯得多。

圖說明

紅色+為紅樓夢前80回/三國前60回,藍色o紅樓夢後40回/三國後60回

最後,用機器學習的方式來說,如果我把三國演義隨便一章的用詞習慣告訴它、但不告訴它到底是前60回還是後60回,那麼機器有7成的把握猜對,這個準確度已經遠遠低於紅樓夢的95%的預測水準。

所以,我們用「三國演義」這個旁證來分析,即便是因為情節需要導致的用詞習慣差別也不應該這麼大。

所以,我們就更有信心說曹老先生沒有寫後40回了。

更多的機器學習有趣的玩法,我會在學習的過程中慢慢嘗試的。以上。

本文作者黎晨,原文刊載於他的微信公眾號:黎小晨想太多

關鍵字: #機器學習
往下滑看下一篇文章
玩手遊也能賺回饋?ShopBack Play 讓你零碎時間也能玩出現金回饋
玩手遊也能賺回饋?ShopBack Play 讓你零碎時間也能玩出現金回饋

通勤、排隊、等餐時,幾乎人人都在滑手機。零碎時間變多、也變得更密集,消費者在社群與影音之間來回切換,也更常打開遊戲。根據資策會 MIC 統計,台灣有 69% 網友會玩數位遊戲,近 8 成每日遊戲時長落在 2 小時內,輕度、碎片化已成主流。

這股趨勢,與 ShopBack 東亞區總經理 Arthur Wan 的觀察不謀而合。「大家在零碎時間裡,經常會拿起手機玩手遊,找個方式殺時間、放鬆心情。」因此,ShopBack 把視角轉向遊戲場景,推出 ShopBack Play,嘗試把娛樂轉化為「好玩、也能賺」的新型回饋體驗,讓回饋不必等到消費發生,日常零碎時間也能累積回饋。

從手遊場景打造現金回饋新模式

Arthur Wan 指出:「ShopBack 在台灣市場落地 8 年了,核心強項始終是電商回饋機制。」然而,若回饋只綁在購物,使用頻率終究受限於消費需求。對此,ShopBack Play 借助手遊的高黏著、高回訪特性,把回饋從交易場景延伸到日常互動;使用者不需消費,只要下載並完成指定任務,就能累積現金回饋,平台也因此更貼近使用者的日常生活。

這也呼應近年全球竄起的「X to Earn」模式。Arthur Wan 解釋,從 Shop to Earn 把消費轉成回饋、Play to Earn 讓玩樂產生回饋,到 Move to Earn 讓移動與運動也具備回饋可能,市場正在探索「參與行為」的價值:「愈來愈多日常行為,其實都能透過特定場景轉化為實際獲益。」

ShopBack Play 的優勢在於回饋可轉移。過往遊戲獎勵多停留在虛擬世界,例如兌換道具;但透過 ShopBack,玩家取得的現金回饋可直接延伸到電商與日常消費,讓娛樂回報更實用、更有感。

SHOPBACK圖說一.jpg
ShopBack 東亞區總經理 Arthur Wan
圖/ 數位時代

引發使用者越玩越賺的回饋循環

ShopBack Play 的使用方式很簡單。在 ShopBack App 首頁進入遊戲專區選定遊戲後,系統即導流至 App Store/Google Play 下載並開玩;玩家只要破關或完成指定里程碑,就能回到 ShopBack 形成「選遊戲→開玩→達標領回饋→再探索」的回訪循環。為了加碼誘因,ShopBack Play 也不定期推出「紅色遊戲專區 2 倍回饋」活動。

Arthur Wan 觀察,「消費者其實並沒有那麼忠誠於某一款特定遊戲。」多數人打開手遊,只是想放鬆、填補空檔,對單一遊戲的黏著度不高。也因此,ShopBack Play 目前合作超過 400 款遊戲,並規劃於 2026 年持續更新合作清單,讓使用者隨時有新選擇可玩。

「我們希望透過遊戲回饋,創造更多回訪的理由。」 Arthur Wan 表示,這也補上 ShopBack 的互動頻率缺口。由於 ShopBack 核心仍以購物回饋為主,熱門品類多集中在旅遊與時尚(如 Booking.com、Trip.com、KKday、Klook,以及 adidas、Nike、GU),消費頻次相對較低;ShopBack Play 則提供更日常、更高頻的回訪動機,讓使用者更常打開 App。

他指出,ShopBack Play 上線後帶動每月回訪 ShopBack 的使用者數成長 15%,整體使用者 CLV(Customer Lifetime Value,顧客終身價值)成長 30%,顯示回饋場景擴張確實見效。且透過遊戲接觸到 ShopBack 的使用者中,也有相當比例會進一步前往平台其他商家消費,形成交叉銷售效應(Cross-sell),推升平台使用深度與消費頻率。

讓回饋生態系融入生活空檔

將回饋帶入用戶生活中的更多片段,讓原本就會經歷的日常時刻變得更有價值,是 ShopBack 持續拓展「行為換回饋」場景的核心思維。對遊戲廠商而言,長期痛點在於下載成本高、留存率偏低,最怕「下載了就走」:數字漂亮,卻沒有實際遊玩行為,轉換與 ROI 難以落地驗證。對此,ShopBack Play 把回饋門檻從「下載」改為「達標」──使用者必須完成指定關卡或里程碑才拿得到回饋,藉此濾掉無效流量,讓導入更貼近真實參與,也更有利於提升轉換率與投資報酬。

對許多用戶而言,遊戲早已是生活的一部分。現在透過 ShopBack Play,不僅能在零碎時間中放鬆娛樂,更能完成任務獲得實質回饋 ,讓「玩遊戲」與「破關」不再只是虛擬成就,而是能實際折抵日常開銷的量化報酬。對 ShopBack 而言,不僅提升用戶在平台內的互動頻率,也補強過去必須透過消費行為才能獲得回饋的單一路徑。透過遊戲機制,用戶即使在非購物場景中也能保持接觸,並於任務完成後自然回流 App,進一步探索購物優惠與合作商家,打造高頻率且正向的使用循環。

也因此,ShopBack Play 推出後的亮眼表現,更進一步驗證這套機制具備高度潛力與市場接受度。據平台統計,功能上線後短短半年內,用戶數成長 12 倍,其中近 60% 為原本的 ShopBack 使用者首次接觸手遊,成功帶動原有會員活躍與新型態行為轉換。除了使用數提升,ShopBack Play 的回饋金發放規模亦快速擴大,自功能上線以來,累計回饋金額已接近 1 億元,展現「遊戲回饋」模式的強勁吸引力與發展性。

隨著 ShopBack Play 與購物回饋、載具回饋機制整合,平台逐步建構出「玩能賺、買能賺、日常生活也能賺」的循環回饋生態系,不僅為用戶帶來更即時、更有感的回饋體驗,也持續深化 ShopBack 在消費日常中的角色。

「ShopBack Play 只是起點。」ShopBack 東亞區總經理 Arthur Wan 認為,當消費者愈來愈精打細算、也更習慣用行為換取回報,未來仍有更多「X to Earn」場景值得探索與開發。「對我們來說,關鍵不只是推出一個新服務,而是持續擴大回饋觸發點,從線上購物、實體場景一路延伸到遊戲入口,串連商家與用戶的日常接觸,讓回饋真正融入生活,讓每一個日常時刻,都更有所得。」

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓