機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?
機器學習告訴你:《紅樓夢》後40回到底是不是曹雪芹寫的?

前幾天燈神給我發了一篇文章,講的是用機器學習的方式來判定紅樓夢後40回到底是不是曹雪芹寫的。

圖說明

黛玉重建桃花社。畫家孫溫。圖片來自:Wikipedia


我這段時間也在自學Andrew Ng的機器學習課程,還差4週就能完成課程了。

電腦是一個很強調learning by doing的學科,於是我也來「學以致用」,用剛學到的SVM演算法來分析下雪芹老師到底有沒有寫後面的40回。

作為一個從沒看過紅樓夢的人,我的大致思路是這樣的:

  1. 受到《獵人》裡蟻王破解會長無敵招數的啟發,每個人的寫作都有些小習慣,雖然文章前後說的內容會有差別,但是這些用詞的小習慣不容易改變;

  2. 用開源的分詞工具把全書分詞(python的jieba分詞),然後統計詞頻。把出現頻率超過100次的詞語找出來,人工去掉一些可能因為文章內容造成前後出現不一致的人名、地名;

  3. 然後每一章按照2中的詞頻表,看這一章中出現這些詞語的頻率;

  4. 前80回、後40回各選15回作為機器學習的資料,讓機器學習這些章節的用詞特點,然後推算其他章節的用詞特點是屬於前80回呢、還是後40回;

  5. 如果機器根據這些用詞特徵推算的是否屬於後40回的結果跟實際的結果吻合,那麼就說明後40回的寫作風格跟前80回有很大不同,很可能是兩個人寫的;

好了,下面我儘量少涉及數學跟程式設計的知識,來一步步解讀機器學習是怎麼完成這個問題的。

生成全書的詞頻表

圖說明

我截取了其中一段的詞頻表。像寶二爺、黛玉笑這種涉及人物的詞語,可能前面戲份多、後面戲份少,所以就不選它們作為用詞習慣的特徵,而像忽然、故、只要、可不是這種承接性質的碎詞,就不太容易會受情節的影響,所以適合選出來作為用詞習慣的特徵。

最終,我按照出現從多到少排序,選擇了278個詞作為機器學習的用詞習慣。

將120回的詞頻進行統計

接下來我把每一回出現這278個詞的頻率統計出來,得到我們給機器學習的樣本。這個樣本的樣子大概是這樣的:

圖說明

比如以B行2列舉例,說明在第一回裡面「道」這個動詞,出現了36次。

通常我們在進行複雜的事情前,喜歡先簡化問題,或者給自己一些直觀的圖表,以便瞭解問題。機器學習也是一樣的。

我嘗試著在圖上把前80回和後40回習慣用詞出現的頻率畫出來。以第一回為例,x1座標代表「道」出現多少次,x2座標代表「說」出現多少次,x3座標代表「也」出現多少次......x280座標代表「則」出現多少次。

什麼?超過三維了,那人類的大腦可是沒辦法理解的啊。

沒關係,當我們用燈光照射一個立體的圖時,平面會有它的影子。這個影子雖然沒有立體圖的資訊這麼豐富,不過我們看影子還是可以猜出來大致的樣子。對於高緯度的問題,我們也可以用投影的方式來降低緯度。

雖然資訊損失了不少,不過能給我們一個直觀的感受。

圖說明

這個是120個章節的用詞習慣從278緯降到3維以後的圖,紅色+的點是前80回,藍色o的點是後40回。

從這個圖可以很直接地看到,確實在用詞習慣上有明顯的區別。就算我們沒有機器學習工具的幫忙,也可以大膽猜測後40回是出自於另外一個人了。

下面我們用機器學習來看精確一點的判斷。

機器學習

透過課程我大致瞭解了SVM的原理和簡化版問題的演算法實現,不過對於複雜問題我還是沒這個能力寫程式。於是用python的scikit庫來幫助我來完成這個預測。

演算法的步驟很簡單,前80回、後40回各選15個來餵給機器學習它們的特點,然後把剩下的章節輸入給機器,問它們屬於前80回還是後40回。

圖說明

看out[44]的結果,代表了機器預測這120回的用詞習慣到底屬不屬於後40回(0為不屬於,1為屬於)。

如果你看不懂上面的程式碼,沒關係。我告訴你結果好了。

機器在學習以後告訴我,如果我把隨便一章的用詞習慣告訴它、但不告訴它到底是前80回還是後40回,那麼機器有95%的把握能猜出它是不是後40回。

至此,我們可以很有信心地判斷它們的寫作風格不同。

那麼,問題來了,會不會因為是情節的需要所以導致寫作風格不同了呢?

情節不同會造成用詞習慣多大的差別?

好吧,那我再來做一個旁證。我把另外一部四大名著「三國演義」拿來分析,看看上部跟下部的用詞習慣會不會有比較明顯的差別。

圖說明

這個是三國演義的用詞習慣縮到三維以後的圖,紅色+代表前60部的用詞習慣,藍色o代表後60部的用詞習慣。

你可能會說,雖然中間交叉的地方比較多,但是還是可以看出來是有區分的。

可如果你比對一下跟紅樓夢的圖,你就會發現紅樓夢的差別會明顯得多。

圖說明

紅色+為紅樓夢前80回/三國前60回,藍色o紅樓夢後40回/三國後60回

最後,用機器學習的方式來說,如果我把三國演義隨便一章的用詞習慣告訴它、但不告訴它到底是前60回還是後60回,那麼機器有7成的把握猜對,這個準確度已經遠遠低於紅樓夢的95%的預測水準。

所以,我們用「三國演義」這個旁證來分析,即便是因為情節需要導致的用詞習慣差別也不應該這麼大。

所以,我們就更有信心說曹老先生沒有寫後40回了。

更多的機器學習有趣的玩法,我會在學習的過程中慢慢嘗試的。以上。

本文作者黎晨,原文刊載於他的微信公眾號:黎小晨想太多

關鍵字: #機器學習
往下滑看下一篇文章
看見「電話」的數位轉型契機:有河科技3大優勢,打造AHOY雲端總機服務
看見「電話」的數位轉型契機:有河科技3大優勢,打造AHOY雲端總機服務

數位轉型人人都在談,但你有想過,辦公室裡那支「電話」,升級了嗎?

隨著數位轉型成為企業生存的基本功,中小企業紛紛導入各式雲端服務,包括 ERP、CRM 到協作平台等,卻常常忽略最基本、卻最高頻的工具——通訊系統。事實上,當行動、遠距與多據點辦公成為常態,傳統總機不僅建置與維護成本高、佈線不易,更無法滿足企業靈活運作的需求,成為數位轉型中最容易「卡關」的一環。

也因此,雲端總機迅速崛起,成為企業溝通的新基礎設施。它不只是把「打電話」這件事搬上雲,更讓企業擁有隨時、隨地、跨裝置的溝通能力,真正落實以效率為核心的數位轉型。

很早便洞察此一趨勢的有河科技,以自行研發的 AHOY 雲端總機服務切入市場,短短幾年內便累積近 3,000 家企業用戶,其中高達六到七成來自客戶主動推薦——顯示其服務品質與系統穩定性深受用戶肯定。2025 年上半年,營收更較去年同期成長 16%,在競爭激烈的 B2B SaaS 市場中穩步擴張,展現出強勁的產品實力與市場潛力。

從底層架構開始,打造真正為中小企業而生的雲端總機

提及當初切入雲端總機市場的原因,其實是有河科技創業團隊從實務觀察出發,轉化為產品創新的成果。

「父親本來就在電信領域,而我們一家都有宅男基因,兄弟三人從小就對寫程式很有興趣。」有河科技創辦人 Hank 開玩笑的說,也因此創業初期便以異業合作開發模式,雖能發揮電信系統專長、案件金額相對高,卻也受限於合作方技術本身的瓶頸,或是發展方向的不一致。

為此,有河科技開始思考下一步發展,「我們想跳脫客製化電信系統開發的框架,打造能直接面對市場與客戶的產品。」Hank 坦言,這樣的想法促使他們決定結合父親多年來在電信領域累積的經驗,切入雲端總機領域,發展可長期經營的 SaaS 服務。

有河科技02.JPG
有河科技 Hank
圖/ 有河科技

有河科技另一位共同創辦人 Henry 進一步說明,當時市場上雖已有部分業者推出雲端總機服務,但多半是傳統電話總機的延伸應用。這些業者將國外第三方開源軟體整合至自家的電話交換機產品中,讓客戶可以透過手機接聽公司電話。

「但這些廠商本身擅長的是硬體,不具備軟體開發能力,無法提供完整、穩定的雲端解決方案。」Henry 說,更關鍵的是,企業仍需購買硬體交換機與佈線,才能使用行動分機、內外線錄音等雲端總機功能。「這對新創公司或小微型企業其實很不友善。」Henry 坦言,許多中小企業其實只是希望客戶來電時,可以有一段簡單的語音歡迎詞,建立專業形象,但傳統總機高昂的設備與維運成本,卻讓這些簡易需求難以實現。

有河科技03.JPG
有河科技 Henry
圖/ 有河科技

正因如此,有河科技決定從底層架構開始出發,打造一套高品質、易上手且低成本的雲端總機服務,企業不必添購任何硬體設備,也無需佈線,透過 app 或瀏覽器就能即時接聽與撥打公司電話,實現真正的雲端通訊轉型。

為了實現此一理念,有河科技從底層架構到前端應用,皆選擇自行研發,並在過程中建立起三大關鍵優勢,成為其在市場中脫穎而出的基礎。

優勢1》從硬體到軟體的一條龍架構,確保通訊品質

「建構一套語音系統並不難,難的是讓它穩定、清晰、不中斷,」有河科技共同創辦人 Ian 舉例指出,通話中偶爾出現的海浪聲、波浪聲等,不是單靠軟體就能解決,必須有足夠的電信產業 Know-how 和技術,才知道如何排除問題。

有河科技植基於一代在電信領域的技術、經驗與人脈,結合新一代的軟體開發工程概念,不僅奠定自身在雲端通訊系統的穩固基礎,更能打造從伺服器、後台到前端 app 的一條龍架構,確保每一個環節都能做到最佳化整合。

這種從基礎建設到應用層的全面掌控,不只是技術整合能力的展現,更讓有河科技在眾多雲端總機服務中,建立起一道高品質、高彈性的競爭壁壘。

優勢2》從零打造前端 app,用戶需求即產品動力

在前端 app 上,有河科技選擇從底層開始重新構建 app,而非像多數同業僅使用既有開源軟體或代理第三方軟體,確保未來在功能擴充與版本更新上的自主性與彈性。

「我們很多功能其實都是客戶給的建議,」 Ian 分享,只要客戶提出功能需求,內部就會評估是否具有普遍性,若評估後發現可以滿足八成以上客戶的使用需求,就會主動投入開發並進行系統更新,提供給所有客戶使用。

這種用戶驅動的產品設計思維,不僅讓功能更貼近實務需求,也讓有河科技可以將開發資源集中在最具價值的地方,持續強化系統的共用性與延展性,打造出真正能隨企業成長而調整的雲端通訊平台。

優勢3》彈性 API 整合,支援多元通訊情境

有河科技的軟體研發能力,不只能夠與時俱進的更新產品,還能根據企業需求彈性整合 CRM 等各種系統或客製化開發特殊服務,打造多元化通訊場景。

舉例來說,外送或代駕媒合平台希望提供號碼遮罩(Number Masking)機制,保障司機與用戶的個資安全,有河科技便為此進行開發,當司機在與客戶聯繫時,客戶手機上只會顯示公司的代表號,之後若客戶回撥,AHOY 也能將來電導至接單司機,達到保護隱私又不中斷溝通的雙重目標。

又或是與 LINE API 整合,可以將既有官方帳號商家的通話,直接升級成專業雲端總機系統等級、甚至可以一併介接各家不同特色的 AI 文字客服以及 AI 語音客服,即時產生逐字稿並進行服務品質情緒分析。

在許多企業還將總機視為「基礎設施」時,有河科技早就運用 AHOY 雲端總機服務,重新定義企業與客戶、內部團隊之間的溝通方式。

隨著企業通訊越來越重視彈性與效率,有河科技運用 SaaS 模式與與技術實力,悄悄搶下這波通訊革新的先機。未來,有河科技將聚焦在 WebCall 網頁電話整合介接與 AI 客服兩大應用場景,不僅讓用戶能在 LINE 官方帳號或網站上直接使用 AHOY 通話,也希望藉由異業合作導入更多元 AI 應用,提升服務效率與回應品質,打造更聰明、更好用的智慧通訊平台。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓