人工智慧在麻將領域能戰勝人類嗎?
人工智慧在麻將領域能戰勝人類嗎?

編按:本文作者為段昊,為國際麻將聯盟(MIL秘書),原文刊載於他的知乎,《數位時代》獲授權轉載。

很高興能藉著AlphaGo的東風,和大家分享一下麻將AI研究的現狀。

一、麻將和圍棋有什麼不同?

從博弈論的角度來講,圍棋是完全訊息動態博弈,而麻將屬於非完全訊息動態博弈。圍棋中對局雙方所掌握的訊息是對稱的,而麻將中各對局者間所掌握的訊息不對稱。雖然大家都能看到每位牌手打過什麼牌,但你不知道我的手牌是什麼,我也不知道你的手牌是什麼。這種訊息不對稱的產生的根本原因是牌牆的隨機性。

圍棋與麻將(或者說棋與牌,弈與博)的上述區別,決定了它們獲勝策略的根本不同。棋類項目本質上就是蒙地卡洛樹,獲勝策略就是選擇或迫使對手選擇一個分支,這個分支下面所有的結局都是自己勝。只不過由於棋類變化很多,連AlphaGo也遠不可能遍歷整棵樹,所以AlphaGo會透過價值網路來估計某一分支下勝結局的概率。其實人類的思維也是類似的,在圍棋裡平白被對手屠掉一條大龍,或者在象棋裡平白送給對手一個車總是不好的——在這些分支下,勝結局的概率大大降低了。

01.jpg
圖/ 作者提供

而牌類的獲勝策略在於盡可能增大自己的得分期望(EV)。我並不知道我接下來要摸什麼牌,或我的對手有什麼牌,但所有可能的情形組成一個概率空間,我只需做出一個選擇,使得自己的得分函數的期望最大。牌類策略的難點在於,影響這一概率空間的因素過多,且具體影響很難確定,比如對手打牌的習慣。

下圖選自《科學化麻雀》,閒家愚形聽牌打10%危險度的牌對攻,x軸為自己和牌時得分,y軸為牌局巡次,z軸為自己的得分期望。

二、何謂「獲勝」?

選手的競技水平如何衡量?麻將是否是「運七技三」的遊戲?其實無論圍棋還是麻將,區分選手的競技水平都不可能只靠一局,就好比AlphaGo和李世乭要進行五番棋對決,AlphaGo贏第一盤時大家並不覺得AlphaGo一定比李世乭強一樣。圍棋有三番、五番、十番棋,對於競技麻將(國標麻將、日本麻將)而言,區分頂尖選手的競技水平至少需要2,000~10,000手牌(如果採用類似橋牌的複式賽制,這一數字會大幅降低)。

至於衡量一個競技項目的競技性,單純用運氣所佔比例是沒有意義的。隨著對局數的增大,運氣所佔比例會越來越小,選手的長期成績必然會向其真實水平收斂。一個競技項目的競技性應當用「區分選手競技水平所需必要對局時間」來衡量。比如圍棋需要三番棋,麻將需要2,000手牌,圍棋一盤平均需要4小時,三番棋約12小時,而麻將一手牌約3分鐘(網路對局),2,000手牌約100小時。麻將相比圍棋有運氣成分,並不意味著麻將選手的競技水平無法衡量,而意味著麻將需要更多的對局時間來區分選手的競技水平。

下圖選自日本麻將平台天鳳麻雀鳳凰桌1,000場以上玩家安定段位排行。這裡的「試合」是指半莊,也就是兩圈牌,考慮到連莊,平均一試合是10手牌,1,000試合是10,000手牌。可以看到牌手的競技水平得到了很顯著的區分,結果也與麻將圈內認知相似。(具體講解請參見

02.jpg
圖/ 作者提供

所以在這個問題下我們討論麻將AI能否戰勝人類,指的是麻將AI長期成績(10,000手牌以上)能否比人類更好,並不是單指一手牌。只打一手牌,誰都有可能和牌,這是牌類游戲的本質所決定的。

當然,這裡也不考慮牌手或AI作弊的問題。如果透過作弊獲得別人手牌的非法訊息,麻將的競技平衡就完全被打破了。再強的麻將AI成績也不可能比作弊的人類好,反之亦然。事實上,現在很多單機麻將游戲的AI就是透過作弊來增加「智慧」的。

三、麻將會成為人類面對人工智慧的「最後壁壘」嗎?

一言以蔽之,麻將AI不是做不了,而是沒人做。之所以目前還沒有能夠戰勝人類的麻將AI,主要原因還是人們在麻將AI研究方面的投入不夠。目前的麻將AI基本都是麻將游戲製作團隊為麻將遊戲設計的,在單機上就可以運行,強度自然有限。如果像AlphaGo一樣,世界頂級團隊製作,背後龐大資金支持,使用1,000個CPU運行,想要設計一個輕易戰勝人類頂尖麻將牌手的AI沒有任何難度。

首先,麻將的複雜度要遠遠小於圍棋。單就自己的14張手牌來說(總牌數136張),組合共有326,520,504,500種(計算方法詳見麻雀の數學),遠遠小於圍棋的2.08×10^170。不足10^12的手牌種類意味著麻將AI完全可以提前計算好每手牌的打法估值並儲存在資料庫中,打牌時調用即可。

03.jpg
圖/ 作者提供

當然,打麻將也要考慮別人打的牌以及各家的得分。各家分差的複雜度是很小的,而別人打的牌雖然複雜度會很高(136張牌的牌牆組合為4.3×10^185種,甚至超越了圍棋的複雜度),但別人打的10張牌大多只有1~2張是有用的訊息,AI只需要識別這種模式並蒐索對比以往對局的牌譜即可。

其次,人類對麻將的研究遠不及圍棋,頂尖麻將牌手的訓練水平很低。相比圍棋研究幾千年的歷史,麻將誕生不過百餘年,人們真正開始利用科學手段(統計學、大數據)來研究麻將只是近十年剛剛起步。例如「間四間」是上世紀流行的日本麻將理論,指的是別人打過中間相隔4張的2張同花色數牌,則這2張牌的內側筋牌是危險牌。如別人打過三筒、八筒(中間相隔四五六七筒),則四七筒是危險牌,這是因為別人手裡一開始可能是三五六八筒,三八筒效率較低被打掉,留下的五六筒要四七筒。這一理論在近十年的大數據研究中已被證明是完全錯誤的——別人要四七筒的概率並沒有顯著性的上升。

05.jpg
圖/ 作者提供

可見,目前人們對麻將的研究還處在很初級的階段,透過別人打過的牌來分析別人想要的牌的科學研究才剛剛開始。麻將界也沒有圍棋那樣3歲開始學棋,10幾歲就和世界頂級高手過招,接受世界頂級指導的職業選手。麻將本身複雜度低,人類頂尖牌手水平又不高,被人工智慧擊敗會比圍棋要容易得多,不可能是「最後壁壘」。

四、現在有哪些比較強的麻將AI?

競技麻將方面,目前國標麻將和日本麻將都有比較強的AI(高於人類平均水平)。日本麻將的AI目前最強的當然是「爆打」。

06.jpg
圖/ 作者提供
07.jpg
圖/ 作者提供

「爆打」是由東京大學工學系在讀博士生水上直紀開發的日本麻將AI,他所在的課題組就是專門研究麻將AI的。爆打和AlphaGo一樣,也具有自我對局和分析並學習人類牌譜的能力。水上發表過的論文題目為《Realizing a Four-Player Computer Mahjong Program by Supervised Learning with Isolated Multi-Player Aspects》,全文詳見

爆打從2015年開始在最大的日本麻將平台——天鳳麻雀上開始運行,至2016年2月已經打了1.3萬多場(約13萬手牌)。 2015年9月,爆打達到天鳳麻雀四段,2015年12月更是一度衝進天鳳七段,長期成績顯示平均為六段以上。這意味著什麼呢?

08.jpg
圖/ 作者提供

上圖是天鳳麻雀平台2016年3月13日的段位成績分佈圖。天鳳平台具有非常科學的段位和Elo Rating體系,越是和高水平牌手對局,獲勝後Rate增加越多,失敗後Rate減少越少;越是和低水平牌手對局,獲勝後Rate增加越少,失敗後Rate減少越多。最終段位和Rate值的穩定值就代表了牌手的真實實力。

可以看到,天鳳麻雀平台的活躍用戶數約為17萬人(不包括新人殭屍號),而六段以上的用戶總數為5793人,約佔3.4%。也就是說,爆打打麻將比96.6% 的麻將玩家要好,全世界麻將打得比爆打好的人,數量僅有幾萬人左右(包含所有麻將規則的估算)。這只是一個課題組,用時一年多研究出的,在一台電腦上運行的麻將AI,就已經基本趕上AlphaGo早期版本所取得的成績了。

國標麻將方面,目前最強的AI大概是我本人目前正在參與設計的國標麻將AI了。最初的版本只加入了最常用的十幾個番種的分值判斷,防守端幾乎沒有做,實測對隨機牌手和牌率就已經達到24% 左右,基本與國標麻將平均和牌率24.3%持平(國標麻將數據可見)。實際水平大概處在所有牌手中上位10~20%左右的水平(低段位牌手多,大部分牌手的水平處在平均以下)。

五、麻將AI的算法應該是什麼樣子的?

最後,我來淺談一下麻將AI的基本算法。

1. 基礎牌效率

麻將的牌效率指的是能使手牌更快和牌的打牌方法,是麻將的基本功。來簡單舉個例子:

09.jpg
圖/ 作者提供

這是一手13張牌的手牌,現階段是一上聽(差1張牌就可以聽牌),那麼哪些牌是有用的牌,或者說我摸到哪些牌會留下呢?這些有用的牌稱為「有效牌」,最有用的當然是能讓我直接聽牌的牌,這類牌稱為「第一類有效牌」。

  • 第一類有效牌:能使手牌向和牌前進一步(上聽數降低)的牌,包括:
10.jpg
圖/ 作者提供

除了第一類有效牌,有用的牌還有以下這些:

  • 第二類有效牌:不能使上聽數降低,但能使第一類有效牌增多的牌,包括:
11.jpg
圖/ 作者提供

比如摸到九索,一般情況下應該選擇留下九索打掉三索,因為第一類有效牌變多了:(註:計算採用天鳳牌理オンライン対戦麻雀 天鳳 / 牌理。)

12.jpg
圖/ 作者提供
  • 第三類有效牌:不能使上聽數降低,也不能使第一類有效牌增多,但能使第二類有效牌增多的牌,包括:
12.jpg
圖/ 作者提供

比如摸到五索,一般情況下應該選擇留下三五索拆掉八九索,雖然第一類有效牌張數沒變,但三五索相比八九索多了1種第二類有效牌——六索(原是第三類有效牌)。

14.jpg
圖/ 作者提供

(也許看到這裡,你有點算不過來,或者感覺這和你平時打的麻將壓根不是一個遊戲。沒關係,這很正常,你可以找張紙,在紙上仔細算一下每種第二類有效牌都新增了哪些第一類有效牌。)

可見,對於一開始一上聽的13張手牌而言,除了七八九筒外的所有數牌都是有用的牌。麻將的牌效率就是這樣——不斷透過有效牌增大自己的進張面,最終使得和牌的概率越來越大。也許你已經發現,麻將牌效率的本質就是一個搜索樹,最開始的手牌:

15.jpg
圖/ 作者提供

經過多輪選擇後可能對應多種結局(和牌),例如:

16.jpg
圖/ 作者提供

路徑:摸到第一類有效牌八萬或七索聽牌,再自摸另一張和牌(最大概率結局)。

17.jpg
圖/ 作者提供

路徑:先摸到第二類有效牌一萬或七萬後打掉三索,然後摸到一萬或七萬的另一張聽
七索,或者摸到七索選擇聽一萬和七萬對倒和牌。

18.jpg
圖/ 作者提供

路徑:先摸到第三類有效牌三筒後打掉三索,然後摸到四筒後拆掉八九索,之後和牌。

對於一個兩上聽以內的手牌來說,這個樹的深度最多也就是4~5步,每一步的分支平均在15種左右,也就是說複雜度最多在10^5數量級。由於每條路徑都對應著一個確定的概率,一個好的麻將AI完全可以做到遍歷這個樹,比較兩種或更多種打牌選擇之間所對應結局的和牌期望之和。

對於三上聽以外的手牌(由上文圖中可知三上聽以外的手牌約佔手牌所有組合的80%),由於手牌中會存在大量的孤張或簡單搭子,只需單獨比較孤張或簡單搭子的效率即可,計算量更小。

除了上述窮舉手牌搜索樹的方法,還可以採用模擬的方法。比如讓麻將AI在短時間內模擬兩種打法各1,000手牌,哪個和牌率更高就選哪種打法。雖然這樣不太精確但已經足夠保證比人要強了。

2. 和牌限制與番數價值

很多麻將規則對和牌有限制,比如國標麻將必須八番起和,四川麻將必須缺一門,太原麻將和牌必須包含指定牌張等等。我們只需在上述基礎牌效率算法搜索樹的基礎上,「砍掉」那些結局不符合要求的分支即可。

有些時候我們不僅關注和牌的概率,也關注和牌的大小,比如有些牌我們寧可損失一些進張也想去做清一色,追求更高的和牌得分。我們只需為樹的所有結果賦值(和牌得分),並用結局對應的值與路徑對應的概率求出不同打法的得分期望並進行比較。

3. 副露判斷

「這個牌該不該碰」似乎是打麻將時比較令人頭疼的問題。但其實副露判斷只是計算量大,並不需要特殊的算法,依然是對比碰與不碰兩種選擇所對應的所有結局的得分期望即可。日本麻將中的立直(報聽)判斷也是同理。只不過當我們在考慮「打哪張好」的時候,兩種打牌選擇之間所對應的路徑和結局有大部分都是重合的;而我們在考慮「該不該碰」的時候,兩種選擇所對應的路徑和結局基本是完全不同的,這無形中增大了計算量。其實人腦在做蒙特卡洛樹搜索時,比較容易做到「想得很深」,比如職業棋手可以提前算到20甚至30步棋;但難以做到「想得很廣」,通常情況下大腦只能做到從兩種選擇中找幾個概率較大、有代表性的結局樣本做比較。所以副露判斷顯得難,其實只是計算量的問題,而對於麻將AI來說,這不是問題。

4. 防守端

防守端需要解決的是攻守判斷和防守打法兩個問題,即「什麼時候要防守」和「要防守應該打什麼」。解決這些問題最好的方法是讓麻將AI自己透過大量的牌譜(千萬場量級)進行自我學習。正如前文我所提到的,其實人們對於麻將應該如何科學防守的研究也才剛剛開始,想要分析一個打過三筒和八筒的人真正需要的是幾筒,需要大量的牌譜作為樣本進行研究。這部分研究現在還要等待電腦去完成,未來的麻將AI在這方面要比人類做得更好可以說是必然的。對大量牌譜所做的出牌模式研究還可反過來應用於牌效率算法的改進中。比如早巡打過八萬的人手牌中有九萬的概率較小,那麼牌牆中剩餘九萬的概率就有所上升,牌效率中利用九萬的路徑的概率就可以做出相應的修正。

5. 狀況判斷

狀況判斷指的是麻將的「大局觀」,如為了爭取第一名或者為了規避第四名而採取不同的策略。狀況判斷其實就是對得分期望做進一步的修正。比如某狀況下我必須自摸13番牌才能逆轉,那麼最終結果是13番以下的牌的得分期望可以進一步降低,而13番及以上的牌的得分期望則可以提高。

總之,麻將的複雜度較低,演算法上可以用搜索樹窮舉法以及大量牌譜的自我學習來解決,只要有大量牌譜資料,有人肯花時間,有人願意出資,開發一個能勝過人類的麻將AI,非常容易。

本文授權轉載自:段昊知乎

往下滑看下一篇文章
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率
從會員數據到 AI 行銷:Vpon 打造零售業 AI-Ready 數據中台,提升決策效率

在 AI 快速進入企業營運核心的時代,數據不再只是被動的分析素材,而是 AI 模型運作與決策優化的重要基礎。

零售品牌積極累積大量第一方數據,例如會員資料、交易紀錄以及線上與線下行為數據,但因這些數據分散於不同系統,缺乏統一的身分識別機制以及明確的元數據(Metadata)定義,導致難以整合與分析,同時,也影響 AI 對這些數據資產的理解與應用。

為解決上述挑戰,Vpon 威朋將累積十餘年的實務經驗轉化為產品與服務,如 Audience Center 與 AI Agent 等解決方案,並透過專業顧問團隊協助企業完成數據收集、清理、整合與分析等關鍵流程,從資料清理到 AI-Ready 再到落地應用,讓行銷與業務團隊能以自然語言將數據查詢與分群受眾逐步自動化,大幅縮短過去仰賴技術與分析團隊溝通需求與開發分析邏輯的時間。

Vpon 助零售業打造 AI-Ready 數據基礎,以 Audience Center 驅動業務商機

如何建立 AI Ready 數據基礎建設?

Vpon 威朋數據科學經理廖宜楷指出,在 AI 驅動的時代,數據的品質決定模型價值。其中四個關鍵分別是:建構標準化的數據採集與處理管線,透過統一的工程規範,確保所有進入系統的數據在格式、維度與質量上具備高度一致性;其次是定義語義清晰的元數據(Metadata)體系,確保數據能夠被 AI 理解與使用,從而產出具備可靠性的產出結果;再來是打破企業內部的「數據孤島」, 透過完整整合線上(Web/App)行為與線下(POS/CRM)會員資訊,建構全方位的會員數據輪廓,精準捕捉消費者的跨通路行為軌跡。最後,數據的價值隨時間遞減,AI 的決策品質取決於數據的「新鮮度」,因此,數據的持續更新與自動化維護,不僅能讓企業在動態市場中保持敏銳,還可進一步深化會員輪廓分析的即時性。

舉例來說,在 Vpon 團隊的協助下,台灣百貨零售龍頭透過整合 Web 與 App 行為資料,並將線上與線下數據集中於數據中台進行分析,將傳統耗時數小時的複雜資料庫分析工作縮短至秒級回應,並基於此高效率基礎,進一步開發不同業務主題的預測與分群模型,提升行銷精準度與營運決策的敏捷性。

扎實數據基礎的價值落實:Audience Center 如何賦能企業實現「數據即戰力」?

有了堅實的數據底座後,下一步是透過 Audience Center 將數據資產轉化為商業動能。

廖宜楷指出,在變化快速的零售與數位行銷市場中,速度就是競爭力。然而,仍有許多企業在數據應用上面臨嚴重的溝通與技術斷層。過去,當行銷或業務人員需要數據支持時,通常得花費繁複的內部流程申請需求、討論需求,才會進到後續的資料清理、建模與分析,最後才能得到想要的分析結果或行銷名單。這種以「週」為單位的進程,不僅拖慢了決策效率,更讓企業在競爭激烈的市場中錯失先機。

Audience Center 的核心價值在於徹底翻轉上述流程,將數據處理轉化為數據服務,透過直覺的介面與背後扎實的數據基礎支撐,讓非技術人員不用編寫程式碼,即可自行組合維度,大幅縮短從需求到執行的距離,將原先需要耗時數週的作業流程優化成秒級產出。

「Audience Center 的導入,不僅有助於提升效率,更賦予企業快速試錯與精準捕獲趨勢的能力,讓數據真正成為驅動業務增長的引擎。」廖宜楷如此總結。

#1 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學經理 廖宜楷
圖/ 數位時代

以 AI Agent 重塑數據使用方式,讓數據更貼近決策流程

「Vpon 除提供 Audience Center 協助品牌發揮第一方數據資產價值、提供豐沛的第三方數據助品牌深化對客戶輪廓的掌握度,更推出 AI Agent 服務讓品牌與行銷人員能更直覺地使用數據。」Vpon 威朋數據科學資深總監陳文謙表示,在數位轉型的過程中,許多企業面臨的挑戰不僅是數據整合,更包括如何讓不同部門的人員都能更即時協作與應用數據,有鑑於此,Vpon 推出四種 AI Agent 協助企業分析與應用數據,極大化第三方數據成效:

第一,以 Reporting Agent 讓高階主管或行銷人員可以自然語言查詢數據與生成報表,即時掌握市場動態,加速決策下達與決策品質。

第二,透過 Insight Agent 確保數據分析不受分析人員的主觀意識或產業知識侷限,可以輕鬆完成跨領域數據分析、快速挖掘潛在市場機會與消費者洞察。

第三,藉由 Audience Agent 將客戶分群方式從規則導向(Rule-based)轉變為關聯導向,以關聯分析擴大受眾範圍,協助品牌找出更多潛在客群。

第四,推出 Creative Agent 協助行銷人員分析廣告素材表現的根本原因,釐清受眾喜歡的素材跟不喜歡的素材,藉此優化廣告投放內容,持續提升轉換率。

陳文謙表示:「透過 AI Agent 的輔助,品牌不僅能更快完成數據分析,也能將分析結果直接轉化為行銷策略與創意建議,降低跨部門溝通成本,讓數據真正參與決策流程。」

#2 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋數據科學資深總監 陳文謙
圖/ 數位時代

鏈結數據生態夥伴,以跨境數據放大行銷效益

除了協助品牌主建立 AI Ready 的數據基礎環境並提升數據使用效率,Vpon 也持續拓展數據生態圈,協助零售品牌更精準布局海外市場。

Vpon 威朋產品行銷資深經理邱心儒表示,跨境行銷過去多仰賴經驗與市場直覺,但透過數據整合與 AI 分析,品牌能更精準理解海外消費者的旅遊與消費行為。

以 Vpon 與日本 Loyalty Marketing Inc. 合作為例說明,透過雙方的獨家合作,企業可以結合 Ponta 超過一億的會員數據、問卷調查結果以及 Vpon 的七大數據來源,深入分析日本消費者的消費偏好與購買力——包括哪些日本族群對台灣品牌最感興趣、最受歡迎的台灣商品類型,以及不同客群的價格敏感度與回購行為等,將行銷決策從過往的經驗判斷轉變為精準的數據洞察,成為品牌出海的重要工具。

簡言之,對零售品牌而言,跨境數據是理解海外旅客真實樣貌的一大利器,也能進一步優化廣告投放、內容策略與商品布局,讓品牌在拓展國際市場時,可以更有效率地接觸潛在客群,放大行銷效益。

#3 從會員數據到AI行銷:Vpon打造零售業AI-Ready數據中台,提升決策效率
Vpon 威朋產品行銷資深經理 邱心儒
圖/ 數位時代

展望未來,Vpon 將持續擴展數據生態圈並優化產品服務,幫助零售品牌從數據整合、AI 分析到市場決策建立完整的數據應用循環,希望以數據夥伴的角色與品牌共同成長,打造互利共贏的數據生態。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓