AI預測《冰與火之歌》角色存活率:「龍媽」能活到最後

2019.04.26 by
PingWest
PingWest 查看更多文章

宣導「有品好玩的科技一切與你有關」,開始構建科技創新實踐者與消費者的共用社區,成為科技融入生活與消費方式的創新實驗室。

HBO
《冰與火之歌:權力遊戲》終於迎來了最終季,人們紛紛猜測誰會是活到最後的那一個。看起來萬能的人工智慧已經搶先給出了「科學答案」。

不久前,一個來自德國慕尼黑工業大學(TUM)的團隊開發出一套機器學習算法,預測了《冰與火之歌:權力遊戲》中每個角色的死亡概率。

結果被直觀地展現在專門為此製作的網站上。截至目前,主要角色中存活率最高的前三位分別是丹妮莉絲·坦格利安(死亡概率0.9%,下同)、提利昂·蘭尼斯特(2.5%)和瓦里斯(3.2% )。

存活率最低的三位則是僱傭兵波隆(93.5%)、瑟曦的貼身侍衛「魔山」(80.3%)和珊莎·史塔克(73.3%)。瓊恩·雪諾的弟弟布蘭·史塔克也以57.8%的死亡概率緊隨其後。

值得注意的是,由於機器學習的特點,所有角色的存活率隨著劇中時間的推移也會出現輕微變化。譬如,龍媽在劇中當前紀年的存活率為99.12%,下一年則為98.6%。

同樣,該演算法也預測了原著《權力遊戲》中每個角色的存活率,數值與電視劇略有不同。

性別、出身、婚戀狀況⋯⋯這些都是影響因素

除了上述提到的幾個角色,其他一些主要的角色的死亡概率如下:

  • 瓊恩·雪諾:12%
  • 瑟曦·蘭尼斯特:5%
  • 詹姆·蘭尼斯特:4%
  • 艾莉亞·史塔克:47%
  • 席恩·葛雷喬伊:10%
  • 喬拉·莫爾蒙:28%
  • 山姆威爾·塔利:3%
  • 戴佛斯·席渥斯:45%
  • 布蕾妮:13%
  • 桑鐸·克里岡:48%

在每個角色的對應頁面,都展示了更細緻的數據分析。諸如性別為何、是否是貴族出身、屬於哪個家族、是否是主要角色、是否結婚等等,都成為一個角色存活率的影響因素。

比如龍媽的主頁顯示,她是一個已婚人士,因而其死亡概率降低了55.7%;因為是坦格利安家族後裔,概率降低了42.3%;因為是主要人物,概率又降低了16%。

瓊恩.雪諾的情況是,同樣身為主要人物死亡概率降低了16%;因為史塔克家族成員的身份,降低了38.3%;不過因為是男性,其死亡概率增長了100%。

實際上針對角色的性別和出身,算法已經得出了一個統一的概率:女性的死亡概率為11%,男性為22%;貴族為18%,平民為25%。

兩個計算模型

相比於網站展示的內容,其背後涉及到的數據和原理要龐大和復雜得多。

這一基於機器學習的預測之所以能夠成型,首先多虧了劇迷們的數據貢獻。網站顯示,演算法的數據主要有5個來源,分​​別是《A Wiki of Ice and Fire》、《A Game of Thrones wiki》、《AMediaWiki》、維基百科以及Twitter。

其中《A Wiki of Ice and Fire》和《A Game of Thrones wiki》是最重要的兩個來源。前者是一個由劇迷自建的百科類網站,當中有關於整個《權力遊戲》非常詳盡的人物、歷史、地理、文化等等介紹;後者則更多是一個劇迷討論社群。

這些網站內包含的龐大數據提供了算法所需的原料。算法會從中提取諸如一個角色是否已經死亡、有哪些屬性(如性別、年齡)等等信息。

接下來就是如何處理這些數據。他們採用了兩種機器學習領域的計算模型:基於貝葉斯推斷(Bayesian Inference)的生存分析方法,以及神經網絡(Neural Network)。

基於貝葉斯推斷的生存分析方法

貝葉斯推斷的理論基礎為概率論中的貝葉斯定理,後者描述的是在已知一些條件下,某事件的發生概率。舉例來說,如果已知某癌症與壽命有關,在這一定理之下就可以透過得知某人年齡,來更加準確地計算出他患上癌症的概率。

用到劇中角色的死亡概率預測上也是同樣的道理。

該團隊首先選取了家族(House)、情人數量(Lovers)、婚姻狀況(Marriage)、頭銜數量(Titles)、角色的重要性(Major/Minor character)以及性別(Male),作為和角色死亡概率掛鉤的幾個因素。

以年為單位,每一年、每個角色的上述某些屬性都可能出現改變。這樣,如果已知死亡和家族出身有關,就可以通過得知某個角色所屬的家族,來計算出他在這一年的死亡概率。而綜合考慮多種因素,就可以建立一個角色的生存函數。

在一些更加複雜的模型計算中,貝葉斯推斷往往需要結合其他算法進行訓練。這次的角色死亡概率預測就採用了一個名為「馬爾可夫鏈蒙特卡洛(MCMC)」方法的算法。

這一算法也是眾多經典的貝葉斯推斷方法之一,但因其包含了大量的數學知識和運算量這裡暫不贅述。

神經網絡

另一個運算模型神經網路,也可以認為是與貝葉斯生存分析互為補充。

神經網路的原理不難理解。它最重要的功能就是進行分類,比如在網路上的一堆照片裡,區分出哪些照片裡的人物是男性、哪些是女性。

在這裡我們把輸入的照片稱作向量,用於執行操作的系統稱作分類器。假設男性照片對應的是數值0,女性對應數值1,那麼最後分類器輸出的將是一個更便於統計的數值0或1。

一般的做法是,需要先人為給定分類器一些樣本,告訴它正確的分類,繼而對其進行訓練。

與貝葉斯方法不同的是,該團隊在訓練神經網絡時選取的影響死亡概率的因素包括了以下幾種:性別(gender)、網頁排名(page rank)、親屬數量(number of relatives)、當前年齡(age)、效忠人數(allegiances)、出現的集數(episodes the character appeared in)以及頭銜數量(titles)。

和貝葉斯方法類似,神經網絡也會建立一個角色生存函數,繼而得出角色可能的死亡概率。

不過在這次角色死亡機率預測裡,有幾個影響因素很難用兩個簡單的數值區分,比如出現的集數。解決辦法是為每一集創建向量(因為集數已經是一個確定的值),這裡的向量就是每個角色。輸入角色,分類器再對其是否在該集出現進行區分,若出現則標記1.0,未出現則標記0.0。

此外,相比於貝葉斯方法,神經網絡能夠潛在地找到更複雜的模型,並且涵蓋更多可能被貝葉斯方法認為是隨機異常事件的死亡可能性統計。

當然,不論上述哪一種方法,最終都是數據計算的結果。數字可能虛假的,但粉絲對《權力遊戲》的熱愛是真實的。

本文授權轉載自:Pingwest

延伸閱讀

每日精選科技圈重要消息