Google的開源機器學習系統TensorFlow,繼之前學會創作藝術作品後,又學會一項新技能:做新聞摘要。
(圖說:Google的開源機器學習系統TensorFlow可自動替新聞做摘要。圖片來源:shutterstock)
Google今天在部落格釋出這套替新聞摘要模型的開源程式碼,並指出,透過讓機器學習如何找出文章重點,可以測試機器的閱讀理解能力;這對機器來說相當有挑戰性,且難度會隨著文章變長而增加。
貼近人類語意的「概略式摘要」
Google說明,其中一種自動產生摘要的方式為,藉由比對過去研究的單字權重,判斷哪些字在文章可能帶有重要意義,並選出這些單字、集合成摘要,這個方法被稱作「萃取式摘要(Extractive summarization)」,例如:
原文: Alice和Bob搭火車去動物園參觀,他們看到長頸鹿、獅子,以及一群五顏六色的熱帶鳥。
摘要: Alice和Bob去動物園參觀。看到一群鳥。
上述摘要範例,為將原文加粗的單字萃取出來,組合成一段句子,但有時句子看起來很怪,文法也不對。另一種摘要方式,則是不限制僅使用原始句子出現的單字,可採用和原本單字相似、但含括更多意思的單字,稱作「概略式摘要(Abstractive summary)」,例如:
摘要:Alice和Bob去動物園參觀,並且看到動物和鳥。
TensorFlow即是透過「序列到序列(sequence-to-sequence)」的深度學習技術,讓模型可自動產生「概略式摘要」,目前TensorFlow已可以精準找出新聞摘要,例如:
原文:從7月1號起,中國南方的海南島將對所有進口的家畜和動物產品,實行嚴格的市場進口管制,以防止傳染病蔓延的可能。
摘要:海南抑制疾病蔓延。
原文:根據政府統計部在星期一公布的報告,澳洲酒類出口量在9月時以5,210萬公升、價值2.6億的紀錄創新高。
摘要:澳洲酒類出口量在9月紀錄創新高。
希望將模型用於更複雜的文章
Google指出,由於新聞文章的特性,TensorFlow僅需擷取文章開頭的幾句話,就可以下很好的標題,但希望未來能將這套模型用於更難的文章,替整份文件摘要。
有趣的是,這套模型令人想到,微軟Word 2008也曾推出替文件自動摘要的工具Document.AutoSummarize,不過有網友將熱門電子書摘要後,結果令人哭笑不得,比對微軟說的「Word已經檢視整份文件,挑選出和主題最相關的句子」,十分諷刺。但也不禁令人好奇,Google的TensorFlow摘要整本書時,是否也能產生如此精準的結果。
代表圖來源:shutterstock
資料來源:Google Research