新聞編輯當心了？Google人工智慧TensorFlow可自動替新聞下標|數位時代 BusinessNext

Google的開源機器學習系統TensorFlow，繼之前學會創作藝術作品後，又學會一項新技能：做新聞摘要。

圖說明
（圖說：Google的開源機器學習系統TensorFlow可自動替新聞做摘要。圖片來源：shutterstock）

Google今天在部落格釋出這套替新聞摘要模型的開源程式碼，並指出，透過讓機器學習如何找出文章重點，可以測試機器的閱讀理解能力；這對機器來說相當有挑戰性，且難度會隨著文章變長而增加。

貼近人類語意的「概略式摘要」

Google說明，其中一種自動產生摘要的方式為，藉由比對過去研究的單字權重，判斷哪些字在文章可能帶有重要意義，並選出這些單字、集合成摘要，這個方法被稱作「萃取式摘要（Extractive summarization）」，例如：

原文： Alice和Bob搭火車去動物園參觀，他們看到長頸鹿、獅子，以及一群五顏六色的熱帶鳥。

摘要： Alice和Bob去動物園參觀。看到一群鳥。

上述摘要範例，為將原文加粗的單字萃取出來，組合成一段句子，但有時句子看起來很怪，文法也不對。另一種摘要方式，則是不限制僅使用原始句子出現的單字，可採用和原本單字相似、但含括更多意思的單字，稱作「概略式摘要（Abstractive summary）」，例如：

摘要：Alice和Bob去動物園參觀，並且看到動物和鳥。

TensorFlow即是透過「序列到序列（sequence-to-sequence）」的深度學習技術，讓模型可自動產生「概略式摘要」，目前TensorFlow已可以精準找出新聞摘要，例如：

原文：從7月1號起，中國南方的海南島將對所有進口的家畜和動物產品，實行嚴格的市場進口管制，以防止傳染病蔓延的可能。
摘要：海南抑制疾病蔓延。

原文：根據政府統計部在星期一公布的報告，澳洲酒類出口量在9月時以5,210萬公升、價值2.6億的紀錄創新高。
摘要：澳洲酒類出口量在9月紀錄創新高。

希望將模型用於更複雜的文章

Google指出，由於新聞文章的特性，TensorFlow僅需擷取文章開頭的幾句話，就可以下很好的標題，但希望未來能將這套模型用於更難的文章，替整份文件摘要。

有趣的是，這套模型令人想到，微軟Word 2008也曾推出替文件自動摘要的工具Document.AutoSummarize，不過有網友將熱門電子書摘要後，結果令人哭笑不得，比對微軟說的「Word已經檢視整份文件，挑選出和主題最相關的句子」，十分諷刺。但也不禁令人好奇，Google的TensorFlow摘要整本書時，是否也能產生如此精準的結果。

代表圖來源：shutterstock
資料來源：Google Research

新聞編輯當心了？Google人工智慧TensorFlow可自動替新聞下標

貼近人類語意的「概略式摘要」

希望將模型用於更複雜的文章

註：用於TensorFlow測試文章皆為英文，本篇範例為自行翻譯。