新聞編輯當心了?Google人工智慧TensorFlow可自動替新聞下標

2016.08.25 by
張庭瑜
新聞編輯當心了?Google人工智慧TensorFlow可自動替新聞下標
Google的開源機器學習系統TensorFlow,繼之前學會創作藝術作品後,又學會一項新技能:做新聞摘要。(圖說:Google的開源...

Google的開源機器學習系統TensorFlow,繼之前學會創作藝術作品後,又學會一項新技能:做新聞摘要。

圖說明
(圖說:Google的開源機器學習系統TensorFlow可自動替新聞做摘要。圖片來源:shutterstock)

Google今天在部落格釋出這套替新聞摘要模型的開源程式碼,並指出,透過讓機器學習如何找出文章重點,可以測試機器的閱讀理解能力;這對機器來說相當有挑戰性,且難度會隨著文章變長而增加。

貼近人類語意的「概略式摘要」

Google說明,其中一種自動產生摘要的方式為,藉由比對過去研究的單字權重,判斷哪些字在文章可能帶有重要意義,並選出這些單字、集合成摘要,這個方法被稱作「萃取式摘要(Extractive summarization)」,例如:

原文Alice和Bob搭火車去動物園參觀,他們看到長頸鹿、獅子,以及一群五顏六色的熱帶

摘要: Alice和Bob去動物園參觀。看到一群鳥。

上述摘要範例,為將原文加粗的單字萃取出來,組合成一段句子,但有時句子看起來很怪,文法也不對。另一種摘要方式,則是不限制僅使用原始句子出現的單字,可採用和原本單字相似、但含括更多意思的單字,稱作「概略式摘要(Abstractive summary)」,例如:

摘要:Alice和Bob去動物園參觀,並且看到動物和鳥。

TensorFlow即是透過「序列到序列(sequence-to-sequence)」的深度學習技術,讓模型可自動產生「概略式摘要」,目前TensorFlow已可以精準找出新聞摘要,例如:

原文:從7月1號起,中國南方的海南島將對所有進口的家畜和動物產品,實行嚴格的市場進口管制,以防止傳染病蔓延的可能。
摘要:海南抑制疾病蔓延。

原文:根據政府統計部在星期一公布的報告,澳洲酒類出口量在9月時以5,210萬公升、價值2.6億的紀錄創新高。
摘要:澳洲酒類出口量在9月紀錄創新高。

希望將模型用於更複雜的文章

Google指出,由於新聞文章的特性,TensorFlow僅需擷取文章開頭的幾句話,就可以下很好的標題,但希望未來能將這套模型用於更難的文章,替整份文件摘要。

有趣的是,這套模型令人想到,微軟Word 2008也曾推出替文件自動摘要的工具Document.AutoSummarize,不過有網友將熱門電子書摘要後,結果令人哭笑不得,比對微軟說的「Word已經檢視整份文件,挑選出和主題最相關的句子」,十分諷刺。但也不禁令人好奇,Google的TensorFlow摘要整本書時,是否也能產生如此精準的結果。

代表圖來源:shutterstock
資料來源:Google Research

註:用於TensorFlow測試文章皆為英文,本篇範例為自行翻譯。

每日精選科技圈重要消息