Google翻譯新版到底有多厲害?

2015.01.15 by
PingWest
PingWest 查看更多文章

宣導「有品好玩的科技一切與你有關」,開始構建科技創新實踐者與消費者的共用社區,成為科技融入生活與消費方式的創新實驗室。

上週末,紐約時報的一篇有關於語言翻譯技術進步的報導,讓許多人為科技發展的速度之快所震撼:該報導指出,Google多年沒有過大變化的翻譯(Go...

上週末,紐約時報的一篇有關於語言翻譯技術進步的報導,讓許多人為科技發展的速度之快所震撼:該報導指出,Google多年沒有過大變化的翻譯(Google Translate)服務,即將迎來一次大功能更新,將可聆聽並識別用戶所講的語言,然後幾乎即時將語音翻譯為目標語言的文字。這個功能聽上去十分強大,看起來Google的自然語言處理技術已經發展的足夠好,估計可以讓不少翻譯和同步口譯丟掉工作了。

Google翻譯是目前全世界最多人使用的翻譯產品,支援90種語言之間的互相翻譯,包括了阿拉伯語、英語、法語、德語、漢語、西班牙語等在內的所有熱門語種。紐約時報的報導顯示,web、iOS和Android等各平台上的月活躍用戶已經超過了5億,僅Android版Google翻譯應用的下載安裝量(這是一款非預裝應用)就已經高達1億。

在機器翻譯的領域內主要由三種大層面上的翻譯技術門類,分別為「基於規則」(rule-based)、「基於統計」(statistical-based)和「混合」。其中,Google屬於「基於統計」,可以透過用戶直接搜尋的翻譯結果、對網頁內容的抓取翻譯等多種不同的渠道獲取大量的語料資源用於深度學習,從而逐漸獲得一種明白兩種語言的文字之間如何匹配的能力,並且將這種能力作為服務提供給用戶。

顯然,這次Google翻譯的服務水準又上了一個等級。如果你把安裝好Google翻譯的手機看做是一個人的話,其實它已經變成一個翻譯效率相當高的電子翻譯了。不過,Google翻譯給很多人的印象之前一直不怎麼好,比如那些出現在交通標誌上、超市甚至廁所裡的令人啼笑皆非的翻譯,就經常被吐槽為「Google機器翻譯」的結果。人們不由得感嘆:Google這麼厲害的一家公司,連個機器翻譯都做不好嗎?

一位前Google翻譯團隊科學家說,Google這個即將發表的新版翻譯產品,背後所需要的研發遠比想像的複雜。

過去的Google翻譯的功能背後的主要技術是機器翻譯(Machine Translation),後來隨著Android以及iOS作業系統功能的進步,在行動端支援了語音輸入,這又引入了語音識別(Speech Recognition)。「機器翻譯和語音識別從技術層面上是單獨的產品,背後都會用到很多自然語言處理(Natural Language Processing,NLP),『深度學習』的基本技術。」這位專家表示。

專家認為,從目前媒體報導和行業了解的資訊來看,新的Google翻譯是一個整合機器翻譯和語音識別的產品,「從技術層面,Google應該早就有能力推出這種功能了(編者注:指語音識別並即時翻譯),但是拖到現在才出來,可能會有一些其他的考慮。總的來說,兩大技術集成起來需要做大量的優化,而不是簡單地拼湊起來。」

也即意味著,新版Google翻譯是Google的機器翻譯技術和語音識別技術進行系統性的整合之後的結果,將能夠代表Google在自然語言處理方面的深度學習所取得的進展,以及其商業化能力。前述的前Google科學家指出,Google的翻譯技術在他在職期間(兩年前)就已經處在業界領先水準。而這兩年以來Google在深度學習方面的進展一直十分突出,因此有理由(比較穩妥地)相信,Google基於深度學習提供的翻譯服務,其背後的技術依然可以代表業界的最高水準。

當然,人們對於Google翻譯的技術到底有多厲害可能並沒有什麼感覺——他們能夠感覺到的,其實是不要把「乾貨」翻譯成「f**k good」就好。

本文出自PingWest/光譜

每日精選科技圈重要消息