萬眾矚目的iOS 14帶來了全新的內建翻譯功能。打開它,第一眼看去平凡無奇。翻譯程式本體非常簡潔。在頂端選好互譯的語言後,使用者可以通過文字或語音輸入需要翻譯的內容,翻譯後的文字會以藍色字體顯示在下方。目前支援包括中文、英文、日文、德文、西班牙文在內的11種常用語言。
不過,仔細研究蘋果全新的翻譯軟體後,發現事情並不簡單。一開始除了日常用語之外,連一些不太常見的說法,它都能輕鬆解決。
例如,輸入「快樂肥宅水」後,蘋果翻譯給出的結果直接是「可樂」。
這勾起了試用者的興趣,試著輸入一些老梗後,居然也忠實地「還原」了。例如「藍瘦香菇」這一詞,蘋果給出的答案是「Sad.gif」。(藍瘦香菇是2016年傳遍網路的梗,源自於失戀的南寧小哥拍攝的自拍影片,他用中國方言表達「難受,想哭」,被直譯為藍瘦香菇。)
相比之下,Google翻譯在這一題的回答居然是:
接著嘗試輸入更多網路流行語,會發現蘋果翻譯很有自己的想法。輸入「奧利給」後,蘋果翻譯表示這個詞是「酷」的意思。
編按:「奧利給」是中國網路流行用語,最早出自短影音App快手上的網絡紅人「雙葉湖雷哥」,雷哥在影片中時不時會說上一句「奧利給」,有點類似加油打氣的口頭禪,實際上沒有甚麼特別含意。
此外,在面對跨文化交流的微妙場合時,蘋果翻譯也沒有輸掉。日文的「月色真美」經過翻譯之後就變成了「我愛你」。日本網友紛紛表示對蘋果的好感增加了。
隨著先下載iOS14的用戶在不斷試探蘋果翻譯之後,很快便發現這個程式有些不對勁了。
比如輸入「五五開」,出現的英文是「盧本偉」(盧本偉是一名前鬥魚主播,在一次遊戲比賽中被問到和比自己實力強大很多的對手比賽什麼感受,他強行回答了「五五開」。從此之後,在遊戲圈變成一種代名詞,但在遊戲圈外,可能並不是所有人都知道這個梗。)
而輸入「滾筒洗衣機」,日語直接顯示「工藤新一」,讓人不禁替真的需要在日本購買洗衣機的人捏了一把汗。(因為工藤新一的日文發音,聽起來很像滾筒洗衣機。所以許多中國動漫迷會這麼稱呼他,但放在一個正式的翻譯軟體裡,似乎顯得不太妥當。)
至此,蘋果翻譯給人的感覺已經從「能精準翻譯出中文梗的精髓」變成了「可能會耽誤真正想要翻譯的事物」的疑惑了。
除此之外,在某些時候蘋果翻譯會表現得更像是沉迷於玩爛梗的小孩。儘管只是普通的一句「一袋米要扛幾簍」,也硬是翻譯成「感受痛苦吧」。(後者的日文讀音,聽起來就像是中文的一袋米要扛幾簍。)
類似的翻車時刻越來越多,用戶們便開始認為蘋果的翻譯相當隨心所欲、二次元。
被「污染」的語料。
雖然蘋果一向對自家的技術三緘其口,這次同樣也沒有說明iOS14究竟是使用哪種模型,但用戶們可以參考蘋果翻譯的老前輩Google翻譯。
Google翻譯用到的是Seq2Seq(Sequence to Sequence)模型。Seq2Seq是由兩個迴圈神經網路模型共同組成,一個用於對輸入序列進行編碼,一個用於對輸出序列進行解碼。
當輸入中文的「知識就是力量」時,編碼模型會把每個字都標上一個向量,其中每個向量代表的是截至目前已讀取的所有字的含義。在整個句子編碼結束後,解碼器即開始生成對應的英語句子。
通過分析大量的語料數據,模型能自動從中學習出相應的語法規則,也就是說,工程師教給模型什麼,模型就學會什麼。因此可推測,蘋果的工程師可能餵養蘋果翻譯太多網路上流行的語料,導致蘋果翻譯被網路用語「污染」,而判別不出文字原本的含義。
而蘋果翻譯出現失誤的另一個可能性則是,蘋果翻譯引入了知識圖譜。
知識圖譜是Google於2012年提出的概念,本質上是一種基於圖的數據結構。 在知識圖譜中,每個名詞(又叫實體)都是一個節點,每個節點間又有邏輯關係線相連。通過這種知識圖譜,神經網路能更好地理解上下文之間的關聯。
也許在蘋果翻譯構建的知識圖譜中,「五五開」被連結到「盧本偉」這個實體,而這個實體又可以被翻譯為「Lu Benwei」。同理,「滾筒洗衣機」也可能被連結到了「工藤新一」這個實體。
因為網路語料及知識圖譜的存在,翻譯模型在面對獨立的名詞時很容易混淆。 比如說「瓜皮」,蘋果直接按中國方言來理解,便翻譯成「笨蛋」。
不過,根據對它的原理來判斷,想要更準確的翻譯,解決方法之一就是在蘋果翻譯出現錯誤時,可以嘗試為文句增添上下文來説明,讓模型能更好地理解。
比如把「瓜皮」改成「我不吃瓜皮」,把「滾筒洗衣機」改成「滾筒洗衣機多少錢」。
蘋果新的翻譯功能確實帶來了很多樂趣,但當人們真的需要用它來完成跨語言溝通時,又不禁令人捏一把汗。
責任編輯:文潔琳、錢玉紘
本文授權轉自:品玩PingWest