蘋果公布年度最流行emoji,背後如何做到收集使用者資訊又保護隱私?

2017.12.31 by
愛范兒 ifanr
愛范兒 ifanr 查看更多文章

愛范兒連接全球創新者及消費者,跨界技術、文化、消費及創新,致力消費科技領域的產業評論、產品報導及社群連接,創造高品質的消費樂趣。

愛范兒
蘋果公布年度最流行emoji,背後如何做到收集使用者資訊又保護隱私?

年底到了,蘋果公布了今年最流行的 emoji,在英美法三國的統計中,最受歡迎的emoji是笑著哭的表情(Face With Tears of Joy),第二流行的emoji則是紅心(Red Heart)。

愛范兒

對於我們而言,每天使用emoji已經習以為常,它們替代我們更便捷地表達了內心的感受。不過問題來了,一直宣稱注重保護用戶隱私的蘋果,是如何獲取使用者每天在鍵盤上發送出去的資料資訊,進而整理出這個榜單的呢?

最近,蘋果的機器學習日報(Machine Learning Journal)刊文解釋了他們是如何透過「差分隱私」(Differential Privacy)的方式,在保護使用者隱私的情況下收集到使用者群體的使用習慣。

差分隱私這項技術,主要是在收集資料的過程中,加入一些隨機的干擾資訊,將使用者的個人資料打亂,然後與其他數百萬人的資料混合在一起。這樣一來,蘋果就只能看到整體的狀況,而看不到個人的具體資料。即使資料庫中的資訊被洩露,也無法將資訊對應到各個具體使用者。

差分隱私的原理,其實與統計人員做調查時,用來保護受訪者隱私的辦法是類似的。比如,想要調查某個人群的出軌率,為了保護受訪者的隱私,並且提高人們如實回答的意願,調查者通常會這樣設置調查方式:

調查問題是「你是否曾經有過出軌行為」,答案只有「是」和「否」兩個答案。然後每個人發一枚硬幣,在回答這個問題之前先拋擲硬幣,如果正面朝上,就回答真實情況,如果反面朝上,就再投擲一次硬幣,正面就回答「是」,反面就回答「否」。當然,第一次投擲為正面的人,也可以假裝再投擲一次硬幣來混淆視聽。

調查後會獲得X份問卷,其中有Y個人回答「是」,則可計算出這個人群的出軌率為(Y-X/4)/(X/2)。即使這些收集到的問卷被盜或者洩露,受訪者的隱私依然能夠被保護。

需要明確的是,資料不等同於隱私,兩者的定義是不一樣的。隱私是對應單個用戶,比如,美國人Amy最常使用的emoji是「笑著哭」,這是屬於他的個人隱私;蘋果公布英語用戶最喜歡使用的emoji是「笑著哭」,這是對應群體使用者的資訊,則不算隱私,但是如果可以從這些資料中推算出Amy的emoji使用習慣,那就是用戶隱私洩露。

愛范兒

在去年的WWDC大會上,蘋果就宣佈使用差分隱私的方式來收集使用者資訊,並且首先應用到分析流行表情符號,收集Safari中能耗率高的網頁資訊,以及發現新流行詞語(QuickType相關)上。

應用差分隱私方案,根據添加干擾資訊的先後,可以分為兩種設置:本地和中央。

(差分隱私收集資料的方式)
愛范兒

蘋果在論文中講述了「本地差分隱私」這一方案的使用:在資料從使用者設備發出之前,就會添加上干擾資訊,同時每天只會通過加密通道上傳一次資料,資料在到達伺服器後,設備的IP標識會被丟棄,各個記錄之間的關聯也會被丟棄。

當然,iOS 10、macOS Sierra以上的用戶,可以自己選擇是否要加入差分隱私,在iPhone的隱私功能表,蘋果電腦的控制台中,可以自主設置。

愛范兒

不過,差分隱私政策真的安全嗎?據外媒《連線》今年9月的報導,已經有學者反向研究出蘋果隨機加入干擾資訊的詳細步驟,並指出「差分隱私的有效性取決於被稱為隱私損失參數或『epsilon』的變數,這個變數決定了資料收集者為了保護其用戶的秘密而願意犧牲多少特異性」。他們認為蘋果在 MacOS 上所設置的參數變數,上傳了比預期更多的使用者隱私資訊。

曾任Google研究科學家的Aleksandra Korolova在《連線》的報導中說道:"蘋果的隱私損失參數,已經超出了差分隱私研究領域中人們通常認為可以接受的程度。"

不過蘋果也對此進行了反駁,他們說自身的差分隱私系統為不同類型的資料裡添加了不同的干擾資訊,遠比這些研究人員所得出的結論要安全,並且會去掉不同資料類型之間的關聯。

然而學者和大眾也有同樣的顧慮,蘋果自認為所搜集的使用者資料之間的關聯已經被去除,但是不排除有人可以逆向倒推出來。

如今無論在哪個行業和產品,通過收集資料瞭解使用者使用情況,對於改進產品、提升使用者體驗至關重要。隨著資料採擷和人工智慧技術正逐漸成為優化產品的重要驅動力,使用者使用產品的資料已經是驅動演算法反覆運算的能量。沒有產品經理能夠放棄使用者資訊,就看他們是否願意、會用什麼辦法保護我們的隱私了。

本文授權轉載自:愛范兒

延伸閱讀

每日精選科技圈重要消息