一天標記上千則Alexa錄音，亞馬遜員工都聽到什麼？|數位時代 BusinessNext

「Alexa，今天天氣如何？」透過語音助理輔助日常，已是許多人生活中不可或缺的一部分。亞馬遜Alexa可說是其中最具代表性者。不過，未來和Alexa互動時，內容可能得考慮三分，因為所有對話亞馬遜員工都聽得到。

亞馬遜為用戶對話內容進行標記，強化AI辨識能力

身為語音助理領域的先驅者，亞馬遜在人工智慧上的投入不遺餘力。為改善Alexa的語音辨識功能，亞馬遜在全球有數千名員工及外包團隊，專門負責收聽用戶對智慧喇叭所說的話語，對內容進行轉錄及標記，教導語音助理進一步認識人類的語言。

當對語音助理說明星、歌手的姓名，亞馬遜工作人員會標記泰勒絲（Taylor Swift）是位音樂家，藉由這種方法擴充Alexa的資料庫。

這種稱為「標記」的作法在人工智慧領域十分常見，透過標記員的註解，提升圖像辨識、語音識別等技術，這些在幕後默默訓練人工智慧的標記員，說是AI領域發展的基石也不為過。

負責為Alexa收錄語音進行註記的亞馬遜員工透露，他們每天工作9小時，一天下來每人會收聽上千個語音片段。

另一位負責相同任務的員工表示，大部分收聽到的內容都很普通，但偶爾也會有些用戶肯定不願令他人聽到的內容，例如一位女性在洗澡時五音不全地哼著歌曲；孩童尖銳的哭喊求救聲；甚至是與犯罪有關的語音內容。事實上，有兩位員工聲稱曾收聽過與性侵害有關的錄音。

負責標記Alexa收錄語音的員工之間，有個用於傳遞資料的內部聊天群組，但偶爾他們也會在群組內分享工作上聽到的有趣內容，或者吐露那些令人內心沉重的錄音，緩解精神壓力。

Alexa身為貼近民眾生活的語音助理，從人們日常中剪取訓練素材這件事，也難免引發隱私上的疑慮。對此，亞馬遜發言人表示，他們僅對非常少量、且有助於改善語音辨識能力的錄音內容進行標記，目的是為了提升使用者和Alexa互動時的體驗。

儘管員工可能會聽到一些較為私密的內容，亞馬遜聲稱，負責這份工作的員工，沒有任何管道獲得與用戶身份相關的資料，且所有資訊都經過加密，並設下層層驗證關卡，確保民眾隱私不會外洩；如果民眾不願為Alexa提供訓練素材，也能在Alexa的隱私設定中關閉這項功能。

這並非Alexa首度喚起人們對隱私權受侵犯的擔憂，去年5月時，曾發生一起Alexa誤將錄音片段傳送給使用者丈夫同事的事件；還有一位德國記者聲稱，與Alexa互動的語音內容，足以讓人辨識出用戶的實際身份。

為擺脫隱私上的疑慮，自去年開始，亞馬遜也開始發展不必大量人力的訓練方式，包括主動學習（active learning）與移轉學習（transfer learning）等技術，但目前依靠人力標記仍是最主要的訓練方式，至少在短期內，人工智慧帶來的便利以及個人隱私，或許使用者仍必須在兩者間進行取捨。