估值40億美元的Dropbox又為用戶帶來新功能：AI識別掃描文檔|數位時代 BusinessNext

估值40億美元的Dropbox又為用戶帶來新功能：AI識別掃描文檔

雲端文件同步和共享服務商Dropbox今天披露了更多支援光學字符識別（OCR）功能的技術細節，已經為Dropbox Business付費的企業員工可以在Android和iOS應用程式中使用該功能。

具體操作是這樣的，使用行動裝置上的相機掃描文檔後，光學字符識別功能將會啟動。然後，應用程式會根據需要裁剪或旋轉文檔，然後將其保存為Dropbox中的PDF。8月，該公司表示正在使用電腦視覺來檢測應用程式掃描文檔。

與人工智慧深度學習結合的OCR技術已經不是新鮮事了。GitHub上的開源軟體可以用於兩者結合，Google在Google街景圖像中也運用了機器學習和OCR技術。OCR系統的初始版本採用市售軟體開發工具包（SDK）。Dropbox選擇運行自己的數據包以節省資金並提高準確性，因為市售系統主要是為實際的硬體掃描儀構建的，而不是為行動裝置上使用相機的掃描儀。Dropbox利用用戶數據訓練系統。

Dropbox的軟體工程師Brad NeubergNeuberg表示，Dropbox需要收集用戶上傳一部分圖像或文件，例如收據、發票、信件等。為了收集這個集合，公司事先徵得了用戶的同意。如果用戶同意，那麼這些文件信息一定會被保密。Dropbox對用戶捐贈的數據採取各種安全措施，比如絕不會將數據保留在本地部署的伺服器上，保持持續並廣泛的審計、部署強大的身份驗證訪問數據措施等。

為了預測文檔中特定單詞的剪切文本，Dropbox透過卷積神經網路，然後是雙向長時間短期記憶（LSTM）網路發送圖像，最後連接時間分類（CTC）系統。該系統部分依賴於Google的TensorFlow開源深入學習框架。為了加強這個系統，Dropbox借鑒了虛構的數據，然後以簡單的方式進行了轉換。

Dropbox已經脫離了亞馬遜網路服務（AWS）的公共雲端，並運行自己的數據中心基礎架構。此外，Dropbox已經開始使用圖形處理單元（GPU）加速的G2 虛擬機（VM）實例對其模型進行了培訓，並存儲了一些數據在AWS S3服務中。為了進一步改進模型，Dropbox訓練了小數量的圖像單詞。然後，從預測單個詞跳轉到處理整個文檔。

本文授權轉載自：36 氪