Google介入硬體的根本原因：AR/MR─人機介面的未來|數位時代 BusinessNext

頂尖的軟體公司，終究需要建立自己的硬體，才能真正實現軟體的價值。相反的，沒有軟體思維與能力的公司，擁有硬體也沒有辦法創造出價值，終究會失敗。

蘋果的思維：為軟體打造專屬硬體

長期以來，蘋果與整個資訊產業最大的不同就是：它一直都是「基於軟體與應用的觀點，去尋找技術與開發專屬硬體」這個策略。

而其他公司，幾乎都是遵循「先打造通用硬體，再尋求硬體的軟體應用」這種思維。這種根本思維上的差別，基本上反應當年影響Apple最大的電腦科學家凱伊（Alan Kay）的名言：People who are really serious about software should make their own hardware.

「為軟體打造專屬硬體」這種思維，在個人電腦桌機的時代，並沒有為蘋果帶來任何優勢，反而使蘋果陷於倒閉邊緣。然而，同樣的思維，從筆電時代開始，就逐漸顯示其意義。到了智慧型手機的時代，則成為蘋果不斷創新與拉大競爭者距離的關鍵。

到了AR/MR/AI 的時代，更將大幅放大蘋果的領先優勢。或許，這也是促使Microsoft與Google這兩個純軟體公司，先後買下手機硬體公司的根本原因。

Apple的硬體護城河

四十年來，人與電腦之間的互動方式，從早期一維的螢幕Command line搭配鍵盤，到二維的視窗與圖像介面搭配滑鼠，再到觸控螢幕搭配各種多點觸控手勢。在這段歷史中，雖然這些技術幾乎無一源自蘋果，但蘋果卻無疑的產業中推動電腦人機介面演進最重要的推手。

可以想像的，人類生活在三度空間的世界，人的動作，周圍的環境與物體都是三維的。所以，對人類而言，最自然的人機互動方式，當然也是三維的。如何將虛擬的數位化影像或資訊物件，和真實世界中的事物自然的融合呈現在三度空間中，並且以三度空間的肢體動作或手勢來操作這些數位物件，就是所謂的Agumented Reality甚至是 Mixed Reality。

未來十年，AR/MR將成為手機，手錶，電視機上盒，智能汽車這類的智慧裝置的主要操作介面，並與我們日常生活全無縫的接軌。

要實現這樣的願景，所需的關鍵技術，包括：電腦3D繪圖與影像處理，人工智慧，3D感測。其實都已經發展與醞釀一段時間。而iPhone X則是更進一步的將這些技術縮小並且整合在手機的處理機，單晶片模組，與作業系統之中。而其中最重要的一塊拼圖就是：行動化的3D感測

行動化的3D感測

所謂的3D感測，就是想辦法把二維的攝影，加入三維的資訊。就以智慧型手機的鏡頭為例，過去十年來，雖然感光元件畫素由2M 增加到 12 M，其核心技術依舊是在二度空間上去記錄三度空間物體的投影。因此，如何去捕捉在攝影過程所失去的維度（包括距離，體積），自然也是科學家與工程師們一直在追尋的。關於這個問題，目前有三種主流的作法。

1. 立體影像Stereo Image

這種方式是模擬人的眼睛，利用雙眼（雙鏡頭）在兩個位置上同時取得兩張類似的影像後，透過影像的交疊比對，去算兩張照片之間的視角差。因為鏡頭之間的距離是固定的，所以有了視角差之後，就可以用簡單的三角函數就去推算出「距離」，也就是影像的「深度」資訊。我們所熟悉的立體電影，在拍攝的階段，也是利用類似的原理來完成。

在消費性電子產品的領域，像三星的手機，以及搭載Intel的Real Sense模組的攝影機都是採用這個方式來增添二維影像中的深度資訊。這種方式最大的好處是，適用於絕大多數自然光充足的場合，也沒有太多距離上的限制。

2. 光子飛行時間計算Time Of Flight

這種方式，是去使用不可見光的低功率雷射，在雷射光中帶著一個時序編碼，發射到物體，反射回來後接收。透過晶片辨識這個編碼，就可以計算出光線從由發射到返回的時間差（也就是光線旅行的時間Time of Flight ），把這個時間乘上光速除以二，就可以知道物體精確的距離。

市場上，包括Kinetic V2，Google Tango，以及iPhone7在內都是採用這種方式。這種方式最大的好處是，它所得到的距離，是精確的距離，而非推估的。而且由於半導體技術的進步，這種元件已經可以單晶片化，並且用real time的方式來感知鏡頭前方物體距離的變化。

3. 結構光Structured Light

這是當年第一代xBox的Kinetic所使用的方式，發展出這個技術的以色列公司PrimeSense，在2013年被蘋果收購，也佈下今日iPhone X 採用結構光技術的局。

要理解結構光的工作原理之前，要先知道什麼是光斑 Light code 。以下試著用最生活化的例子來解釋：晚上關掉電燈，拿一個高聚光的手電筒照在一片木板上，如果木板與手電筒完全垂直，木板上的光影會是一個正圓。而木板與手電筒的距離，會改變這個圓的大小。如果木板有某個傾斜角度，正圓則會變成橢圓。

傾斜角度不同，橢圓的形狀也會不同。如果木板不動，而手電筒任意移動與木板之間的角度與距離，光影就會變成各種不同大小與的橢圓。反過來說，我們就可以用這些不同大小的橢圓來反推手電筒與木板之間的角度與距離。這就是光斑的最原始的想法。

而所謂的結構光，就是先想辦法在感測空間中有計劃，有規則的散佈紅外線雷射光。如果感測空間中有物體存在，那麼這些光線就會在物體上形成各種不可見的光斑。然後用紅外線相機拍下這些光斑，再利用這些光斑的形狀變異，我們就可以推算出空間中所存在物體的距離，大小，甚至形狀。結構光的好處是只要兩張照片就可以完成計算，所以成像速度比 ToF 快。如果搭配專用的處理機核心，甚至可以輕易做到即時（real time）的成像。

事實上，上述三種技術，在筆電或桌機的環境都不算稀奇。但如果要整合起來，成為 AR/MR 的一部分，最大的關鍵挑戰就是「體積尺寸」與「功率耗能」。舉例而言，不論是ToF還是Structured Light，它們的主要限制來自於雷射光的功率，會限制適用的距離偵測範圍。

像手機這種等級的電力，雷射光的功率就只能低到只適用於五十公分內的距離偵測，而像xBox這樣的電玩，雷射光功率就可以大到數公尺範圍的偵測。

以iPhone為例，蘋果在iPhone 7之後，為後置鏡頭加入了雙鏡頭與立體影像的能力，並在前置鏡頭中加入了光子飛行時間距離感測模組，至於最新的iPhone X，則在前鏡頭同時採用了ToF與Structured Light的技術。

未來的應用方向

更重要的，蘋果不是只有硬體，它透過FaceID, Portrait Lighting, Animoji這三個初步的應用，來驗證這些硬體技術的整合應用。而這三個應用，其實也正代表未來十年內人機介面演進的三大方向。

Face ID代表完全Hand Free，而且更安全的身分認證技術即將成熟。在過往，影像辨識的演算法雖然趨於成熟，但限於二維影像資料所提供的資訊有限，要拿臉部影像作為主要的身分辨識方式，還是有很大的困難。但加入三維的資訊與深度學習的技術之後，可以輕易處理包括「髮型，彩妝，眼鏡，面具，照片」等類型的問題，臉部辨識的應用就是完全不同的境界。
Animoji示範了如何在近距離內以即時的速度，精密辨別人臉或肢體的微小動作。如進一步結合AI 的動作識別，它就會是下一代AR 人機互動的主流形式。
Portrait Lighting揭示攝影與影像處理軟體的新世界。經由在照片中加入3D 的資訊，透過程式來人為修正照片（也就俗稱的P圖），將擁有更寬闊的空間。更進一步的，以往已經很成熟的3D影像處理技術，不只可以用來渲染（render）人造的3D物件或模型，未來還可以拿來渲染真實世界中的物體與影像。更白話的說，現在我們還不難區分由電腦3D繪圖所產生的影像，和真實照片之間的差別，但未來這個疆界會更加模糊，而這也正是混合實境（Mixed Reality）的基礎。

細看這上面三種類型的應用，都需要依賴高速影像處理，3D感測與成像，AI運算，以及高度整合的軟硬體，才能實現。所以，蘋果為這些應用打造了專屬的感測器SoC，專屬的光學元件，專屬的GPU，甚至內建專屬AI引擎的CPU。也正因為這樣的軟硬體結合優勢，凱基證券分析師郭明錤認為蘋果在3D感測的領域，至少領先業界一年半到兩年。

換句話說，蘋果很明顯的打算利用iPhone這個全球最大規模的硬體平台，有計劃的驗證與實驗各種3D 感測技術在行動裝置上的可能應用，並且建議專屬硬體的門檻。而其最終的目的，就是利用其軟硬體整合的優勢，為未來的智慧型裝置打造下一世代的人機介面。

iPhone X的真正意義

正如同十年前第一代iPhone揭示了mobile internet與觸控時代的全面來臨，今日的iPhone X也恰如其分的揭示了下一個十年，個人運算環境邁向AI與Mixed Reality時代的可能樣貌，以及軟硬體技術的發展方向。

本文獨家授權轉載自許世杰Facebook。

《數位時代》長期徵稿，針對時事科技議題，需要您的獨特觀點，歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw，文長至少800字，請附上個人100字內簡介，文章若採用將經編輯潤飾，如需改標會與您討論。

（觀點文章呈現多元意見，不代表《數位時代》的立場。）