盤點,是一種對未來想像的策展。遍布全球的AI 100、立足台灣的AI 50當中,可以拼湊出關鍵趨勢。從這一次封面故事的報導和專訪中,我們試圖勾勒出AI產業的當下與未來。
《數位時代》年度AI特集:AI影音圖解、直播論壇連線產業專家、AI Taiwan展免費體驗,立即行動>>
ACT 3:數據準備 —— 吃下宇宙催吐真理
訓練語言模型就像是一名高中生參加大學考試。
高中生必須讀大量的課本,接著跟老師一起做大量的練習題,最後自己嘗試解題。目前的語言模型訓練流程也大致如此:海量資料投入、跟著人類專家學習回答問題的方式,最後自己回答問題。差別在於高中生是一個、一個章節學習,語言模型則是一次吃下全部資料。
而語言模型的能力取決於它所學習的數據,但現實中的數據充滿雜訊、錯誤、重複,甚至偏見,如果不經過整理,語言模型吃進垃圾就只會吐出垃圾。
除了「語言」的模型之外,還有許多其他類型,如自駕車使用的視覺辨識,必須有人告訴它:這是一隻狗、這是一個人、這是前方車輛掉出來的球棒。企業內部導入AI,也會希望AI「看懂」各種不同格式的資料。這些都需要經過數據處理,轉換成模型好入口的格式。
如果說數據是新時代的石油,數據處理便是煉油廠,像是負責搖動AI產業的篩子,過濾雜質留下真正所需的知識。
企業資料神廚 —— Databricks
蓋一座AI摩天大樓,不能沒有數據——它是鋼筋水泥、電力與管線,是確保建築堅實、能擴建的基礎設施。2013年成立的美國資料分析與AI公司Databricks,鎖定數據治理(Data Governance),要做的就是AI世界的建築師。
「人人都在用ChatGPT,企業能做什麼是別人無法複製的?關鍵還是在資料。」Databricks共同創辦人暨執行長葛德西(Ali Ghodsi)去年11月在The Logan Bartlett Show透露,他觀察自家客戶用AI讀取數據的需求,遠超過文本生成,「AI的價值在於從海量數據中擷取有用的訊息,而非生成新文本。」
幫企業架構好AI基礎建設,從數據中淘金,讓Databricks成為矽谷最受矚目的公司之一。
2024年12月Databricks完成最新一輪、規模高達100億美元的募資,讓估值攀升至620億美元(約新台幣2兆元),這家未上市的公司,放在台灣大概是鴻海或聯發科的市值規模。並且,相隔1個月,Databricks再度宣布53億美元(約新台幣1,744億元)的債務融資。
無論是投資人或銀行,看起來都很願意從口袋掏錢投注這家數據公司,關鍵在於Databricks領先的數據處理技術。
料理數據「蓋」厲害!獨創Spark引擎、湖倉一體
以高效運算大數據聞名的「Spark」引擎,正是由葛德西和其他6位研究員在加州大學伯克萊分校的「AMPLab」開發,這項技術將龐大數據集的處理速度,提升至傳統硬碟運算的100倍以上,Databricks便是以Spark為核心技術成立。
在此之前,企業治理資料主要有2種方法:將各種格式的數據混合存放在「數據湖(Data Lake)」,或者將結構化資料存放在「數據倉儲(Data Warehouse)」中,前者的優點是不限資料類型,後者則更方便管理和調取分析。
想像企業是一名廚師,「數據湖」像是進貨區,存放著蔬菜、肉品、調味料等食材,可能來自不同供應商,包裝方式也各異,且大多未經整理或分類;「數據倉儲」則像餐廳的中央廚房,有切好的蔬菜、去骨的肉類、調配好的醬料,方便廚師直接使用,只是食材經過處理,原型是否符合標準並不可考。
2020年,Databricks推出「數據湖倉(Data Lakehouse)」架構,讓湖倉一體,既能廣納各類數據,又能系統化管理和檢閱資料。再整合生成式AI,打造「數據智慧平台(Data Intelligence Platform)」,用戶可透過自然語言提問,在平台上輕鬆搜索和使用數據資料,加速開發應用程式的速度。
數據智慧平台像是現代化的智慧中央廚房,從進貨、備料到烹煮上菜都有一站式管理,Databricks副總裁暨東協及大中華區總經理吳慧思(Cecily Ng)向《數位時代》表示,廚師用廚具將各種食材煮成佳餚,「Databricks也是以AI和機器學習模型,將原始數據轉化為有用的數據洞察。」
開源魂轉投企業懷抱!賓士、渣打、遠傳皆夥伴
從學術實驗室出發,Databricks創業初期秉持模型開源的精神,直到葛德西2016年接任執行長之後大刀闊斧改革。「企業不會輕易接受開源技術,除非有強大商模支持。」葛德西在The Logan Bartlett Show說明。他推動Databricks轉向企業級銷售模式、深化技術,主要是意識到「僅依賴開源是不夠的,因為大型雲端公司會輕易複製我們的技術。所以我們開發專有產品,提供真正的商業價值。」
目前Databricks擁有逾6成的《財星》世界500強企業客戶,包括美國最大電信服務商AT&T、賓士、華納兄弟、渣打銀行,以及台灣遠傳電信、仁寶和104人力銀行等。
其中,遠傳利用它識別電話詐騙並提醒客戶,也藉此了解客戶偏好,提供個性化增值服務。
「企業需要理解,AI要先有良好的數據。」吳慧思表示,數據治理是企業導入AI的成功關鍵,範疇包含安全性、數據訪問控制、數據品質檢查及數據共享策略等。
「AI的發展方向不單是讓模型變得更聰明,而是讓AI更便宜、更高效,以適應大規模企業應用。」葛德西預期未來AI仍將由2類公司主導:擁有大量數據的科技巨頭,以及在垂直領域應用的新創公司,而兩者都和Databricks相關。像是Databricks的湖倉在Azure、AWS及Google Cloud 3大公有雲上皆能運行,而愈多AI應用出現,就有愈多數據的基礎建設需求。
620億美元的估值縱然令人瞠目,但有其道理,AI的大廈愈蓋愈多、愈高,Databricks即使不是唯一,也會是重要的數據建築師。
Databricks
共同創辦人暨執行長:Ali Ghodsi
主要業務:AI數據治理
投資人:Andreessen Horowitz、Wellington Management、Gaingels、Insight Partners、輝達等;總募資金額達192億美元(約新台幣6,324億元)
責任編輯:謝宗穎