近期,出身台灣的科學家李開復的AI新創「零一萬物」(01.AI)在僅8個月的時間內超越了Meta,成為AI領域的新巨頭。這家公司以建立中國本土化的大型語言模型為目標,成功推出了首款開源模型Yi-34B,支援中英文並擁有340億參數,在全球開源模型排行榜上獲得頭銜。零一萬物的崛起不僅在技術上取得突破,還在面對美國對AI晶片的出口限制時做出了靈活應對。
零一萬物旨在建立中國的OpenAI
《TechCrunch》報導,開發出Yi-34B與Yi-6B等語言模型的零一萬物(01.AI)是李開復於今年3月成立,旨在為中國市場開發一款本土的大型語言模型,目前估值已超過10億美元。他在受訪時引述諺語「需求乃發明之母」(Necessity is the mother of invention),表示因為中國沒有OpenAI與Google的使用權,所以許多AI公司都在努力為市場創造解決方案。
零一萬物目前旗下約有100多名員工,團隊臥虎藏龍,有來自Google、微軟、阿里巴巴、字節跳動(ByteDance)與騰訊等科技巨頭的人才。其技術副總裁是Google Bard團隊的早期核心成員,而此次登頂的Yi-34B,背後的關鍵人物則是曾任職微軟亞洲研究院的黃文灝與擔任過華為雲AI部門技術長的戴宗宏。
零一萬物(01.AI)的語言模型Yi-34B也成為迄今為止唯一登頂AI開源社群平台Hugging Face全球開源模型排行榜,並且是由華人主導研發的大型語言模型。
Yi-34B是什麼來頭?零一萬物的未來將怎麼走?
大型語言模型(LLM)能夠閱讀、理解和生成類似人類的文字、影像和程式碼。而Yi-34B的名稱取自於訓練中使用了340億個參數,是零一萬物所發佈的首款開源模型,同時支援英文與中文兩種語言。
雖然規模比Meta的Llama 2(700億個參數)要小,但在Hugging Face的預訓練(Pre-trained)模型排行榜卻拔得頭籌,贏過Meta的LLaMA 2,零一萬物的團隊表示該模型最多可以處理多達40萬漢字的文本輸入,能更好地滿足中文用戶的需求。(GPT-4僅約2.5萬字)
參數是影響人工智慧系統處理輸入數據的設置。神經網路中有越多這樣的設置,系統就能執行越多任務。但這種複雜性的提高是以硬體效能為代價的:最大的語言模型必須在造價昂貴的數據中心靠晶片來運行。
《Bloomberg》指出,儘管才剛推出不久,但零一萬物已經在規劃未來的商業藍圖,將走向客製化的模式,為特定行業或情況量身定制產品。而未來也將支援中英以外的語言。
零一萬物如何面對美國禁止出口AI晶片的限制?
建造大型語言模型(LLM)是一項所費不貲的事業,零一萬物能夠用8個月的時間迎頭趕上其它AI巨頭,除了優秀的人才外,有充沛的資金能確保GPU的數量穩定同樣重要。李開復也表示大部分的資金都用在購買GPU,而為了應對美國的制裁,這間公司甚至在獲得資金之前就先借錢購買了GPU。
過去一年裡,拜登政府祭出了更嚴格的出口禁令,Nvidia旗下的A100本來就無法出口,現在甚至連閹割版本的A800與H800也受到影響。但由於零一萬物的提前佈局,目前的存貨仍夠使用12至18個月。晶片的稀缺也讓李開復表示,「我們將1000顆GPU榨出2000顆的效能」。
零一萬物的最終目標是建立一個生態系統,讓開發者可以輕鬆的構建應用程式。這也是之所以選擇構建開源模型的原因,因為因為絕大多數AI開發者負擔不起或不需要最大、最貴的模型。而開源的AI系統就像開源軟體一樣,可以修改和增強原始的程式碼。