由AI教母李飛飛共同創辦、著眼空間運算的新創World Labs,如今推出了首款商業化產品Marble,用戶可輸入文字、圖片或影片,即可生成一個完整的立體空間。
根據《TechCrunch》報導,距離World Labs宣佈完成2.3億美元募資大約一年時間,這間新創公司便發布了這款生成式世界模型產品。兩個月前,該模型以Beta預覽版的形式推出,現在也正式推出服務。
一句話、一張圖生成小小世界,世界模型「Marble」正式上線
Marble的核心能力是讓使用者透過多模態輸入,將文字提示、照片、影片、3D佈局或全景圖,轉換為可編輯和下載的3D環境。李飛飛向媒體表示,世界模型是生成式AI時代的重大發展,「大型世界模型是釋放AI潛能的重要一步。」
與其他生成式模型最大的差異在於,Marble是直接建立一個完整的3D環境,並且可供下載,而不是在用戶探索過程中即時生成的世界。World Labs 表示,這能減少畫面變形或不一致的問題,並讓用戶後續加工利用。
Marble的共同創辦人賈斯汀.強森(Justin Johnson)表示,這是一個「生成 3D 世界的一個全新類別的模型」。強森指出,Marble未來的一個方向是創意應用,聲稱該服務具備完善的編輯工具讓用戶反覆調整場景,其成果預計可以運用在遊戲、視覺特效和VR產品之中。
不過,目前遊戲產業對AI的看法仍然好壞參半,近期一次遊戲開發者大會上的調查顯示,約有3分之1受訪者對AI如何影響遊戲產業抱持負面看法,較去年的調查高出12個百分點,AI生成內容的低劣品質、侵權等問題是許多從業人員不滿的原因。
目前在Marble網站上,用戶可以瀏覽不同作者生成的大量3D世界,又或者透過輸入提示詞、上傳圖像影片自行創造心目中的虛擬世界。
Marble現在提供四種分層付費方案:
免費方案:提供四次文字、圖像或全景圖生成。
標準方案:每月 20 美元,包含 12 次生成,並支援多圖/影片輸入和進階編輯 。
專業方案:每月 35 美元,包含 25 次生成,提供場景擴展和商業權利 。
極致方案:每月 95 美元,包含所有功能和 75 次生成
看好空間智慧成AI新領域,李飛飛為「世界模型」寫下定義
且在World Labs推出首款產品之前,李飛飛發表了一篇宣言,聲稱空間智慧會是AI技術發展的下一個新領域。她首先點出了大型語言模型當前的限制,形容它們就像是身處黑暗中的語言大師,「能言善道卻缺乏經驗,博學多聞但沒有根基。」
她指出,空間智慧徹底改變創造及體驗現實與虛擬世界的方式,顛覆敘事、創造、機器人技術、科學發現等眾多領域。尤其是機器人技術,她認為缺乏對物理世界的感知及理解能力,是機器人技術發展的最大限制,賦予機器人空間智慧將對眾多產業帶來深遠影響。
不過世界模型目前仍是個相對模糊的新興概念。例如,Meta首席AI科學家楊立昆(Yann LeCun)認為它是AI發展的未來,但更側重於AI的自主學習與因果理解。而在她的宣言中,李飛飛則以三種核心能力為基礎,為世界模型下了明確定義。
生成能力(Generative):模型能生成多樣且合理的世界。
- 世界模型能「自己生成」世界。
- 生成的世界要在感知、幾何、物理上合理,並且多樣化。
- 模型應該理解世界的過去狀態,並保持與現在的一致性。
- 不論是虛擬空間還是真實場景,都能生成可觀察、可使用的世界狀態。
多模態(Multimodal):模型能從多種資訊理解世界
- 世界模型能接收各種形式的資訊:圖片、影片、深度圖、文字、手勢或動作。
- 它能把這些部分訊息整合成完整的世界狀態,像人類或動物一樣理解世界。
- 也能用多種方式與人或代理互動,輸入和輸出不侷限單一形式。
互動能力(Interactive):模型能根據動作或目標預測世界變化。
- 世界模型能根據動作或目標預測世界的下一步狀態。
- 輸出會符合物理規律、語義、動態行為,保持前後一致。
- 強大的模型甚至可以在目標驅動下,不只預測世界狀態,還能預測下一步行動。
她在文章的最後寫道,空間智慧能提昇人們最為重視的生活品質。在空間智慧能力誕生在生物身上至今5億年,人類終於有機會將這項能力賦予機器,並造福世界各地的人們,「如果沒有空間智慧,我們對真正智慧機器的夢想是不完整的。」
延伸閱讀:20美元、26分鐘就搞定!李飛飛團隊復刻DeepSeek-R1模型,效能更勝Open AI o1
AI教母李飛飛創辦「World Labs」估值飆327億!為何「空間智慧」是AI進化的最後拼圖?
資料來源:李飛飛、TechCrunch、Fast Company
責任編輯:李先泰
