數位關鍵字163.如何打造本土語言模型?技術挑戰與實踐策略

從 OpenAI、Google 到 Meta,大型科技公司雖已投入大量資源發展大語言模型,但多以英語為主要訓練語言。對於中文、日文等非拉丁語系的語言來說,表現可能相對不理想。數位時代創新長黃亮崢 James 邀請到 Ubitus 優必達創辦人兼執行長郭榮昌 Wesley,深入探討打造東亞本土大語言模型的可能性與挑戰。

優必達於 2024 年 10 月入選日本經濟產業省 GENIAC(Generative AI Accelerator Challenge)計畫的重要里程碑。這項為期六個月的計畫將運用 256 張 NVIDIA H100 GPU,打造一個擁有 405B 參數的 AI 大語言模型。該模型將使用約 2000 億個文字進行預訓練,首先將特別針對觀光文化內容做最佳化,同時支援日文、中文、及韓文三種東亞主要語言。

大語言模型的訓練成本相當可觀。以 256 張 H100 GPU 的配置來看,單次訓練約需兩個月,根據雲端服務供應商(Cloud Service Provider, CSP) 的報價,每月的運算成本就接近百萬美金。考慮到實際開發可能需要多次訓練才能達到理想效果,再加上網路流量與資料儲存的額外支出,總體投入可能達到上千萬美金。

由於訓練資料需求量很大、算力成本高、不同專業應用的推論精確性要求不一致;目前最佳化大語言模型的訓練與推論有幾種技術策略:一是合成資料(Synthetic Data),讓大模型產生與真實資料相近的人造資料,在經過人工初檢、不改變統計特徵的情況下進行訓練;二是知識蒸餾(Knowledge Distillation),透過龐大的模型作為教練,讓小模型作學生,濃縮為參數較少、推論所需算力較可負擔的小版本;三是採用混合專家(Mixture of Experts, MoE)架構,結合多個領域專家小模型。這些策略能幫助在有限資源下實現更好的效能表現。

並非所有領域都需要 400B 等級的大模型。醫療、金融、法律等需要高度精確的領域,可能需要較穩定的大小模型搭配來確保準確性;而在遊戲、娛樂等容錯度較高的領域,則可以使用經過優化的小型模型,在確保實用性的同時降低運算成本。對於特定領域的應用,Wesley建議採用模型微調而非單純依賴 RAG 技術,以達到更好的效果。

--
⚡2024 Martech 行銷科技高峰會⚡限時優惠🔥

年度最強陣容、橫跨歐美亞觀點,趨勢、應用、品牌案例全解析,
讓行銷科技更具人性感知!限時優惠中!

立即報名》https://bit.ly/3YDe47k

RHINO STORIES_04. 從「廢棄玻璃到生活藝術」,循環經濟如何翻轉廢棄物、點石成金?ft.W春池計畫主理人吳庭安

EP215. 數位生活的新想像!數位皮夾是什麼?又將如何改變我們的數位體驗

塊轉WEB3_99. 2024幣圈發生哪些大事?

Web3大西進52. RWA 的首選應用是什麼?探索代幣化的商機與優勢 ft. 金融派大星【從代幣化黃金認識真實世界資產 RWA】系列特輯

記者茶水間142.虎航抽中一張賺3萬!高獲利怎麼來的?董事長意外是「鋼琴王子」?

RHINO STORIES_02.跨界觀點玩轉循環:全球永續當道,企業轉型卡關怎麼解? ft.REnato lab執行長 歐陽藹寧

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓