小型語言模型是下一波發展重點?
自從 ChatGPT 問世以來,「大型語言模型」(LLM, large language model)令各大企業趨之若鶩,無不希望打造一個企業自主 AI,畢竟參數量愈多,AI 軟體的效能就愈好,也就能夠執行更加細緻的任務。
大型語言模型的應用情境固然令人驚艷,但它們也非常昂貴,並且有相對複雜倫理、隱私問題。因此,調研機構 IDC 預測,2025 年生成式 AI 的下一波發展,可能是可以在使用上更彈性的「小型語言模型」(SLM)。
LLM 的局限:成本過高、準確度不穩定
根據調研機構 Info-Tech 於 2024 年做的全球調查,受訪企業在投資生成式 AI 解決方案時,最優先考慮的重點包括隱私和安全(65.43%)、成本效益(59.57%),再來就是準確性和可靠性(57.71%)。
在成本方面,訓練和管理生成式 AI 模型既複雜又昂貴,需要耗費大量的計算資源和高速網路,以及無數的記憶體。Forrester 的 AI 和機器學習分析師庫蘭(Rowan Curran) 表示,先進的語言模型訓練成本超過數百萬美元。在市場上,近期也發現 LLM 應用程式的訂閱價格上漲的情形,如 OpenAI 最近宣布推出每月 200 美元的 Pro 計劃,其他競爭對手也可能會將價格提高到這個區間。
加上,LLM 生成回答的準確度仍然有待加強,有時會產出偏離企業當下需求的回覆,SaaS 平台 Responsive 執行長衫達(AJ Sunder)指出,OpenAI 等企業的 LLM 在本質上是「黑盒子」,問題在於無法解釋如何得出最終答案,而這對於強調準確性、一致性和合規性的企業來說,就會是一個隱憂。
並非所有企業都需要 LLM,SLM 提供更大的靈活性
相對來說,SLM 就沒有那麼多限制,可以更靈活地應用。
由於 SLM 不是為通用型的任務設計,而是在開發時針對特定領域的資料進行訓練,這種特性使 SLM 能夠有效處理專業領域的需求。此外,另一個關鍵優勢是資料保存在防火牆域內,因此 SLM 不會被外部敏感資料影響其訓練過程。
另外,因為 SLM 只承擔一小部分的任務,其結果更容易被解釋,因為使用者更容易掌握輸出結果背後的來源和基本原理,這對於商業決策需要追溯到源頭的受監管產業尤其重要。
最後,SLM 的模型較小,因此執行速度通常較 LLM 更快,對運算需求也比較低,所以可以安裝在個人的手機或者電腦上;SLM 也能夠在離線狀態繼續運行,這對於沒連接網路或網路連接不穩定的場合非常重要,大幅提高工具的可近性。
各大科技巨頭,都在投入 SLM
2024 年以來,AI 巨頭如蘋果、微軟、Meta 陸續開始發佈參數量較少,但仍具有強大功能的「小型語言模型」。
像是微軟就推出小型語言模型「Phi-3」,設計目的在執行更簡單的任務,讓資源有限的公司也能夠使用;Facebook 母公司 Meta 也正積極投入開發一種新的小型語言模型,該模型與手機設備相容,旨在運行設備上的應用程序,同時減少模型推理任務期間的能耗;蘋果同樣研發 OpenELM,希望可以打造適合在市售筆電甚至智慧型手機上執行的 AI 模型。
LLM 和 SLM 使用並不衝突
《Forbes》指出,LLM 和 SLM 的使用不互斥。在實際運用上,企業可以採取混合方式運用 SLM 和 LLM──LLM 可以提供更廣泛的背景資訊,SLM 可確保精準的執行。
IDC 預測,2025 企業將因應場域需求靈活運用 SLM,而未來大世界模型(LWM)也值得關注,換句話說,多模型應用將是企業發展 AI 模型的常態。
資料來源:Towards Data Science、Forbes、The Verge
本文授權轉載自:未來商務
