輝達(NVIDIA)於12月15日發表開源AI模型家族Nemotron 3。不與ChatGPT、Gemini、Claude或Grok爭奪「最聰明AI」頭銜,輝達對Nemotron 3的定位更偏向基礎建設角色,目標放在成為AI應用的開發平台。
輝達企業生成式AI軟體副總裁布里斯基(Kari Briski)表示:「Nemotron不僅是一個模型,它是一個開放的生態系統,包含豐富的研究庫和資料集,允許開發者檢查、重複使用與擴展。例如,我們開放了內部用於將Nemotron擴展到數千個GPU的訓練框架。」
AI代理,讓企業從追求「最聰明」轉向追求「最合用」
布里斯基說明,Nemotron 3的設計理念,是讓開發者不必在效率、開放性與智慧之間被迫取捨。換言之,Nemotron試圖在推理能力與運算效率之間,找到一個甜蜜點(sweet spot);而這樣的路線選擇,是基於企業對於「AI代理(AI agent)」的需求漸增。
過去,AI多半被用於問答、摘要或客服輔助,屬於單次使用、即時回應的應用;如今,企業開始嘗試將AI嵌入內部流程,成為系統的一部分,自動完成查詢資料、比對欄位、觸發後續流程,甚至在出錯時回頭檢查與修正等,這就是所謂的「AI代理」。
AI代理與問答式AI最大的不同在於,AI代理需要多步驟、長時間地運作。布里斯基指出,AI代理在運作過程中,往往會進行自我檢查與更深層的推理,這會推高token使用量與整體運算成本。
因此,Nemotron 3主打在維持一定推理能力的前提下,盡可能提高回應速度,藉此降低企業導入AI技術門檻。對於輝達而言,一旦更多企業能夠啟動並長時間運作AI代理,AI的使用模式將從一次性呼叫,轉為長期且穩定的算力需求,進而推動GPU等硬體設備的成長動能。
Nemotron 3如何提高運算效率?
為了壓低推論成本、提高回應速度,Nemotron 3採用「混合專家模型」(Mixture of Experts)。在推理過程中,模型會針對不同需求啟用部分「專家」,而非每次都動用完整模型。輝達表示,這樣的設計有助於提升整體吞吐量,並減少推理過程中的消耗,進而降低整體推論成本。
此外,Nemotron 3也強調長上下文處理能力,讓模型能在單一提示中處理大量文件、程式碼或系統記錄。對企業而言,這有助於減少模型在多次呼叫之間反覆遺失脈絡,提升多步驟任務的連貫性,進而降低額外推論次數。
第三方機構Artificial Analysis的報告顯示,Nemotron 3 Nano在「推理能力」與「輸出速度」兩個指標上,相較其他開源模型,輸出速度明顯較高,且推理表現並未因速度提升而出現明顯犧牲。
企業想用透明、開源模型組成「多模型」系統
除了變得更加重視AI模型的運算效率,企業端的另一個明顯轉變是不再依賴單一模型。布里斯基指出,單一模型不足以支撐穩健的AI應用。當AI被放進企業流程、需要長時間運作時,企業更需要的是一套由多種模型協作的系統。
在實務部署中,不同任務對模型的需求並不相同,有些場景需要較強的推理能力,有些則更重視回應速度與成本效率。以Perplexity為例,其透過AI代理路由(agent router),依任務需求在開源模型與專有模型之間分流,在效率與能力之間取得平衡。
為了組成多模型系統,企業需要將模型的開放性納入優先考量,除此之外,模型是否具備清楚的更新與長期演進規劃,也變得比單一版本的推論能力更為重要。這也是輝達選擇打造Nemotron模型家族,並將其開源的原因。
開源是否與CUDA策略衝突?
面對Nemotron 3的開源是否與CUDA的核心策略產生衝突的質疑,布里斯基回應,CUDA-X生態系本來就同時存在封閉與開源函式庫,Nemotron延續的正是這套既有做法。簡單來說,輝達選擇將需要快速擴散、建立開發者與企業採用基礎的層級開放,其餘關鍵技術仍由自家掌握。
在企業AI的實際使用情境中,開源模型有助於降低導入門檻。隨著AI應用逐漸轉為長時間運作、涵蓋多個代理與流程,企業對於算力與平台資源的需求,將會從一次性使用轉為長期投入。
責任編輯:李先泰
