輝達推出開源AI模型 Nemotron 3：它不必最聰明，卻是多模型系統的「最佳綠葉」？|數位時代 BusinessNext

輝達推出開源AI模型 Nemotron 3：它不必最聰明，卻是多模型系統的「最佳綠葉」？

輝達近日發表開源AI模型家族Nemotron 3，主打推理能力與運算效率之間的平衡，目標是成為企業AI的開發基礎，進而推升企業對於AI算力的長期依賴。

輝達（NVIDIA）於12月15日發表開源AI模型家族Nemotron 3。不與ChatGPT、Gemini、Claude或Grok爭奪「最聰明AI」頭銜，輝達對Nemotron 3的定位更偏向基礎建設角色，目標放在成為AI應用的開發平台。

輝達企業生成式AI軟體副總裁布里斯基（Kari Briski）表示：「Nemotron不僅是一個模型，它是一個開放的生態系統，包含豐富的研究庫和資料集，允許開發者檢查、重複使用與擴展。例如，我們開放了內部用於將Nemotron擴展到數千個GPU的訓練框架。」

AI代理，讓企業從追求「最聰明」轉向追求「最合用」

布里斯基說明，Nemotron 3的設計理念，是讓開發者不必在效率、開放性與智慧之間被迫取捨。換言之，Nemotron試圖在推理能力與運算效率之間，找到一個甜蜜點（sweet spot）；而這樣的路線選擇，是基於企業對於「AI代理（AI agent）」的需求漸增。

過去，AI多半被用於問答、摘要或客服輔助，屬於單次使用、即時回應的應用；如今，企業開始嘗試將AI嵌入內部流程，成為系統的一部分，自動完成查詢資料、比對欄位、觸發後續流程，甚至在出錯時回頭檢查與修正等，這就是所謂的「AI代理」。

AI代理與問答式AI最大的不同在於，AI代理需要多步驟、長時間地運作。布里斯基指出，AI代理在運作過程中，往往會進行自我檢查與更深層的推理，這會推高token使用量與整體運算成本。

因此，Nemotron 3主打在維持一定推理能力的前提下，盡可能提高回應速度，藉此降低企業導入AI技術門檻。對於輝達而言，一旦更多企業能夠啟動並長時間運作AI代理，AI的使用模式將從一次性呼叫，轉為長期且穩定的算力需求，進而推動GPU等硬體設備的成長動能。

為了壓低推論成本、提高回應速度，Nemotron 3採用「混合專家模型」（Mixture of Experts）。在推理過程中，模型會針對不同需求啟用部分「專家」，而非每次都動用完整模型。輝達表示，這樣的設計有助於提升整體吞吐量，並減少推理過程中的消耗，進而降低整體推論成本。

此外，Nemotron 3也強調長上下文處理能力，讓模型能在單一提示中處理大量文件、程式碼或系統記錄。對企業而言，這有助於減少模型在多次呼叫之間反覆遺失脈絡，提升多步驟任務的連貫性，進而降低額外推論次數。

第三方機構Artificial Analysis的報告顯示，Nemotron 3 Nano在「推理能力」與「輸出速度」兩個指標上，相較其他開源模型，輸出速度明顯較高，且推理表現並未因速度提升而出現明顯犧牲。

除了變得更加重視AI模型的運算效率，企業端的另一個明顯轉變是不再依賴單一模型。布里斯基指出，單一模型不足以支撐穩健的AI應用。當AI被放進企業流程、需要長時間運作時，企業更需要的是一套由多種模型協作的系統。

在實務部署中，不同任務對模型的需求並不相同，有些場景需要較強的推理能力，有些則更重視回應速度與成本效率。以Perplexity為例，其透過AI代理路由（agent router），依任務需求在開源模型與專有模型之間分流，在效率與能力之間取得平衡。

為了組成多模型系統，企業需要將模型的開放性納入優先考量，除此之外，模型是否具備清楚的更新與長期演進規劃，也變得比單一版本的推論能力更為重要。這也是輝達選擇打造Nemotron模型家族，並將其開源的原因。

面對Nemotron 3的開源是否與CUDA的核心策略產生衝突的質疑，布里斯基回應，CUDA-X生態系本來就同時存在封閉與開源函式庫，Nemotron延續的正是這套既有做法。簡單來說，輝達選擇將需要快速擴散、建立開發者與企業採用基礎的層級開放，其餘關鍵技術仍由自家掌握。

在企業AI的實際使用情境中，開源模型有助於降低導入門檻。隨著AI應用逐漸轉為長時間運作、涵蓋多個代理與流程，企業對於算力與平台資源的需求，將會從一次性使用轉為長期投入。

延伸閱讀：實測｜ChatGPT串接Figma生圖功能！甘特圖、簡報、IG圖文提示詞怎麼下？3組萬用模板一次收

責任編輯：李先泰