DoNews12月15日消息,據(jù)騰訊科技援引外媒報道,英偉達(dá)推出了新的Nemotron 3開源模型系列,包括Nano、Super和Ultra三個尺寸規(guī)格,并配套了相關(guān)數(shù)據(jù)集和技術(shù),旨在構(gòu)建高性能的專用智能體AI系統(tǒng)。
三個版本,定位分明
Nemotron 3 Nano:300億參數(shù),活躍參數(shù)量30億,專為DGX Spark、H100和B200 GPU設(shè)計,專注于目標(biāo)明確的高效任務(wù),是該系列的效率先鋒。
Nemotron 3 Super:1000億參數(shù),專為多智能體協(xié)同應(yīng)用設(shè)計,強(qiáng)調(diào)高精度推理能力。
Nemotron 3 Ultra:約5000億參數(shù),具備龐大的推理引擎,面向最復(fù)雜的應(yīng)用場景,提供頂級的推理能力。
Nemotron 3 Nano現(xiàn)已上市,為構(gòu)建高吞吐、長上下文的智能體系統(tǒng)奠定了基礎(chǔ)。
Super和Ultra版本將于2026年上半年推出,它們將通過更高的推理深度和注重效率的架構(gòu)增強(qiáng)來擴(kuò)展這一基礎(chǔ)。
在Artificial Analysis Intelligence Index v3.0基準(zhǔn)測試中,Nemotron 3 Nano在同等規(guī)模的模型中取得了領(lǐng)先的準(zhǔn)確率得分(52分)。

三大核心技術(shù),直指智能體痛點(diǎn)
為了支撐上述能力,Nemotron 3引入了三項(xiàng)緊密耦合的核心技術(shù)創(chuàng)新:
1.Mamba-Transformer MoE架構(gòu)
該架構(gòu)的創(chuàng)新之處在于將三種核心技術(shù)進(jìn)行了深度融合:高效處理長序列的Mamba層、確保精密推理的Transformer層,以及實(shí)現(xiàn)可擴(kuò)展計算效率的MoE(專家混合)路由機(jī)制。它們共同構(gòu)成了一個高效協(xié)同的運(yùn)算整體。

圖:Nemotron 3采用混合架構(gòu),從而在最大化推理吞吐量的同時,依然保持了頂尖的準(zhǔn)確性
Mamba層的核心優(yōu)勢在于能以極低的內(nèi)存開銷追蹤長距離的依賴關(guān)系,即使面對數(shù)十萬乃至上百萬Token的超長序列,其性能依然穩(wěn)定。這為處理長篇文檔、復(fù)雜代碼或持續(xù)對話提供了基礎(chǔ)。
Transformer層則通過其精細(xì)的注意力機(jī)制,專門負(fù)責(zé)捕捉任務(wù)中深層的結(jié)構(gòu)與邏輯。無論是代碼的語法關(guān)聯(lián)、數(shù)學(xué)公式的推導(dǎo)步驟,還是多步驟任務(wù)的規(guī)劃依賴,它都能進(jìn)行精準(zhǔn)建模,為模型賦予強(qiáng)大的推理能力。
MoE組件的作用是在控制計算成本的前提下,智能地擴(kuò)展模型的能力。其原理如同一個由眾多專家組成的智庫:對于每個輸入的Token,系統(tǒng)只會動態(tài)調(diào)用最相關(guān)的一部分“專家”進(jìn)行處理,而非動用全部資源。這種“按需調(diào)用”的模式,顯著降低了運(yùn)算延遲,并大幅提升了整體吞吐效率。
正因如此,這套混合架構(gòu)天然適配需要高并發(fā)處理的多智能體場景。想象一個由眾多輕量級AI助手組成的集群:它們可能同時在生成任務(wù)計劃、分析上下文信息或調(diào)用各種工具執(zhí)行工作流。該架構(gòu)能夠?yàn)槊總€并發(fā)的智能體實(shí)例提供高效、獨(dú)立的計算支持,從而確保整個系統(tǒng)流暢、敏捷地運(yùn)轉(zhuǎn)。
2.多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練
為了讓Nemotron 3的行為模式更貼近能夠解決實(shí)際問題的智能體,英偉達(dá)在發(fā)布前對其進(jìn)行了關(guān)鍵一步的“實(shí)戰(zhàn)演練”,在名為NeMo Gym的開源強(qiáng)化學(xué)習(xí)平臺中進(jìn)行后訓(xùn)練。

圖:Nemotron 3 Nano憑借其混合專家(MoE)架構(gòu)實(shí)現(xiàn)了最高的吞吐效率,并通過在NeMo Gym平臺上的強(qiáng)化學(xué)習(xí)訓(xùn)練,獲得了領(lǐng)先的推理準(zhǔn)確度
這個平臺提供了多種模擬現(xiàn)實(shí)世界的虛擬環(huán)境。在這些環(huán)境中,模型不再僅僅是回答單個問題,而是被評估其執(zhí)行一連串復(fù)雜動作的序列能力。具體任務(wù)可能包括:準(zhǔn)確調(diào)用一個應(yīng)用程序接口來查詢數(shù)據(jù)、編寫一段能真正運(yùn)行并解決問題的代碼,或者構(gòu)思一個包含多個階段、且最終結(jié)果可被驗(yàn)證的詳細(xì)計劃。
這種基于完整行為軌跡的強(qiáng)化學(xué)習(xí)訓(xùn)練,其核心目標(biāo)是讓模型“學(xué)會思考”,從而在真實(shí)的應(yīng)用中表現(xiàn)得更穩(wěn)定可靠。它能有效減少模型在長鏈條任務(wù)中可能出現(xiàn)的“推理漂移”(即思維逐漸偏離正軌),并提升其處理具有固定邏輯和結(jié)構(gòu)化步驟的任務(wù)流程的能力。
一個經(jīng)過這種訓(xùn)練后變得“可靠”的模型,在實(shí)際部署時,更不容易在執(zhí)行中途“卡殼”或做出前后矛盾的決策。同時,這極大地降低了將前沿大模型轉(zhuǎn)化為解決具體領(lǐng)域問題的“專家智能體”的門檻和成本。
3.100萬Token上下文窗口
Nemotron 3的100萬Token上下文窗口,使其能夠?qū)⑼暾娜蝿?wù)背景、歷史記錄和復(fù)雜計劃保存于單一“工作區(qū)”,實(shí)現(xiàn)真正意義上的長程、持續(xù)推理。這消除了因傳統(tǒng)文本切割導(dǎo)致的信息碎片和邏輯斷層。
其實(shí)現(xiàn)得益于核心的高效混合Mamba-Transformer架構(gòu),它能在低內(nèi)存開銷下處理超長序列,而MoE(專家混合)路由機(jī)制則通過按需激活專家,將處理龐大上下文所需的實(shí)際計算量控制在可行范圍內(nèi)。
對于企業(yè)級的深度文檔分析、跨會話智能體協(xié)作或整體代碼庫理解等復(fù)雜任務(wù),這一能力能直接提升事實(shí)準(zhǔn)確性、保障邏輯連貫性,是構(gòu)建可靠、持久AI應(yīng)用的關(guān)鍵基礎(chǔ)。
即將推出的關(guān)鍵技術(shù)
為了在更大規(guī)模的Super和Ultra版本中實(shí)現(xiàn)更強(qiáng)的性能與效率,Nemotron 3引入了三項(xiàng)進(jìn)階的關(guān)鍵技術(shù):
潛在MoE:用相同成本調(diào)用更多“專家”

圖:標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對比
Nemotron 3 Super 和 Ultra 采用了潛在MoE技術(shù)。在此設(shè)計中,模型的各個“專家”模塊并非直接處理原始的Token數(shù)據(jù),而是先在一個共享的、維度更低的潛在表征空間 中進(jìn)行運(yùn)算,再將結(jié)果轉(zhuǎn)換回Token空間。
這種設(shè)計的精妙之處在于,它能讓模型以基本相同的推理計算成本,動態(tài)調(diào)用多達(dá)4倍的專家數(shù)量。這相當(dāng)于在不增加“腦力”負(fù)擔(dān)的情況下,顯著擴(kuò)充了可用的“專業(yè)智庫”,使模型能夠?qū)Ω⒚畹恼Z義差異、特定領(lǐng)域的抽象概念,以及需要多步推導(dǎo)的復(fù)雜推理模式,實(shí)現(xiàn)更精細(xì)、更專業(yè)化的處理。
多Token預(yù)測:一次生成多個詞,提升響應(yīng)速度

圖:多Token預(yù)測技術(shù)允許模型在訓(xùn)練時同時預(yù)測未來多個Token,顯著提升模型的響應(yīng)速度
多Token預(yù)測技術(shù)改變了模型逐詞生成的慣例,允許其在一次前向計算中,同時預(yù)測后續(xù)的多個Token。這對于需要生成長篇邏輯推理(如思維鏈)、結(jié)構(gòu)化輸出(如代碼、JSON)或未來行動軌跡的任務(wù)而言,能顯著提高生成吞吐量。
其效果直觀體現(xiàn)為:在規(guī)劃、代碼生成或長對話等場景中,智能體的響應(yīng)延遲更低,整體反應(yīng)更為敏捷流暢,極大地改善了交互體驗(yàn)。
NVFP4訓(xùn)練格式:高精度與低成本的平衡
Super和Ultra模型的預(yù)訓(xùn)練使用了英偉達(dá)自研的4位浮點(diǎn)格式NVFP4。該格式的核心價值是在訓(xùn)練與推理的成本與模型精度之間實(shí)現(xiàn)了業(yè)界頂尖的平衡。
專為Nemotron 3優(yōu)化的NVFP4訓(xùn)練方案,確保在25萬億Token數(shù)據(jù)集上,訓(xùn)練過程既能保持穩(wěn)定,又能保證最終模型的準(zhǔn)確性。在實(shí)際訓(xùn)練中,絕大部分的浮點(diǎn)乘累加運(yùn)算都在NVFP4格式下高效完成,從而在控制巨量計算開銷的同時,鍛造出高性能的模型。
開源Nemotron訓(xùn)練數(shù)據(jù)集
英偉達(dá)還將發(fā)布用于模型開發(fā)全過程的開放數(shù)據(jù)集,為如何構(gòu)建高性能、可信賴的模型提供了前所未有的透明度。
新發(fā)布的數(shù)據(jù)集包括:
Nemotron-預(yù)訓(xùn)練集:一個新的包含3萬億Token的數(shù)據(jù)集,更廣泛地涵蓋了代碼、數(shù)學(xué)和推理內(nèi)容,并通過合成增強(qiáng)和標(biāo)注流程進(jìn)行了優(yōu)化。
Nemotron-后訓(xùn)練集 3.0:一個包含1300萬樣本的語料庫,用于監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),是Nemotron 3 Nano實(shí)現(xiàn)對齊和推理能力的動力來源。
Nemotron-RL數(shù)據(jù)集:一套精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集和環(huán)境,用于工具使用、規(guī)劃和多步推理。
Nemotron智能體安全數(shù)據(jù)集:一個包含近1.1萬條AI智能體工作流軌跡的集合,旨在幫助研究人員評估和緩解智能體系統(tǒng)中新出現(xiàn)的安全與安保風(fēng)險。
結(jié)合英偉達(dá)的NeMo Gym、RL、Data Designer和Evaluator等開源庫,這些開放數(shù)據(jù)集使開發(fā)者能夠訓(xùn)練、增強(qiáng)和評估他們自己的Nemotron模型。
英偉達(dá)生成式AI軟件副總裁卡里·布里斯基表示,公司希望展示其從前代模型中學(xué)習(xí)與改進(jìn)的承諾。“我們相信,我們具備獨(dú)特的優(yōu)勢,能夠服務(wù)廣大開發(fā)者,他們希望通過結(jié)合我們新的混合專家模型架構(gòu)和100萬Token的上下文長度,來獲得完全定制模型、構(gòu)建專用AI的靈活性。”布里斯基說道。
英偉達(dá)表示,Nemotron 3模型的早期采用者包括埃森哲、CrowdStrike、Cursor、德勤、安永、甲骨文云基礎(chǔ)設(shè)施、Palantir、Perplexity、ServiceNow、西門子和Zoom等公司。