英伟达正通过其全新的Nemotron 3系列开放模型,为即将到来的人工智能智能体(Agent)时代构建开放基础设施。该公司将新产品定位为企业构建领域专属智能体的企业级方案,无需从零开始创建基础模型。
英伟达指出,人工智能智能体必须具备在大背景和长时间跨度下协作、协调与执行任务的能力,而这需要一种新型的、开放的基础设施。Nemotron 3系列开放模型正是为此而生。
开发人员与工程师可利用这些新模型创建特定领域的人工智能智能体或应用程序,无需从头训练基础模型。此外,英伟达还开源了其大部分训练数据及强化学习库,供所有有志于构建AI智能体的人士使用。
西北人工智能咨询公司的Wyatt Mayham表示:“这是英伟达对DeepSeek以开源策略颠覆人工智能市场的回应。他们提供了一个‘企业级’的开放替代方案,并附带了企业级支持与硬件优化。”
Nemotron 3三大型号:Nano、Super与Ultra
Nemotron 3采用了英伟达所称的“突破性混合专家(MoE)架构”。该系列提供三种规格:
Nano:体积最小且最具“计算效率”,适用于目标明确的高效任务,如快速信息检索、软件调试、内容摘要和AI助手工作流。这个300亿参数模型每次推理仅激活30亿参数以提升速度,并拥有100万token的上下文窗口,使其能够记忆并串联多步骤任务中的信息。
Super:一个先进的高精度推理模型,拥有约1000亿参数,每个token最多激活100亿参数。它适用于需要多个协作智能体以低延迟处理复杂任务的场景,例如深度研究与战略规划。
Ultra:面向复杂AI应用的大型推理引擎。它拥有5000亿参数,每个token最多可激活500亿参数。
Nemotron 3 Nano现已通过Hugging Face及多家推理服务提供商,以及企业AI和数据基础设施平台提供。它即将登陆AWS的Amazon Bedrock,并将获得Google Cloud、CoreWeave、Microsoft Foundry及其他公共基础设施的支持。同时,它也作为预构建的英伟达NIM微服务提供。Nemotron 3 Super和Ultra预计将于2026年上半年推出。
战略定位:基础设施层
专家指出,英伟达此处的战略定位与API提供商有着根本不同。
Mayham认为:“英伟达并非试图与OpenAI或Anthropic的托管服务竞争——他们将自身定位为希望构建并拥有自己AI智能体的企业的‘基础设施层’。”
Info-Tech Research Group首席研究总监Brian Jackson赞同此观点,他认为Nemotron模型并非开箱即用的产品。“它们更像是一个‘食材包’,开发人员可以在此基础上开始工作,”他说,“并根据需要进行修改,以获得他们想要的精确‘风味’。”
混合架构提升性能
截至目前,Nemotron 3在效率和性能方面均展现出令人印象深刻的进步。据第三方基准测试,Nano在其规模级别中效率最高,且在准确性方面领先。
英伟达表示,Nano采用的混合Mamba-Transformer MoE架构将三种架构集成到一个主干网络中,从而实现了这种高效能。其中,Mamba层提供高效的序列建模,Transformer层提供精准推理,MoE路由则提供可扩展的计算效率。该公司称,与Nemotron 2 Nano相比,该设计实现了4倍的token吞吐量,同时将推理token的生成延迟降低了60%。
“吞吐量是智能体AI的关键指标,”Mayham解释道,“当你协调数十个并发智能体时,推理成本会急剧上升。更高的吞吐量意味着每个token的成本更低,实时代理行为的响应也更敏捷。”
他指出,推理延迟降低60%直接解决了“冗长问题”——即思维链模型在生成有用输出前产生过多内部推理。“对于构建多智能体系统的开发者而言,这直接转化为更低的延迟和计算成本。”
英伟达表示,即将推出的Nemotron 3 Super在需要多智能体协作低延迟完成复杂任务的场景中表现卓越,而Nemotron 3 Ultra将作为需要深度研究和战略规划的AI工作流的高级推理引擎。
Mayham进一步解释,这些尚未发布的模型采用了“潜在MoE”设计,在专家路由之前先将token投射到一个更小的潜在维度中,“理论上”能在相同推理成本下激活4倍的专家,因为它减少了GPU间的通信开销。
他认为,Nemotron 3背后的混合架构巧妙结合了Mamba-2层、稀疏Transformer和MoE路由,尽管每种技术在其他地方都有独立应用。
最终,Nemotron的定价“极具吸引力”:开放权重模型可免费下载并在本地运行。他指出,在DeepInfra上的第三方API定价,Nemotron 3 Nano每百万输入token低至0.06美元起,比GPT-4o“便宜得多”。
核心差异化:开放性
为彰显对开源的承诺,英伟达正在公开Nemotron 3的部分内部工作,发布了一个包含真实世界遥测数据的安全评估数据集,以及用于训练Nemotron 3的3万亿token的预训练、监督微调和强化学习数据集。
此外,英伟达还开源了其NeMo Gym和NeMo RL库(它们提供了Nemotron 3的训练环境和微调基础),以及NeMo Evaluator,以帮助构建者验证模型安全性和性能。所有内容现已在GitHub和Hugging Face上提供。Mayham指出,其中NeMo Gym可能是本次发布中“战略意义”最强的部分。
Mayham解释,预训练教会模型预测token,而非完成特定领域任务,而传统基于人类反馈的强化学习难以扩展至复杂的智能体行为。NeMo Gym为RL提供可验证的奖励——本质上是任务完成度的计算验证(例如,代码是否通过测试?数学是否正确?工具调用是否准确?),而非主观的人类评分。这为开发人员提供了在自身工作流上训练模型的基础设施,而无需深究完整的RL训练循环。
Moor Insights & Strategy副总裁兼首席分析师Jason Andersen补充道:“其理念在于,NeMo Gym将加速模型RL任务的设置与执行。关键区别在于NeMo Gym将RL环境与训练本身解耦,因此可以轻松设置并创建多个训练实例(或‘健身房’)。”
Mayham称这种“前所未有的开放性”是Nemotron 3发布的真正差异化因素。“没有主要竞争对手能提供这种程度的完整性,”他说,“对企业而言,这意味着完全掌控定制化、本地部署和成本优化,这是封闭式提供商根本无法比拟的。”
但他也指出,能力上存在权衡:Claude和GPT-4o在编码基准测试等专业任务上仍优于Nemotron 3。然而,Nemotron 3瞄准的是不同的客户群体:那些需要部署灵活性且不愿被供应商锁定的企业。
“其企业价值主张不在于原始能力,而在于开放权重、训练数据、部署灵活性与英伟达生态系统整合的独特结合,这是封闭式提供商无法提供的。”Mayham总结道。