AI Applications

NVIDIA Nemotron 3 Ultra 首发上线 Bitdeer AI Model Studio，即刻体验前沿推理能力

Evelyn Xiong

Jun 4, 2026 • 8 min read

随着自主智能体承担的任务日趋复杂、运行时间不断延长，从统筹协调历时数周的编程项目，到实时综合分析数百个研究来源，对底层推理模型的要求已发生根本性变化。推理速度、推理深度，以及在长效会话中持续保持上下文的能力，不再是可选项，而是任何面向智能体工作的模型所必须达到的基准。

今天，我们很高兴宣布， NVIDIA Nemotron™ 3 Ultra 已在 Bitdeer AI Model Studio首发上线。作为 NVIDIA Nemotron 模型家族的旗舰型号，Nemotron 3 Ultra 是一款专为全天候运行智能体打造的开放前沿推理模型。该模型以更小的体积、更快的速度和更低的成本服务于智能体工作流，在保持编程、深度研究和企业自动化领域前沿推理能力的同时，推理速度最高提升 5 倍，使用成本最高降低 30%。

什么是 NVIDIA Nemotron 3 Ultra？

NVIDIA Nemotron 3 Ultra 是一款专为长效自主智能体构建的开源前沿推理模型。它针对智能体编排、复杂推理、编程及深度研究工作负载进行了优化。在这些场景中，推理速度、成本效率与持续推理深度的重要性与模型绝对能力上限同等重要。与传统的对话型模型不同，Nemotron 3 Ultra 专为横跨数百轮对话、多工具调用和长时执行周期的工作流而设计，针对智能体工作负载推理速度最高提升 5 倍，使用成本最高降低 30%。

经过面向智能体框架的后训练，Nemotron 3 Ultra 能够在最高难度的调用中保持推理深度，无论是历时数周的自主编程会话中的架构决策、跨数百个相互矛盾研究来源的综合分析，还是跨数千个相互依存约束条件的芯片设计验证。

Nemotron 3 Ultra 完全开源，支持针对任意领域进行微调，并可在任意基础设施上部署，使企业在享受前沿智能的同时，灵活掌握数据管控权。

关键规格

属性	详情
架构	异构 Mamba-Transformer 混合专家（MoE）架构
模型规模	总参数量 550B，激活参数量 55B
上下文长度	最高 100 万 token
模型输入/输出	文本输入，文本输出
Token 预算	支持 —— 可控制推理过程中 token 的使用量，在保证任务完成质量的前提下提升效率
准确率	在 Artificial Analysis Intelligence Index 达到领先准确率

为何运行更快、成本更低的智能体推理至关重要？

大多数生产级智能体系统的瓶颈并不在于单次模型调用，而在于多次调用的累积成本。执行复杂重构计划的编程智能体、交叉比对数百个来源的研究智能体，或对数千条告警进行分诊的企业智能体，其工作效率均取决于模型完成每个推理周期的速度。吞吐量不只是硬件指标，它直接决定了智能体在给定时间预算内所能完成的工作量。

Nemotron 3 Ultra 从架构层面解决了这一问题：

最快任务完成速度

Ultra 采用异构 Mamba-Transformer MoE 架构，在英伟达发布的与主流开放前沿基准模型的对比测试中实现了最高的 token 吞吐量，可在同等时间预算内完成更多推理周期。多 token 预测（MTP）通过在单次前向传播中预测多个未来 token，进一步缩短长序列的生成时间；NVFP4 精度格式专为 NVIDIA Blackwell GPUs 优化，在保持精度的同时，相较 FP8 实现显著的推理加速。

领先的准确率

潜在 MoE 使模型能够在相同推理成本下调用多达 4 倍的“专家”，在不增加计算开销的前提下提升智能水平与泛化能力。围绕真实世界智能体任务设计的多环境强化学习训练，赋予模型强大的工具调用、推理及指令遵循能力。100 万 token 上下文窗口可在长时智能体会话中保留对话历史与规划状态，并支持短上下文模型所无法企及的跨文档推理规模。

完全开源

Ultra 在英伟达开放模型许可协议下以开源权重发布，训练数据采用英伟达生成的完全开源的高质量合成数据，并公开了研发技术与训练方案，为研究人员和企业提供充分的透明度，以及在此基础上自定义或二次开发的灵活性。

企业级应用场景

Copy of press-agentic-ai-nemotron-3-ultra-launch-corp-blog-1920x1080.png

图源：英伟达

编程与代码智能体

基于 Ultra 构建的编程智能体，可端到端地完成大型代码库的规划、编写、测试、调试与迭代。Ultra 负责处理高难度推理调用：架构规划、复杂的跨文件重构与错误恢复，在可能历时数天乃至数周的会话中持续保持连贯的推理能力。

深度研究与检索

研究智能体在持续并行循环中完成检索、评估、交叉比对与综合分析。Ultra 负责最终综合——解决矛盾、识别空白、提出新假设，以前沿推理所要求的深度与一致性完成这一关键步骤。

企业工作流智能体

面向企业工作流构建的智能体，在持续运行的工具调用循环中实现跨行业的运营自动化：分诊数千条安全告警、摄取并解读监管文件、统筹协调临床试验运营。Ultra 负责处理这些工作流中的复杂推理步骤，这些环节的判断失误将对下游产生切实影响。

电子设计自动化与芯片设计

芯片设计智能体可自主根据规格生成 RTL 代码，跨数千个约束条件验证设计，并统筹从设计到制造签核的完整工作流。Ultra 负责验证、故障分析及跨模块依赖关系解析，这些推理密集型操作决定了最终设计的质量。

支持的智能体框架

Nemotron 3 Ultra 开箱即可与主流开放智能体框架集成，从通过 NVIDIA NemoClaw 一键部署，到针对最主流编程与编排平台的经测试操作手册。该模型同时以 NVIDIA NIM microservice 形式打包，可在不做任何修改的情况下跨数据中心与云环境部署。

通过 API 在 Bitdeer AI Model Studio 运行 Nemotron 3 Ultra

您可以在 Bitdeer AI Model Studio 上运行 Nemotron 3 Ultra。该平台是我们推出的无服务器推理服务，旨在以简单且可扩展的方式提供先进基础模型的访问能力。通过简洁易用的 API，Model Studio 使开发者与企业无需管理底层基础设施即可快速上手，从而降低部署复杂度并缩短实现价值的周期。

Bitdeer AI 是 NVIDIA Cloud Partner，通过 ISO/IEC 27001:2022 及 SOC2 Type I & Type II 认证，为生产级智能体 AI 部署提供安全合规、高性能的企业级基础设施。以您业务所需的精度与规模，在 Bitdeer AI 专用 GPU 集群上便捷运行模型。

立即体验

登录 Bitdeer AI Model Studio
在模型列表中找到 NVIDIA Nemotron 3 Ultra
生成 API Key，开始进行 API 调用

这一简化流程可帮助您快速将前沿推理能力集成至应用与智能体系统中。

结语

NVIDIA Nemotron 3 Ultra 为开源前沿模型在生产环境中的表现树立了新标杆。凭借前沿级智能、最高 5 倍推理加速与最高 30% 的成本降低，Ultra 专为长效自主智能体的需求而设计。100 万 token 上下文窗口、开放权重、开放训练方案，以及在 Bitdeer AI Model Studio 的首发上线，使各类组织能够更快地从实验阶段迈向生产环境，将智能体 AI 转化为可量化的业务价值。