在 Bitdeer AI Cloud 上运行 NVIDIA Nemotron 3 Nano Omni:构建多模态推理能力
随着 AI Agent 从文本交互走向真实业务流程,跨模态理解信息并进行推理的能力正成为关键基础能力。无论是视频、音频、文档,还是 UI 界面,现代 Agentic 系统都需要能够在多种模态之间进行高精度、高效率推理,并满足企业级部署要求的模型。
今天,我们很高兴宣布,NVIDIA Nemotron™ 3 Nano Omni 已在 Bitdeer AI Model Studio 首发上线。作为 NVIDIA Nemotron 模型家族的重要成员,该模型代表着开放、生产就绪的多模态推理模型向前迈出的重要一步。
什么是 NVIDIA Nemotron 3 Nano Omni
NVIDIA Nemotron 3 Nano Omni 是一款面向生产级 Agentic AI 的开放式多模态基础模型。该模型能够在单一架构中统一处理视频、音频、图像、文档、图表以及文本等多种模态的信息,实现跨模态的理解与推理,从而无需依赖碎片化的多模态处理流程。
通过将感知与推理能力整合于同一系统中,Nemotron 3 Nano Omni 有效简化了智能体开发流程,降低系统编排复杂度,同时提升整体效率与可扩展性,并在多模态任务中实现领先的准确性。基于开放权重、数据集及训练方案构建,该模型为开发者与企业提供了充分的定制化能力,使其能够以更高的可控性与灵活性部署并运行多模态智能体。
关键规格:
- 模型规模:30B(A3B)
- 模态支持:输入(文本、图像、视频、音频),输出(文本)
- 架构:基于 Transformer-Mamba 设计的混合专家模型(Hybrid MoE)
- 视觉编码器:CRADIO v4-H
- 音频编码器:Parakeet
- 上下文长度:256k
- 优化特性:
- 基于 Conv3D 的时序视频推理能力
- 高效视频采样(EVS),降低推理成本
- 量化支持:FP8、NVFP4
为何统一的多模态模型至关重要
当前,许多企业级 AI 系统仍依赖于将视觉、语音、OCR 以及推理模型拼接而成的多阶段处理流程。这种架构往往会带来多次推理调用所导致的更高延迟,同时增加系统运维与编排复杂度,并在不同模态之间形成割裂的上下文。
Nemotron 3 Nano Omni 通过在智能体系统中充当统一的多模态感知与推理层,有效解决上述问题,实现从“感知 → 推理 → 行动”的一体化闭环。
企业应用场景
- 客户服务智能体(Customer Service Agent):
客户服务场景本质上是高度多模态的环境。该智能体需要分析客户交互的录音及语音转写内容,同时对客户会话的屏幕录制进行推理,并结合错误截图、发票等图像信息进行理解。此外,还需读取知识库文档、业务政策以及 CRM 历史记录。Nemotron 3 Nano Omni 将上述多源信息统一整合,使智能体不仅能够理解客户“说了什么”,还能理解客户“经历了什么”以及“业务规则允许什么”,从而实现更精准、具备上下文感知的服务响应。
- 金融分析智能体(Financial Analyst Agent):
金融分析并非仅依赖文本。该智能体需要在财务报告、财报电话会议记录等文档之间进行推理,同时结合图表、扫描报告等图像信息,以及电话会议中的语音内容和投资者演示视频进行综合分析。Nemotron 3 Nano Omni 能够将高管表述、数据的可视化呈现以及底层文档信息进行关联整合,从而输出基于事实支撑的洞察,而非停留在表层总结。
- 计算机操作智能体(Computer Use Agent):
计算机操作类智能体是统一多模态能力的典型应用之一。该智能体通过分析屏幕录制中的视频与图像,理解界面状态的动态变化,同时解析操作指令与系统音频提示,并读取任务说明及校验规则等文档。Nemotron 3 Nano Omni 使智能体能够在同一推理闭环中完成界面感知、意图理解、约束解析及动作执行。当感知与决策分散在多个模型中时,这种能力将难以实现。
- 媒体与娱乐智能体(Media and Entertainment Agent):
媒体处理流程不仅依赖文本转录。该智能体需要在视频内容、对话语音、屏幕文字以及场景变化之间进行联合推理,以支持更丰富的视频与语音分析。Nemotron 3 Nano Omni 能够生成高密度字幕,不仅捕捉语音内容,还能描述画面中发生的事件,同时提升大规模内容库中的视频检索与摘要能力,帮助媒体团队更高效地将原始素材转化为可搜索、具备上下文语义且可用于生产的内容资产。
通过 API即可轻松调用 Nemotron 3 Nano Omni
您可以在 Bitdeer AI Model Studio 上运行 Nemotron 3 Nano Omni。该平台是我们推出的无服务器推理服务,旨在以简单且可扩展的方式提供先进基础模型的访问能力。通过简洁易用的 API,Model Studio 使开发者与企业无需管理底层基础设施,即可快速调用模型,从而降低部署复杂度并缩短实现价值的周期。
这一能力使多模态推理更易集成至各类应用与智能体工作流中,并在少量步骤内实现从实验验证到生产落地的高效转化路径,兼顾灵活性与运行效率。
立即开始体验
- 登录Bitdeer AI Model Studio
- 在模型列表中找到 Nemotron 3 Nano Omni
- 生成 API Key,开始进行 API 调用
这一简化流程可帮助您快速将多模态推理能力集成至应用与智能体系统中。

结语
NVIDIA Nemotron 3 Nano Omni 让多模态 AI 在真实业务场景中的部署更加可行与高效。相比管理多个模型与复杂流程,团队可以将重心放在构建智能体应用、自动化业务流程以及提升用户体验上。
随着该模型在 Bitdeer AI Model Studio 上的上线,企业能够更快地从实验阶段迈向生产环境,将多模态 AI 转化为可量化的业务价值。