NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、低延迟、模块化的推理框架,用于在分布式环境中服务生成式 AI 模型。它支持在大型 GPU 集群上无缝扩展推理工作负载,提供智能资源调度与请求路由、优化的内存管理以及高效的数据传输。Dynamo 支持包括 SGLang、TensorRT™ LLM 和 vLLM 在内的开源推理引擎,通过将推理流程的不同阶段在不同 GPU 上解耦执行,智能地将请求路由到合适的 GPU,避免重复计算,并通过数据缓存将 GPU 内存扩展到更具性价比的存储层,从而简化分布式推理部署的复杂性。

基准测试结果显示,将 GB300 NVL72 与 NVIDIA Dynamo 结合使用,相比基于 NVIDIA Hopper™ 的系统,可将 MoE(Mixture-of-Experts)模型吞吐量提升至多约 50 倍。GB300 NVL72 通过高速 NVIDIA NVLink™ 互连 72 块 GPU,为 MoE 推理模型提供关键的低延迟专家通信能力;Dynamo 通过“解耦推理”将 prefill 与 decode 阶段拆分到不同节点分别优化,进一步提升运行效率。两者联合构成针对大规模 MoE 推理优化的高性能软硬件栈。

NVIDIA Dynamo 依托于NVIDIA Triton 推理服务器 ›这是一款开源软件,可在各种工作负载中标准化 AI 模型的部署和执行。

开始使用文档


了解 NVIDIA Dynamo 的实际应用


NVIDIA Dynamo 的工作原理

随着模型规模不断增大,并越来越多地融入需要多个模型协同的 AI 工作流中,在规模化部署时,必须将这些模型分布到多台节点上,并在 GPU 之间进行精细协调。随着采用诸如解耦式推理(disaggregated serving)等推理优化方法,这种复杂性进一步提升——推理的不同阶段被拆分到不同 GPU 上执行,响应在多块 GPU 间拆分与聚合,给协同调度和数据传输都带来了更多挑战。

NVIDIA Dynamo 解决了分布式和解式推理服务的挑战。它包括以下关键组件:

  • SLO 规划器:规划和调度引擎,用于监控多节点部署中的容量和预填充活动,调整 GPU 资源以始终如一地满足服务水平目标 (SLO) 。

  • KV 感知路由器:一种 KV-cache 感知路由引擎,可在多节点部署中高效地引导大型 GPU 车队中的传入流量,以更大限度地减少冗余 KV Cache 的重新计算。

  • 低延迟通信库 (NIXL):低延迟点对点推理数据传输库,可加速 GPU 之间以及异构内存和存储类型之间的 KV 缓存传输。

  • KV 块管理器:成本感知型 KV 缓存引擎,可跨各种内存层次结构传输 KV 缓存,从而在保持用户体验的同时释放 GPU 内存。

  • Grove:Dynamo 的模块化组件,可简化在 Kubernetes 上部署分层分组调度和拓扑感知的 AI 工作负载

  • AI 性能:全面的基准测试工具,用于衡量 SGLang、TensoRT-LLM 和 vLLM 提供的生成式 AI 模型的性能。

NVIDIA Dynamo 工作流程图

NVIDIA Dynamo 办公时间

NVIDIA Dynamo 关键时刻

一系列 NVIDIA Dynamo 办公时间直播会议,开发者可以在其中提问、分享反馈,并直接向团队学习。每集内容均涵盖与 Dynamo 和推理相关的主题,可帮助您构建、优化和部署 AI 模型。

立即观看


开始使用 NVIDIA Dynamo

快速入门指南

了解开始使用 NVIDIA Dynamo 的基础知识,包括如何在解服务器设置中部署模型以及如何启动智能路由器。

Dynamo 1.0 博客

本博客详细介绍了早期采用者如何将 Dynamo 集成到现实世界的推理工作流中、实现的系统级性能提升,以及为框架添加的新功能和优化。

使用 NVIDIA Dynamo 和 vLLM 部署 LLM 推理

NVIDIA Dynamo 支持所有主要后端,包括 vLLM。查看教程,了解如何使用 vLLM 进行部署。

在 Kubernetes 上使用 NVIDIA Dynamo 和 Grove 进行多节点部署

了解如何使用 NVIDIA Dynamo 和 Grove API 部署多节点模型,该 API 可在多个节点上实现相互依赖的 AI 推理组件的高效扩展和声明式启动顺序。

入门博客

了解 NVIDIA Dynamo 如何帮助简化生产环境中的 AI 推理、有助于部署的工具以及生态系统集成。


开始使用 NVIDIA Dynamo

查找合适的许可证,为任何平台上的任何应用部署、运行和扩展 AI 推理。

下载开发代码

NVIDIA Dynamo 作为开源软件在 GitHub 上提供,并提供端到端示例。

NVIDIA Dynamo 是 NVIDIA Triton 推理服务器的后续产品。指向早期 Triton 推理服务器 GitHub 的链接单击此处

购买 NVIDIA AI Enterprise

NVIDIA AI Enterprise。将在未来版本中包含用于生产推理的 NVIDIA Dynamo。获取免费许可证,使用现有基础架构在生产环境中试用 NVIDIA AI Enterprise 90 天。

获取免费许可证,使用现有基础架构在生产环境中试用 NVIDIA AI Enterprise 90 天。


入门套件

访问有关预填充优化、解码优化和多 GPU 推理等推理主题的技术内容。

多 GPU 推理

模型规模不断扩大,无法再安装在单个 GPU 上。部署这些模型需要将其分布到多个 GPU 和节点上。此套件分享了用于多 GPU 推理的关键优化技术。

预填充优化

当用户向大语言模型提交请求时,它会生成一个 KV 缓存,以计算对请求的上下文理解。这个过程需要大量的计算,需要专门的优化。此套件提供用于推理的基本 KV 缓存优化技术。

解码优化

一旦 LLM 生成 KV 缓存和第一个 token,它就会进入解码阶段,并在此阶段以自回归方式生成剩余的输出 token。此套件重点介绍了解码过程的关键优化技术。

Kubernetes 上的拓扑优化服务

AI 工作负载已演变为跨多个节点的复杂多组件系统。Grove 连接了 AI 推理框架和 Kubernetes 调度,通过统一的自定义资源实现了相互依赖组件的高效扩展和声明式启动顺序。此套件介绍了 Grove 的功能,并指导您在 Kubernetes 上完成拓扑优化的模型部署。


NVIDIA Blackwell Ultra 为代理式 AI 提供高达 50 倍的性能提升和 35 倍的成本降低

NVIDIA Blackwell Ultra 专为加速新一代代理式 AI 而打造,可在大幅降低成本的同时提供突破性的推理性能。Microsoft、CoreWeave 和 Oracle Cloud Infrastructure 等云提供商正在大规模部署 NVIDIA GB300 NVL72 系统,用于低延迟和长上下文用例,例如代理式编码和编码助手。

这是通过 NVIDIA Blackwell、NVLink™ 和 NVLink Switch 之间的深度联合设计实现的,用于横向扩展;NVFP4 用于实现低精度精度;NVIDIA Dynamo 和 TensorRT™ LLM 用于实现速度和灵活性,以及使用社区框架 SGLang、vLLM 等进行开发。

作为 NVIDIA“Think SMART”框架的一部分,数据中心插图展示了图像、音频、视觉等领域的多模态 AI token。

更多资源

代表论坛的装饰性图像

探索开发者 Discord

获取培训和认证

点播观看 Dynamo 办公时间

代表论坛的装饰性图像

注册以获取与推理相关的开发者新闻

阅读 NVIDIA Dynamo 常见问题解答

加入 NVIDIA 开发者计划


AI 伦理

NVIDIA 认为可信 AI 是一项共同的责任,我们制定了相关政策和实践,以支持在各种应用中开发 AI。根据我们的服务条款下载或使用此模型时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。

有关此模型的道德因素的更多详细信息,请参阅模型卡 可解释性、偏差、安全性和隐私子卡。请单击此处报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Dynamo。

立即下载