腾讯助力性能翻倍:开源通信框架DeepEP实现重大突破,助推AI大模型训练效率

在AI大模型的训练领域,通信效率直接关系到整体训练性能和资源利用率。近日,中国AI初创企业DeepSeek宣布,其开源的通信框架DeepEP在腾讯团队的协助下取得了显著性能提升,尤其在RoCE和InfiniBand(IB)网络环境中,分别实现了100%与30%的性能增幅

这不仅代表着开源AI生态的持续进化,也标志着国内AI产业链协作能力迈向新的高度。


DeepEP框架:专为MoE和专家并行设计的通信利器

DeepSeek推出的DeepEP框架是一款专为Mixture of Experts(MoE)架构与专家并行(Expert Parallelism, EP)设计的通信库。它具备以下核心技术特点:

  • 高吞吐量 GPU Kernel 通信能力
  • 极低延迟,适应大规模集群训练场景
  • 原生支持低精度计算(包括 FP8)
  • 灵活适配多种分布式并行策略

这些优势使DeepEP非常适合构建下一代多专家大模型架构,成为AI系统工程中至关重要的一环。


腾讯Starlink团队深度优化:解决两大性能瓶颈

此次性能飞跃的背后,是腾讯Starlink Networking团队的技术加持。

在与DeepSeek团队的合作中,腾讯工程师识别出DeepEP存在的两大关键瓶颈:

  1. 双端口NIC(网络接口卡)带宽利用率不足
  2. CPU控制延迟问题影响通信链路效率

通过在通信调度、NIC资源利用、异步数据路径等多个维度进行定向优化,腾讯团队成功解决了这两个制约点,提升幅度令人振奋:

  • 在RoCE网络中,性能实现翻倍提升(100%)
  • 在InfiniBand环境下,通信效率提升约30%

GitHub官方致谢:性能飞跃源自腾讯优化

DeepSeek在其GitHub开源项目页面中,明确对腾讯技术团队表示了感谢,称这次优化“带来了巨大的加速效果(huge speedup)”。

目前,优化后的DeepEP框架已完全开源,所有社区开发者与企业均可免费获取,并集成至自有的AI训练系统中,构建更具性能优势的并行大模型。


成功应用:支撑腾讯“混元”大模型训练

此次深度优化后的DeepEP框架,不仅停留在实验和评估层面,还已成功部署于腾讯的“混元”大模型训练平台中。

在腾讯内部服务器(包括Starlink网络系统与H20服务器架构)构建的AI训练环境中,DeepEP展现出优异的通用性和稳定性,支撑了混元模型海量参数的分布式高效训练。


产业影响:国产AI基础设施生态迈向新阶段

此次合作是国产AI生态链“产研融合”的典范案例:

  • DeepSeek作为创新型AI大模型公司,提供核心框架与算法能力;
  • 腾讯作为基础设施和网络技术巨头,输出底层系统优化能力;
  • 双方通过开源协同,形成自下而上的技术突破路径。

这意味着,中国AI产业已不仅停留在模型层的“追赶”,而是正在向通信栈、并行系统、基础设施协同优化等核心方向持续推进,逐步建立完整生态闭环。


总结:DeepEP + 腾讯 = AI训练基础设施的关键一跃

随着模型参数规模的不断膨胀,以及多专家架构(MoE)成为主流趋势,通信框架的性能已成为影响训练效率的决定性因素。

DeepSeek与腾讯联合优化的DeepEP框架,不仅显著提升了训练性能,也验证了中国技术团队在AI系统工程中的协同创新能力。

未来,随着更多企业采用DeepEP,我们有理由相信,中国AI训练基础设施将走出更强的技术“自信之路”。