在全球人工智能竞赛加速的当下,大模型训练效率成为衡量技术实力的重要指标。近日,中国AI企业DeepSeek对外宣布,其开源通信框架DeepEP在腾讯的深度技术支持下,性能实现显著飞跃:RoCE网络环境中性能提升100%,InfiniBand网络中提升30%。这一消息不仅引发技术圈热议,也在资本和产业层面激起了广泛关注。
DeepEP背后的AI模型训练痛点
AI大模型的发展趋势已经从参数量的单纯堆积,转向更加注重训练效率与资源协同。尤其是以MoE为代表的稀疏模型结构,在训练过程中存在通信流量密集、带宽瓶颈严重、同步压力大等现实问题。
DeepSeek推出的DeepEP框架,正是面向这一痛点而生。它主打以下特性:
- 面向MoE的高性能通信机制
- 支持低精度(FP8)计算的高效数据路径
- 针对专家并行训练场景优化调度模型
然而,即便具备如此“先进设计”,其初版在大规模集群环境中依旧遭遇了瓶颈,这也为腾讯的技术支持创造了合作契机。
腾讯Starlink团队介入:不只是性能优化,更是系统工程整合
在与DeepSeek深入对接的过程中,腾讯Starlink Networking团队基于其在AI基础设施建设中的多年经验,从系统工程视角出发,对DeepEP进行了以下核心优化:
- NIC双端口负载分担调度机制重新设计
- CPU到GPU的指令流异步控制通路优化
- 网络协议栈参数动态调整策略重构
- GPU端通信kernel融合策略升级
优化结果在多个维度带来正向反馈:
- 通信吞吐能力倍增
- CPU负载降低,释放系统资源
- 带宽利用率显著提高
- 数据同步精度与延迟下降明显
这些优化为DeepSeek后续模型训练平台的扩展提供了强大支撑。
GitHub“官宣”:社区驱动的典范合作
在此次优化完成后,DeepSeek在GitHub官方页面中写道:
“腾讯团队的优化带来了巨大加速(huge speedup),这将极大推动我们的训练系统演进。”
这不仅是对技术贡献的认可,更是对开源精神的致敬。DeepEP作为完全开源的通信框架,其升级版本已同步推送至GitHub,任何团队都可下载使用、二次开发或集成入自己的AI系统。
成功部署:支撑腾讯“混元”大模型训练项目
此次优化成果已在腾讯内部“混元”大模型训练任务中验证成功。混元作为腾讯重点研发的大语言模型项目,对通信带宽、GPU同步精度、任务吞吐量要求极高,而优化后的DeepEP恰好满足了这些核心条件。
搭载Starlink网络体系与H20高性能训练服务器集群,DeepEP以强大性能支持“混元”训练任务稳定运行,为腾讯AI战略打下坚实基础。
AI基础设施国产化生态的可喜信号
此次合作的更大价值在于,其证明了国内AI产业链上下游协同的可能性。以往,训练框架、通信库、网络栈往往分属不同阵营,而现在,DeepSeek与腾讯的联合工作表明:
- 通信性能不再是瓶颈,而是优化重点;
- 大模型框架与基础设施厂商可以形成紧密协作关系;
- AI产业的系统工程能力正在走向成熟。
这对国产AI基础设施生态,是一记强有力的“强心针”。
未来展望:DeepSeek通信技术的行业示范效应
随着DeepEP的广泛部署与社区认知提升,预计其将被更多企业采用,用于:
- 训练自研大模型
- 改造现有AI训练平台
- 构建更高效的专家并行系统
DeepSeek正在通过开源、技术领先、行业联动三位一体的路径,打造国产AI技术的新样板。
结语:国产AI,从模型突破走向系统工程自信
从模型研发到通信优化,从算法创新到网络调度,DeepSeek与腾讯的联合不仅提升了框架性能,更展示了中国AI企业在系统工程与基础设施协同领域的实力。
DeepSeek的开源战略与腾讯的底层技术优势形成互补,正推动国产AI产业迈向一个更全面、更高效、更自主的新阶段。