近日,AI研究机构 DeepSeek 团队发布了一篇重量级回顾性论文:《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》(深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考)。论文由包括梁文锋在内的多位核心研究者联合署名,首次系统性披露了 DeepSeek-V3 在超大规模训练与推理过程中的软硬协同设计实践。
这篇论文不仅探讨了 DeepSeek-V3 的架构设计细节,更聚焦在支撑其背后的一整套AI基础设施扩展策略,覆盖内存效率、成本控制、推理加速三大关键维度,并提出对未来AI芯片架构演进的深度思考。
01 开篇破题:软硬协同是通向LLM可持续扩展的关键
论文首先指出,当前大模型的发展正面临“计算-内存-互连”三重瓶颈。DeepSeek-V3 所采用的“硬件感知模型设计”路线,是打破扩展限制、提升训练效率和推理速度的可行之道。该方法通过软硬协同、数据流优化、模型结构设计,达到资源使用最大化。
02 三大挑战下的系统级设计突破
内存效率:压榨显存极限
- FP8训练:相较BF16减少50%内存占用,首次大规模实用化。
- MLA机制:注意力KV缓存压缩至仅70KB(远低于Qwen和LLaMA),推理内存成本大减。
- 补充方法展望:GQA/MQA、Window KV、稀疏注意力、线性注意力等机制也被广泛讨论。
成本效益:极致的参数稀疏激活MoE
- DeepSeek-V3 使用 DeepSeekMoE 架构,激活参数占比远低于密集模型。
- 671B总参数,单token激活仅37B,训练每token仅需约250 GFLOPS,远优于同量级密集模型。
- 所得推理效率在千元级GPU或SoC上即可实现20 TPS,具备强本地部署潜力。
推理速度:架构级别加速优化
- 双 micro-batch 重叠策略:隐藏All-to-All通信瓶颈,层级TPOT压至14ms内。
- MTP 技术:以80%-90%命中率并行生成token,推理吞吐提升至1.8倍。
- 未来展望:如部署在GB200 NVL72等超高带宽平台,TPOT有望飙升至1200 tokens/s。
03 低精度计算下的硬件瓶颈与建议
论文深入讨论了FP8训练中遇到的两大硬件挑战:
- 累积精度限制:现有FP8计算仅保留13位有效小数,影响大模型稳定性。
- 细粒度量化开销大:当前Tensor Core不支持细粒度量化下的原生缩放操作。
团队建议:
- 新一代AI芯片应支持可配置累积精度;
- Tensor Core需内建支持tile/block级缩放矩阵乘法;
- 借助如NVIDIA Blackwell的microscaling格式将是突破口。
04 H800 时代下的通信策略与算力调度
在使用带宽缩水的 H800 SXM 时,DeepSeek-V3摒弃传统张量并行,采用流水线并行+专家并行+通信重叠策略,辅以多网卡互连,达成每节点40GB/s的通信效率。论文称,未来要彻底解锁模型性能,还需依赖:
- 更高带宽互连设备;
- 更高密度存储/计算比的SoC架构;
- 更智能的调度/算子融合技术。
结语:DeepSeek-V3是未来AI系统工程化的实验蓝本
这篇论文不仅让人得以一窥 DeepSeek-V3 的工程智慧,更重要的是它确立了一个理念——未来的大模型不再只是参数堆砌的产物,而是一种 “软硬融合、通信驱动、效率优先”的系统级作品。
梁文锋等作者在论文中提出的诸多观点和实践路线图,为即将进入百亿参数日常部署时代的AI产业,提供了宝贵的参考与范式模板。