DeepSeek发布最新论文:5大杀手锏让大模型训练、推理暴涨

2025年5月,全球著名开源大模型平台 DeepSeek 在 HuggingFace 发布了全新论文,详解其新一代开源大模型——DeepSeek-V3 的技术亮点。论文链接: https://huggingface.co/papers/2505.09343

论文从硬件架构模型设计两个视角出发,重点解决当前 AI 模型在训练推理效率硬件资源瓶颈之间的矛盾,提出了五大关键技术突破:


一、DeepSeek-MoE + 多头潜在注意力:精度不降,效率倍增

▍DeepSeek-MoE(Mixture-of-Experts 混合专家架构)

  • 核心理念: 通过稀疏激活策略,仅在每次前向过程中启用部分专家网络,从而极大降低计算量与内存使用。
  • 模型对比:
    • DeepSeek-V2:2360亿参数,每个token仅激活210亿参数。
    • DeepSeek-V3:6710亿参数,激活量仅为370亿token。
    • Qwen-2.5-720B:密集模型,每个token激活全部720亿参数。
    • LLaMA3.1-4050B:每token计算量达2448 GFLOPS,而DeepSeek-V3仅250 GFLOPS。

▍推理优势:

  • 在本地部署中,仅需激活少部分参数,个人电脑(如搭载AISoC芯片)即可实现每秒20 token 推理速度,远优于同类密集模型。

▍多头潜在注意力(MLA)

  • 利用投影矩阵压缩所有注意力头的键值(KV)表示为一个小型潜在向量,减少KV缓存大小。
  • 每token缓存大小对比:
    • DeepSeek-V3:70KB
    • LLaMA-3.1 405B:516KB
    • Qwen-2.5 720B:327KB

▍其他KV优化方式:

  • 共享KV(GQA/MQA)
  • 窗口KV(Sliding Window)
  • KV量化(Low-bit Quantization)

二、FP8混合精度训练:训练阶段也“轻装上阵”

▍背景:

传统量化(如GPTQ、AWQ)多用于推理阶段,训练阶段仍依赖高精度。DeepSeek-V3 成为首个引入FP8混合精度训练的开源大模型之一

▍技术亮点:

  • 在训练前后向计算中使用FP8,加快计算速度,降低能耗。
  • DeepSeek与硬件协同设计:
    • 累加精度优化建议: 支持FP32或可调累加精度。
    • 传输优化建议: 支持原生细粒度量化,避免去量化过程造成的通信瓶颈。

▍网络通信优势:

  • 在EP并行中使用FP8通信,相较BF16可减少50%通信量,显著提升带宽利用率。

三、多标记预测(MTP):每次推理多个token,提速不止一点点

▍传统限制:

自回归模型一次只能预测一个token,序列越长,推理越慢。

▍MTP的优势:

  • 一次生成多个候选token(如下一个、下下一个等),并行预测与验证。
  • 预测准确率高达80%-90%,大幅提升序列生成速度。

四、创新网络拓扑:多平面双层胖树(MPFT),大幅降低AI集群成本

▍原有问题:

传统三层胖树结构网络成本高,扩展性有限。

▍DeepSeek方案:

  • 引入多平面胖树网络(Multi-Plane Fat Tree)
  • 每节点连接8台GPU与8个IB网卡,横向扩展能力强
  • 实现更高带宽密度与更低通信延迟

五、软硬协同优化:从芯片到系统全面打通

▍软硬件联动设计:

  • 为FP8训练开发专用训练框架。
  • 为MoE架构优化推理调度与存储。
  • 为未来硬件提出结构改进建议(累加精度、量化支持、网络通信加速等)。

结语:AI规模化发展的新范式

随着GPT-4、Claude、Gemini 等大模型不断迭代,模型性能提升面临巨大的计算、内存与带宽压力。DeepSeek-V3 以其前瞻性模型结构设计系统级优化能力,为全球大模型研发提供了极具实用性与可复制性的思路:

  • 既追求规模,也注重效率;
  • 既关注性能,也考虑落地。

对于想要低成本部署高性能模型的企业、开发者、研究人员来说,DeepSeek-V3无疑是一份“高效优雅”的新范本。