2025年5月17日,全球知名开源大模型平台DeepSeek在Hugging Face发布了其最新论文,详细介绍了其最新开源模型DeepSeek-V3的五大核心创新技术。
DeepSeek-MoE架构:高效的混合专家模型
DeepSeek-V3采用了先进的DeepSeek-MoE(Mixture of Experts)架构,通过选择性激活专家参数子集,实现了在增加总参数数量的同时,保持计算需求的适度性。
- DeepSeek-V2拥有2360亿参数,每个token仅激活210亿参数;
- DeepSeek-V3扩展到6710亿参数,每个token的激活量为370亿。
相比之下,其他密集模型如Qwen2.5-720亿和LLaMA3.1-4050亿在训练期间需要激活所有参数,计算资源消耗更大。
多头潜在注意力(MLA):显著降低内存消耗
DeepSeek-V3引入了**多头潜在注意力(MLA)**架构,通过投影矩阵将所有注意力头的键值(KV)表示压缩成更小的潜在向量,显著减少了KV缓存的大小。
- 每个token的KV缓存大小仅为70KB,远低于LLaMA-3.1的516KB和Qwen-2.5的327KB。
此外,DeepSeek还提出了共享KV、窗口KV和量化压缩等方法,进一步减少内存使用。
FP8混合精度训练:降低计算成本
在训练技术方面,DeepSeek-V3引入了FP8混合精度训练技术,在保证模型质量的同时,大幅降低了计算成本,使得大规模训练更加经济可行。
DeepSeek通过基础设施和算法团队之间的深度合作,为MoE模型开发了与FP8兼容的训练框架,解决了FP8在Tensor Core中使用约束累加精度等问题。
多标记预测(MTP):提升推理速度
DeepSeek-V3引入了**多标记预测(MTP)**框架,允许模型在每个推理步骤中同时生成多个候选标记,而不是仅仅生成一个标记,从而显著减少了生成整个序列所需的时间。
实验数据显示,MTP模块在预测下一个标记时的接受率高达80%至90%,显著提高了推理速度。
多平面双层胖树网络:降低算力集群成本
在AI基础设施方面,DeepSeek采用了多平面双层胖树网络,取代了传统的三层胖树拓扑结构,降低了集群网络成本。
在DeepSeek-V3的训练过程中,部署了一个多平面胖树(MPFT)横向扩展网络,每个节点配备8台GPU和8个IB网卡,每个GPU-网卡对分配到不同的网络平面。
此外,DeepSeek还选用了InfiniBand GPUDirect Async(IBGDA),允许GPU直接填充工作请求内容并写入RDMA门铃MMIO地址,消除了与GPU-CPU通信相关的显著延迟开销。