2025年2月18日,DeepSeek 团队发布了一篇题为《原生稀疏注意力:高效长文本建模的新范式》的论文,提出了原生稀疏注意力(NSA)机制。该机制通过动态分层稀疏策略,结合粗粒度的Token压缩和细粒度的Token选择,实现了对长文本的高效建模。实验结果显示,NSA在处理64k长度序列的解码、前向传播和后向传播过程中,相较于传统的全注意力机制,速度提升高达11.6倍。此外,NSA在通用任务和长上下文任务中表现出色,甚至在某些基准测试中超越了全注意力模型。
NSA 的核心创新点
- 动态分层稀疏策略:NSA采用了结合粗粒度Token压缩和细粒度Token选择的策略,既保证了全局上下文感知,又兼顾了局部信息的精确性。澎湃新闻+1澎湃新闻+1
- 硬件友好设计:NSA在设计时充分考虑了现代硬件的特性,通过算术强度平衡的算法设计,实现了显著的加速效果。澎湃新闻+1澎湃新闻+1
- 端到端训练支持:NSA支持端到端训练,减少了预训练计算量,提高了训练效率。澎湃新闻+1澎湃新闻+1
NSA 的实际应用与影响
NSA的引入,使得大语言模型能够更高效地处理长文本,如整本书籍、代码仓库或多轮对话(如千轮客服场景)。这项技术的应用扩展了大语言模型在文档分析、代码生成、复杂推理等领域的能力。例如,Gemini 1.5 Pro已展示出长上下文处理的潜力,NSA的引入可进一步降低此类模型的训练与推理成本。澎湃新闻+4新浪财经+4澎湃新闻+4新浪财经+2澎湃新闻+2新浪财经+2
结语
DeepSeek 团队通过引入原生稀疏注意力(NSA)机制,进一步推动了大语言模型在长文本处理方面的效率和性能。这项创新不仅提升了模型的推理速度,还降低了训练成本,为大语言模型的实际应用提供了更广阔的前景。澎湃新闻+4新浪财经+4证券时报+4