DeepSeek 旨在通过最新的开源计划分享 AI 推理引擎背后的技术

DeepSeek 表示,其内部推理引擎和训练框架在加速其 AI 模型的训练和部署方面发挥了重要作用。

DeepSeek 希望使其 AI 模型的核心组件之一更加开放,并让其他开发人员能够轻松访问。

这家中国人工智能初创公司表示,将与开源社区分享其内部推理引擎的技术细节。推理是构建大型语言模型 (LLM) 的众多阶段之一。它涉及经过训练的人工智能模型生成新数据,这些数据展现了模型基于其参数学习到的模式。

DeepSeek 表示,其内部推理引擎和训练框架在加速其 AI 模型的训练和部署方面发挥了重要作用。虽然其训练框架建立在 PyTorch 平台之上,但这家初创公司的推理引擎是 vLLM 的修改版本。vLLM 是一个用于 LLM 推理的开源库,由美国加州大学伯克利分校的研究人员开发。

“鉴于部署 DeepSeek-V3 和 DeepSeek-R1 等模型的需求日益增长,我们希望尽可能地回馈社区。我们非常感谢开源生态系统,没有它,我们在 AGI(通用人工智能)方面的进步就不可能实现,”DeepSeek 研究员在开源 AI 模型在线存储库 Hugging Face 上发布的一篇说明。

然而,该公司并未将其内部推理引擎完全开源并开放给用户。相反,DeepSeek 表示将与现有的开源项目分享其对 vLLM 推理引擎的设计改进及其实现细节。DeepSeek 还承诺提取有用的功能,并将其作为独立的、可重复使用的库与开源社区共享。

DeepSeek 指出,其推理引擎完全开源存在一些障碍,例如维护带宽不足、基础设施限制以及高度定制的代码库。今年 2 月,作为“开源周”计划的一部分,DeepSeek 将其部分 AI 模型(例如代码库)开源。

除了成本和计算效率之外,DeepSeek 的突破还因其开源特性而受到 AI 研究人员和技术高管的热烈欢迎。然而,其模型并不符合开放源代码促进会 (OSI) 对开源 AI 系统的定义。用于训练其旗舰 R1 模型的数据以及训练框架和训练代码尚未根据 MIT 许可证发布。