DeepSeek 开源模型:性能、许可与合规性全解析

在人工智能技术迅猛发展的今天,开源大模型的出现为开发者和研究人员提供了前所未有的机会。DeepSeek 作为其中的佼佼者,其开源策略、性能表现以及合规性问题备受关注。本文将深入解析 DeepSeek 的开源模型,帮助您全面了解其性能、许可协议和合规性要求。

一、DeepSeek 开源模型概览

DeepSeek 是一个开源的大型语言模型(LLM)项目,旨在提供高性能的自然语言处理能力。自发布以来,DeepSeek 已推出多个版本,包括 V2、V2.5、V3、R1-Zero 和 R1 等。每个版本在性能和功能上都有所提升,满足了不同用户的需求。

1. DeepSeek V3 的性能表现

DeepSeek V3 在多个基准测试中表现出色,包括 MMLU、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国全国中学生数学奥林匹克竞赛(CMO)以及美国数学邀请赛(AIME)。这些测试结果表明,DeepSeek V3 的性能与领先的闭源模型相媲美,甚至在某些方面超越了它们。

2. DeepSeek R1 的创新训练方法

DeepSeek R1 引入了强化学习(Reinforcement Learning,RL)的方法,而非传统的监督微调(Supervised Fine-Tuning,SFT),以提升模型的推理能力。通过这种方法,DeepSeek R1 在某些测试项中的表现优于 OpenAI 的 o1 模型,展示了其在推理任务中的强大能力。

二、DeepSeek 的开源许可协议

DeepSeek 在 Hugging Face 上开放了 68 个模型和一个数据集。不同的模型采用了不同的许可协议,具体如下:

1. MIT 许可证

DeepSeek-R1DeepSeek-R1-Zero 模型的代码和模型权重均采用 MIT 许可证。MIT 许可证是一种宽松的开源许可证,允许用户自由使用、复制、修改和分发软件。

2. DeepSeek 许可证

其他模型采用了 DeepSeek 许可证,该许可证是在 OpenRAIL 许可证的基础上修改形成的,具有适配性、开放性和负责任的特点:Temp53AI+153AI+1

  • 适配性:侧重于适配模型参数、权重而非代码的开源许可。
  • 开放性:宽松的开源条件和限制,促使开源成果更好地被共享、利用和分发,激发更多的创造力。
  • 负责任:倡导在许可中采用基于行为的使用限制,以降低人工智能技术带来的危害风险。Secrss+253AI+2Temp53AI+2Temp53AI+153AI+1

此外,DeepSeek 还基于 Qwen 和 Llama 模型蒸馏了 6 个模型,其许可证分别为 MIT、Apache 2.0 和 Llama 许可证。OpenI

三、DeepSeek 的开放层级

根据 LF AI&Data 基金会的模型开放框架(Model Openness Framework,MOF),大模型的开放分为以下三个层次:

  1. 第一级:开放模型架构和模型卡。
  2. 第二级:在第一级的基础上,开放模型参数和技术报告。
  3. 第三级:在第二级的基础上,开放训练代码、推理代码、评估代码和数据集等关键组件。

DeepSeek-R1DeepSeek-V3 为例,DeepSeek 开放了模型架构、模型卡、模型参数、技术报告、评估结果等,因此,其开放层次至多属于第三级。

四、使用及分发 DeepSeek 模型的限制和条件

1. 使用限制

DeepSeek 许可证 中明确规定了模型的使用限制,主要包括:OpenI

  • 不得以任何方式违反适用的国家或国际法律或法规或侵犯任何第三方的合法权益;
  • 不得以任何方式用于军事用途;
  • 不得以任何方式剥削、伤害或试图剥削或伤害未成年人;
  • 不得生成或传播可验证的虚假信息和/或内容,以伤害他人为目的;
  • 不得根据适用的监管要求生成或传播不适当内容;
  • 不得未经授权或者不合理使用而生成或传播个人身份信息;
  • 不得诽谤、贬损或以其他方式骚扰他人;
  • 不得对于完全自动化的决策,对个人的合法权利产生不利影响或以其他方式产生或修改具有约束力、可执行的义务;
  • 不得任何基于线上或线下社交行为或已知或预测的个人或性格特征,旨在或具有歧视或伤害个人或团体的效果的使用;
  • 不得利用特定群体基于其年龄、社会、身体或精神特征的任何弱点,以实质性扭曲该群体成员的行为,从而造成或可能造成该人或他人身体或心理伤害;
  • 不得对于任何旨在或具有基于受法律保护的特征或类别歧视个人或群体的效果的使用。

需要注意的是,DeepSeek-R1DeepSeek-R1-Zero 模型采用的 MIT 许可证没有列出任何限制。

2. 分发和再分发的条件

如果想将 DeepSeek 模型为第三方远程访问目的(例如 SaaS)而托管、复制和分发模型或其衍生品的副本(无论是否经过修改),分发者或者再分发者(统称“传播方”)必须满足以下条件:

  • 传播方必须将以上使用限制作为可执行条款纳入任何类型的法律协议(例如许可证)中,以管理模型或模型衍生品的使用和/或分发,并且应当通知第三方接收者,模型或模型衍生品均受使用限制的约束。该条件不适用于补充材料的使用。
  • 传播方必须向模型或模型衍生品的任何第三方接收者提供 DeepSeek 许可证 的副本;
  • 传播方如果又进行了修改,则必须在任何修改过的文件上附加显著的声明,说明更改了这些文件;
  • 传播方必须保留所有版权、专利、商标和归属声明,但不包括与模型、模型衍生品的任何部分无关的声明;
  • 传播方如果进行了修改,传播方可以在修改中添加自己的版权声明,并且为使用、复制或分发其修改部分,或整体上为修改后的模型衍生品,提供额外的或不同的许可条款和条件(前提是符合使用限制),前提是传播方对 DeepSeek 模型的使用、复制和分发符合 DeepSeek 许可证 中规定的条件。

如果传播方在分发或者再分发时没有满足这些条件,那么传播方就会构成违约(对 DeepSeek 许可证 这一合同的违反)或者侵权(侵犯了 DeepSeek 许可证 中授予的著作权以及专利权)。根据各国法律,传播方可能面临停止侵权、赔偿损失等法律责任。

五、DeepSeek 的合规性问题

尽管 DeepSeek 在开源方面做出了巨大努力,但在合规性方面仍存在一些问题。例如,DeepSeek 在其模型代码文件中引用了 EleutherAI 的 GPT-NeoX 库以及库中的 GPT-NeoX 和 OPT 实现,但未能完全遵守 Apache 2.0 许可证的规定。此外,DeepSeek 对 Qwen 大模型以及 Llama 大模型进行蒸馏,显然也应当遵守 Qwen 大模型所采用的 Apache 2.0 许可证以及 Llama 大模型采用的 Llama 许可证。

根据 Llama 许可证的规定,对于作为分发者的 DeepSeek,还应当附随 Llama 材料提供 Llama 许可证副本,并且在相关网站、用户界面、博客文章、关于页面、或产品文档上突出显示“使用 Llama 构建”。从 Llama 模型蒸馏毫无疑问使用了 Llama 模型材料,因此还应在任何此类蒸馏模型名称的开头包含