揭秘DeepSeek:中国AI新星被疑利用谷歌Gemini模型进行训练

近年来,人工智能领域的竞争日益激烈,各大科技公司都在努力推出更强大、更先进的AI模型。然而,随之而来的数据来源和模型训练透明度问题也浮出水面。最近,中国人工智能实验室DeepSeek发布了其最新版本的R1推理AI模型,该模型在多项数学和编程基准测试中表现出色。然而,DeepSeek并未透露其用于训练模型的数据来源,这引发了AI研究人员的广泛猜测:DeepSeek的新模型可能至少部分使用了来自谷歌Gemini系列AI的数据。

DeepSeek与Gemini的“语言指纹”:是巧合还是借鉴?

墨尔本的开发者Sam Paech,同时也是AI“情商评估”的创建者,声称他掌握了DeepSeek最新模型可能是在Gemini输出数据上进行训练的证据。Paech在X(前Twitter)上发帖指出,DeepSeek的R1-0528模型在词语和表达方式上与谷歌的Gemini 2.5 Pro模型偏好高度相似。

当然,仅仅是语言偏好上的相似性并不能构成确凿的证据。毕竟,许多模型在训练过程中可能会收敛到相同的词语和表达方式,尤其是在AI生成内容日益泛滥的“开放网络”时代。互联网上充斥着AI农场创建的点击诱饵内容,以及机器人充斥Reddit和X等平台的现象,导致训练数据中AI输出的“污染”日益严重,这使得彻底过滤训练数据集中的AI输出变得异常困难。

然而,另一位名为SpeechMap的“言论自由评估”AI的匿名创建者则提出了更具说服力的观察。他注意到,DeepSeek模型在得出结论时所生成的“思考过程”(即模型生成过程中产生的中间步骤)“读起来就像Gemini的痕迹”。这种“痕迹”的相似性可能更能说明问题,因为它不仅仅是最终输出的表面相似性,而是模型内部推理逻辑的相似性。

DeepSeek的历史“前科”:与竞争对手模型的纠葛

这并非DeepSeek首次被指控利用竞争对手的AI模型进行训练。早在去年12月,就有开发者观察到DeepSeek的V3模型经常将自己识别为ChatGPT,即OpenAI的AI驱动聊天机器人平台。这一现象强烈暗示DeepSeek的V3模型可能在ChatGPT的聊天记录上进行过训练。

更早些时候,OpenAI在今年初向《金融时报》透露,他们发现有证据表明DeepSeek涉嫌使用“蒸馏”技术。蒸馏是一种训练AI模型的技术,通过从更大、更强大的模型中提取数据来训练较小的模型。据彭博社报道,OpenAI的紧密合作者和投资者微软在2024年末检测到,通过OpenAI开发者账户存在大量数据被窃取的情况——OpenAI认为这些账户与DeepSeek有关联。

尽管蒸馏并非一种不常见的做法,但OpenAI的服务条款明确禁止客户使用该公司的模型输出来构建竞争性AI。这意味着,如果DeepSeek确实使用了OpenAI的模型输出来训练自己的模型,那么它将违反OpenAI的服务条款。

“合成数据”的诱惑:成本与效益的考量

AI专家,例如非营利性AI研究机构AI2的研究员Nathan Lambert,并不认为DeepSeek在谷歌Gemini的数据上进行训练是不可想象的。Lambert在X上发文表示:“如果我是DeepSeek,我肯定会从目前最好的API模型中创建大量的合成数据。”他进一步解释道:“DeepSeek缺乏GPU,但资金充裕。这对他们来说实际上意味着更多的计算能力。”

这里的核心观点是,对于资源有限但资金充足的AI公司而言,通过API访问顶尖AI模型并生成大量合成数据进行训练,可能比自行从头开始收集和处理海量原始数据更具成本效益。这可以被视为一种“曲线救国”的策略,以更高效的方式获取高质量的训练数据,从而加速自身模型的开发进程。

AI公司加强安全措施,防范模型“蒸馏”

为了防止模型“蒸馏”这种行为,AI公司一直在加强安全措施。

今年4月,OpenAI开始要求组织完成身份验证流程才能访问某些高级模型。该流程要求提供支持OpenAI API的国家/地区签发的政府颁发身份证件;值得注意的是,中国不在这个列表中。这一举措显然旨在限制某些地区或实体未经授权地访问和利用其先进模型。

此外,谷歌最近也开始“总结”其AI Studio开发者平台中可用模型生成的“痕迹”。这一步骤使得在Gemini痕迹上训练高性能竞争模型变得更具挑战性。通过对模型内部推理过程的总结和抽象,谷歌旨在增加逆向工程和数据提取的难度。

Anthropic在今年5月也表示,将开始总结其自身模型的痕迹,理由是需要保护其“竞争优势”。这些举措都表明,AI公司已经意识到模型“蒸馏”的威胁,并正在采取积极措施来保护其核心资产和知识产权。

结论:DeepSeek的成功与AI伦理的边界

DeepSeek最新模型的优异表现无疑证明了其在AI研发方面的实力。然而,围绕其训练数据来源的争议也再次凸显了AI伦理和知识产权保护的重要性。在AI技术飞速发展的当下,如何平衡模型的开放性与专有性、促进创新与维护公平竞争,是整个行业需要共同面对的挑战。

DeepSeek是否真的使用了谷歌Gemini的数据进行训练,目前仍停留在推测阶段,需要更确凿的证据来证实。但这一事件无疑为AI领域的合作与竞争关系投下了一道阴影,并促使所有参与者重新审视其数据使用政策和安全防护措施。

未来,随着AI模型能力的不断提升,以及“AI生成数据”在互联网上占据更大比例,如何更有效地识别和过滤训练数据中的AI输出,将成为一个日益严峻的技术难题。同时,对于AI公司而言,在追求技术突破的同时,更应重视建立透明、负责任的训练实践,以赢得用户的信任和行业的尊重。