DeepSeek 已经走红。
中国人工智能实验室 DeepSeek 的 聊天机器人应用跃居苹果应用商店(以及谷歌应用商店)排行榜榜首,一举进入主流视野。DeepSeek 的人工智能模型采用了高效的计算技术进行训练,这 让华尔街分析师和技术专家开始质疑 美国 能否 在人工智能竞赛中保持领先地位,以及对人工智能芯片的需求能否持续。
DeepSeek 的交易员起源
DeepSeek 得到了 High-Flyer Capital Management 的支持,这是一家使用人工智能来指导其交易决策的中国量化对冲基金。
人工智能爱好者梁文峰于 2015 年与他人共同创立了 High-Flyer。据报道,梁文峰在浙江大学读书期间就开始涉足交易,并于 2019 年创立了 High-Flyer Capital Management,这是一家专注于开发和部署人工智能算法的对冲基金。
2023年,High-Flyer 成立了 DeepSeek,作为一家独立于金融业务、致力于研究人工智能工具的实验室。在 High-Flyer 的投资者之一的支持下,该实验室分拆成立了一家名为 DeepSeek 的独立公司。
从第一天起,DeepSeek 就构建了自己的数据中心集群用于模型训练。但与中国其他人工智能公司一样,DeepSeek 也受到了美国硬件出口禁令的影响。为了训练其最新的一个模型,该公司被迫使用 Nvidia H800 芯片,这是美国公司可用的 H100 芯片的低性能版本。
据称,DeepSeek 的技术团队以年轻人为主。据报道,该公司积极从中国顶尖大学招募人工智能博士研究员。据《纽约时报》报道, DeepSeek 还聘请了没有任何计算机科学背景的人才,以帮助其技术更好地理解各种学科。
DeepSeek 的强大模型
DeepSeek 于 2023 年 11 月发布了其首套模型——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天,这家初创公司发布了其下一代 DeepSeek-V2 系列模型,人工智能行业才开始注意到它。
DeepSeek-V2 是一款通用的文本和图像分析系统,在各种 AI 基准测试中均表现出色,而且运行成本远低于当时的同类模型。这迫使 DeepSeek 的国内竞争对手(包括字节跳动和阿里巴巴)降低了部分模型的使用价格,并将其他模型完全免费。
DeepSeek-V3于 2024 年 12 月推出,进一步提升了 DeepSeek 的知名度。
根据 DeepSeek 的内部基准测试,DeepSeek V3 的表现优于可下载、公开可用的模型(如 Meta 的 Llama)和只能通过 API 访问的“封闭”模型(如 OpenAI 的GPT-4o)。
同样令人印象深刻的是 DeepSeek 的 R1“推理”模型。该模型于 1 月发布,DeepSeek 声称R1 在关键基准测试中的表现与 OpenAI 的 o1 模型相当。
作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于它避免一些通常会影响模型的陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常需要几秒到几分钟)才能得出解决方案。其优点在于,它们在物理、科学和数学等领域往往更可靠。
然而,R1、DeepSeek V3 以及 DeepSeek 的其他模型也存在缺陷。作为中国自主研发的人工智能,它们必须接受 中国互联网监管机构的基准测试 ,以确保其回应“体现社会主义核心价值观”。例如,在 DeepSeek 的聊天机器人应用中,R1 不会回答有关天安门广场或台湾自治的问题。
3 月份,DeepSeek 的访问量超过 1650 万次。“尽管根据每日访问量计算,3 月份 DeepSeek 的流量较 2 月份下降了 25%,但仍位居第二,” Similarweb 编辑 David Carr 告诉 TechCrunch。但与 ChatGPT 相比,DeepSeek 仍然相形见绌,ChatGPT 3 月份的周活跃用户数已突破 5 亿。
颠覆性方法
如果说 DeepSeek 有商业模式,那么具体是什么,目前尚不清楚。该公司的产品和服务定价远低于市场价值,并且免费提供其他产品和服务。尽管有大量风险投资公司对其感兴趣,但它也不接受投资者的资金。
DeepSeek 表示,效率的突破使其能够保持极高的成本竞争力。然而,一些专家对该公司提供的数据提出质疑。
无论如何,开发者们已经对 DeepSeek 的模型产生了兴趣。这些模型并非人们通常理解的开源模型,而是在允许商业使用的宽松许可下提供的。据托管 DeepSeek 模型的平台之一 Hugging Face 的首席执行官 Clem Delangue 称,Hugging Face 上的开发者已经创建了 500 多个 R1 的“衍生”模型,总下载量已达 250 万次。
DeepSeek 在与规模更大、更成熟的竞争对手的竞争中取得的成功被形容为“颠覆人工智能”和“被过度炒作”。该公司的成功至少在一定程度上导致了英伟达股价在 1 月份下跌 18%,并引发了 OpenAI 首席执行官 Sam Altman 的公开回应。据路透社报道,今年 3 月,美国商务部各部门告知员工,DeepSeek 将被禁止在其政府设备上使用。
微软宣布 DeepSeek 已在其 Azure AI Foundry 服务上线,该平台将企业级 AI 服务整合到一起。在第一季度财报电话会议上,当被问及 DeepSeek 对 Meta 人工智能支出的影响时,首席执行官马克·扎克伯格表示,在人工智能基础设施方面的支出将继续成为Meta 的“战略优势”。今年 3 月,OpenAI 称 DeepSeek 受到“国家补贴”和“国家控制”,并建议美国政府考虑禁止 DeepSeek 中的模型。
在 Nvidia 第四季度财报电话会议上,首席执行官黄仁勋强调了 DeepSeek 的“卓越创新”,并表示它和其他“推理”模型对 Nvidia 来说非常有用,因为他们需要更多的计算能力。
与此同时,一些公司正在禁用DeepSeek,包括韩国在内的一些国家和政府也采取了同样的措施。纽约州也禁止在政府设备上使用DeepSeek。
DeepSeek 的未来如何,目前尚不明朗。改进模型是必然的。但美国政府似乎越来越警惕其认为有害的外国影响。今年 3 月,《华尔街日报》报道称,美国可能会禁止在政府设备上使用 DeepSeek。