2025年,一项由知名研究机构FutureSearch主导的人工智能研究,彻底刷新了大众对AI智能代理(AI Agents)在复杂任务处理能力上的认知。这项研究对包括OpenAI、Anthropic、Google和中国杭州的DeepSeek等全球顶尖大模型进行了综合评估,目的在于探测它们在“真实世界信息检索任务”中的实际表现。最终,ChatGPT的最新o3模型拔得头筹,超越了Claude 3.7、Gemini 2.5 Pro与DeepSeek-R1。
人工智能智能代理迎来“实战大考”
此次评估共设计了89个任务,涵盖数据搜集、原始资料查找、证据整理、数据验证和结论推理等方面。这些任务模拟的是现实生活中一个“聪明的通用型研究者”需要完成的信息查证类工作,而不仅仅是聊天或写段文字那么简单。
从测试得分来看,目前最好的模型得分仅为0.51(满分0.8),远未达到人类顶级研究员的水平。换句话说,即便是最强的AI智能代理,目前也难以挑战真正具备批判性思维与战略规划能力的人类研究者。
模型 | 得分(满分0.8) |
---|---|
ChatGPT o3 (OpenAI) | 0.51 |
Claude 3.7 Sonnet (Think) | 0.49 |
Claude 3.7 Sonnet (Std) | 0.48 |
Gemini 2.5 Pro | 0.45 |
GPT-4.1L | 0.42 |
DeepSeek-R1 | 0.31 |
Mistral Small | 0.30 |
GPT-4 Turbo | 0.27 |
Gemma 3 | 0.20 |
DeepSeek:来自中国的开源力量逐渐崛起
在这场国际化的大比拼中,来自中国杭州的开源模型DeepSeek虽然分数位居中后段(0.31分),但依然引人注目。要知道,与OpenAI、Google这种年投入数十亿美元的封闭大厂相比,DeepSeek主打的是低成本、开源、轻量级部署。
在中国市场,DeepSeek已经被广泛用于包括医疗文书生成、政府文档处理在内的多个垂直场景。比如,在深圳福田,基于DeepSeek的AI写文书工具已经走进执法机关;在长春、厦门等地的医院,DeepSeek帮助医生自动撰写病历,提升工作效率。
而这次测试的成绩也说明:DeepSeek虽然在高强度研究类任务上尚有差距,但在“性价比”和实际落地方面,已成为开源模型中的佼佼者。
ChatGPT为何夺冠?
ChatGPT的o3版本不仅在信息搜索准确率上表现突出,还展现出更高程度的“自我验证”能力,即在输出答案前会主动校验信息的来源是否可靠。这让它在需要对比多个数据源、整合证据链条时的表现更具专业性。
研究指出,AI代理目前面临的一个共性问题是所谓的“满意主义”(satisficing)现象:即在没有找到最优答案之前,模型就停下来给出“看起来差不多”的结论。这正是ChatGPT-o3相较于其他模型的领先之处——它更少“过早收工”,更倾向于深入验证内容。
DeepSeek的关键问题:记忆管理与深度思维
在此次测试中,DeepSeek暴露出两个核心短板:
- 中途遗忘问题(Memory Management):在长流程研究任务中,DeepSeek往往会“忘记”前面已经获得的关键信息,导致最终结论缺乏逻辑连续性。
- 策略规划不足:当任务需要战略级分析(例如:多角度来源交叉验证、数据建模等),DeepSeek较容易停留在表层信息整合,而缺乏深入洞察力。
当然,这并不意味着DeepSeek无用,反而显示了它在轻量级文档处理、初步信息搜集等方面的优势。
下一步:AI代理距离超越人类还有多远?
未来研究者指出,过去一年内,AI代理的平均性能已弥补了与人类顶尖研究员之间约45%的差距。也就是说,ChatGPT从GPT-4 Turbo到o3,仅一年内就大幅接近“理想智能代理”的定义。
如果这个速度持续下去,也许再过一两年,AI就能真正胜任大量中高强度的研究任务,甚至超过部分人类研究员。
但这同样提醒我们:目前所有AI工具,包括DeepSeek在内,在面对复杂推理任务时仍不可靠,使用者仍需“人类在环(human-in-the-loop)”进行质量审核。