热门 AI正面交锋:OpenAI 在句子级推理 上击败 DeepSeek

众所周知,ChatGPT和其他基于大型语言模型的AI聊天机器人偶尔会编造一些内容,包括科学和 法律引用。事实证明,衡量AI模型引用的准确性是评估模型推理能力的好方法。

AI 模型通过将查询分解为多个步骤并按顺序执行来进行“推理”。想想你在学校是如何学习解决数学应用题的。

理想情况下,为了生成引用,AI 模型应该理解文档中的关键概念,生成相关论文的排序列表,并就每篇推荐的论文如何支持相应的文本提供令人信服的推理。它会突出文本与被引用研究之间的具体联系,阐明每个来源的重要性。

问题是,如今的模型是否值得信赖,能够建立这些联系,并提供清晰的推理来证明其来源选择的合理性?答案不仅仅在于引用的准确性,还在于大型语言模型对于任何信息检索目的的实用性和准确性。

我是一名计算机科学家。我和我的同事——来自南卡罗来纳大学人工智能研究所、俄亥俄州立大学和马里兰大学巴尔的摩分校的研究人员——开发了Reasons 基准,以测试大型语言模型自动生成研究引文和提供可理解推理的能力。

我们利用该基准测试比较了两种流行的AI推理模型——DeepSeek的R1和OpenAI的o1——的性能。尽管DeepSeek以其惊人的效率和成本效益成为头条新闻,但这家中国新贵要想赶上OpenAI的推理性能,还有很长的路要走。

对话为您带来科学家和医生的分析。
了解更多
句子具体
引用的准确性很大程度上取决于 AI 模型是否在句子级别而非段落或文档级别进行信息推理。段落级别和文档级别的引用可以理解为将大量信息输入大型语言模型,并要求其提供大量引用。

在这个过程中,大型语言模型会过度概括并误解个别句子。用户最终得到的是解释整个段落或文档的引文,而不是句子中相对细粒度的信息。

此外,当你要求大型语言模型阅读整篇文档时,推理能力也会受到影响。这些模型主要依赖于记忆模式,而这些模式通常更擅长在长文本的开头和结尾处找到,而不是在中间部分。这使得它们很难完全理解长文档中的所有重要信息。

大型语言模型容易产生混淆,因为段落和文档包含大量信息,这会影响引文生成和推理过程。因此,基于大型语言模型对段落和文档进行推理,会变得更像是总结或释义。

Reasons 基准通过检查大型语言模型的引用生成和推理来解决这一弱点。

测试引用和推理
2025 年 1 月 DeepSeek R1 发布后,我们想检验其生成引文的准确性和推理质量,并将其与 OpenAI 的 o1 模型进行比较。我们创建了一个包含不同来源句子的段落,并将该段落中的单个句子输入到模型中,并要求模型进行引文和推理。

为了开始测试,我们开发了一个小型测试平台,其中包含约 4,100 篇研究文章,这些文章围绕与人脑和计算机科学相关的四个关键主题:神经元与认知、人机交互、数据库和人工智能。我们使用两个指标来评估模型:F-1 分数(衡量所提供引文的准确性)和幻觉率(衡量模型推理的合理性,即模型产生不准确或误导性响应的频率)。

我们的测试显示, OpenAI o1 和 DeepSeek R1 在不同科学领域的性能存在显著差异。OpenAI o1 在连接不同学科信息方面表现出色,例如理解神经元和认知研究如何与人机交互以及人工智能概念相联系,同时保持了准确性。其性能指标在所有评估类别中均优于 DeepSeek R1,尤其是在减少幻觉和成功完成指定任务方面。

OpenAI o1 更擅长语义整合想法,而 R1 则专注于确保自己能为每个归因任务生成响应,这反过来又增加了推理过程中的幻觉。OpenAI o1 在基于归因的推理任务中的幻觉发生率约为 35%,而 DeepSeek R1 的幻觉发生率则接近 85%。

在准确性和语言能力方面,OpenAI o1 在 F-1 测试中的得分约为 0.65,这意味着它在回答问题时正确率约为 65%。它在 BLEU 测试中的得分也约为 0.70,BLEU 测试衡量语言模型使用自然语言的写作能力。这些分数相当不错。

DeepSeek R1 的得分较低,在 F-1 测试中约为 0.35,这意味着它的正确率约为 35%。然而,它的 BLEU 得分仅为 0.2 左右,这意味着它的文字听起来不如 OpenAI 的 o1 自然。这表明 o1 更擅长以清晰自然的语言呈现信息。

OpenAI 占据优势
在其他基准测试中,DeepSeek R1在数学、编程和科学推理任务上的表现与 OpenAI o1 相当。但在我们的基准测试中,两者的巨大差异表明 o1 提供了更可靠的信息,而 R1 在事实一致性方面则存在问题。

虽然我们在综合测试中也包含了其他模型,但 o1 和 R1 之间的性能差距特别凸显了当前人工智能发展的竞争格局,OpenAI 的产品在推理和知识整合能力方面保持着显著优势。

这些结果表明,OpenAI 在来源归因和推理方面仍然占据优势,这可能是由于其训练数据的性质和数量所致。该公司最近发布了其深度研究工具,该工具可以创建带有引文的报告,提出后续问题,并为生成的响应提供推理。

目前尚不清楚该工具对研究人员的价值,但每个人都需要注意:仔细检查人工智能提供的所有引用。