研究揭示:主流聊天机器人在科学总结中常常夸大研究成果

一项由乌得勒支大学的乌韦·彼得斯(Uwe Peters)和加拿大西安大略大学/英国剑桥大学的本杰明·钦-伊(Benjamin Chin-Yee)共同进行的研究显示,主流大型语言模型(LLMs)在总结科学研究时,常常夸大原始研究的结论。这项研究分析了包括ChatGPTDeepSeek在内的多个主流聊天机器人生成的近5000篇科学摘要,发现其中高达73%的摘要存在夸大或不准确的情况。

研究人员指出,这些模型在总结科学研究时,往往将原文中谨慎、过去时态的表述,如“本研究中该治疗方法有效”,转化为更为笼统、现在时态的表述,如“该治疗方法有效”。这种转变可能会误导读者,使其误以为研究结果具有更广泛的适用性。

令人意外的是,当研究人员明确要求模型避免不准确时,模型产生夸大结论的可能性反而增加了近一倍。这表明,当前的语言模型在处理科学信息时,仍存在严重的可靠性问题。

此外,研究还发现,较新的模型,如ChatGPT-4oDeepSeek,在准确性方面的表现甚至不如一些较旧的模型。这引发了人们对新一代语言模型在科学传播中可靠性的担忧。

为减少这种风险,研究人员建议使用在准确性方面表现较好的模型,如Claude,并在使用聊天机器人总结科学研究时,设置较低的“温度”参数,以减少模型的“创造性”。此外,使用强调间接、过去时态的提示词,也有助于提高摘要的准确性。

这项研究强调了在科学传播中谨慎使用大型语言模型的重要性。如果希望人工智能在提高科学素养方面发挥积极作用,而不是削弱它,就需要对这些系统进行更严格的监督和测试。