就在Meta 努力回避针对其新款 Llama 4 模型系列的质疑和批评时,图形处理单元 (GPU) 巨头 Nvidia 发布了一款全新的、完全开源的大型语言模型 (LLM),该模型基于 Meta 的旧模型 Llama-3.1-405B-Instruct 模型,并且在各种第三方基准测试中都声称其性能接近顶级水平——优于其备受赞誉的竞争对手 DeepSeek R1 开源推理模型。
Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿个参数的密集型模型,旨在支持高级推理、指令跟踪和 AI 助手工作流程。它最早在 3 月份的 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。
此次发布体现了 Nvidia 通过架构创新和有针对性的后期训练持续关注性能优化。
该模型代码于2025年4月7日晚间宣布,现已在Hugging Face上公开发布,包含开放的权重和训练后数据。该模型旨在在“推理开启”和“推理关闭”模式下高效运行,允许开发人员在高复杂度推理任务和基于系统提示的更直接输出之间切换。
专为高效推理而设计
Llama-3.1-Nemotron-Ultra-253B 以 Nvidia 先前在推理优化 LLM 开发方面的工作为基础。其架构通过神经架构搜索 (NAS) 流程定制,引入了诸如跳过注意力层、融合前馈网络 (FFN) 和可变 FFN 压缩比等结构变化。
这种架构上的彻底改革减少了内存占用和计算需求,同时又不会严重影响输出质量,从而能够在单个 8x H100 GPU 节点上进行部署。
Nvidia 表示,该模型不仅性能强劲,而且在数据中心环境中部署也更具成本效益。此外,该模型还支持 Nvidia 的 B100 和 Hopper 微架构,其配置已在 BF16 和 FP8 精度模式下验证。
推理和对齐的后期训练
Nvidia 通过多阶段后训练流程增强了基础模型。这包括跨数学、代码生成、聊天和工具使用等领域的监督微调,然后通过组相对策略优化 (GRPO) 进行强化学习,以进一步提升指令遵循和推理性能。
该模型经历了超过 650 亿个标记的知识提炼阶段,随后对另外 880 亿个标记进行了持续的预训练。
训练数据集包括 FineWeb、Buzz-V1.2 和 Dolma 等来源。训练后的提示和响应则来自公共语料库和合成生成方法,其中包括用于训练模型区分不同推理模式的数据集。
提升众多领域和基准的性能
评估结果表明,模型在启用推理模式下运行时性能显著提升。例如,在 MATH500 基准测试中,性能从标准模式下的 80.40% 提升至启用推理模式下的 97.00%。
同样,AIME25 基准测试的结果从 16.67% 上升到 72.50%,LiveCodeBench 得分也增加了一倍多,从 29.03% 跃升至 66.31%。
在基于工具的任务(如 BFCL V2 和函数组合)以及一般问答(GPQA)中也观察到了性能提升,其中模型在推理模式下的得分为 76.01%,而非推理模式下的得分为 56.60%。
这些基准测试的最大序列长度为 32,000 个标记,并且每个测试重复最多 16 次以确保准确性。
与具有 6710 亿个总参数的最先进的 MoE 模型 DeepSeek R1相比,Llama-3.1-Nemotron-Ultra-253B 尽管参数数量(模型设置)不到其一半,却表现出了具有竞争力的结果 – 在 GPQA(76.01 vs. 71.5)、IFEval 指令跟踪(89.45 vs. 83.3)和 LiveCodeBench 编码任务(66.31 vs. 65.9)等任务中表现出色。
同时,DeepSeek R1 在某些数学评估中占有明显优势,尤其是 AIME25(79.8 对 72.50),并略胜 MATH500(97.3 对 97.00)。
这些结果表明,尽管是一个密集模型,但 Nvidia 的产品在推理和一般指令对齐任务上达到或超过了 MoE 替代方案,而在数学密集型类别中略微落后。
使用和集成
该模型与 Hugging Face Transformers 库(推荐 4.48.3 版本)兼容,并支持最多 128,000 个 token 的输入和输出序列。
开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。
对于推理任务,Nvidia 建议使用温度采样 (0.6),top-p 值为 0.95。对于确定性输出,优先使用贪婪解码。
Llama-3.1-Nemotron-Ultra-253B 支持多语言应用程序,具有英语和其他几种语言的功能,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
它也适用于常见的 LLM 用例,例如聊天机器人开发、AI 代理工作流、检索增强生成 (RAG) 和代码生成。
已获商业使用许可
该模型根据 Nvidia 开放模型许可证发布,并受 Llama 3.1 社区许可协议管辖,已准备好用于商业用途。
Nvidia 强调了负责任的人工智能开发的重要性,鼓励团队根据其特定用例评估模型的一致性、安全性和偏差概况。
Nvidia 人工智能模型后训练总监 Oleksii Kuchaiev在 X 上分享了这一公告,他表示团队很高兴分享这一开放版本,并将其描述为一个采用切换开/关推理功能设计的密集 253B 模型,并以开放权重和数据发布。