印度Fractal推出Fathom-R1-14B推理大模型,基于DeepSeek打造,仅需499美元

印度孟买AI公司Fractal于近日重磅发布其最新开源大语言模型Fathom-R1-14B。这款拥有140亿参数的推理模型基于DeepSeek-R1-Distilled-Qwen-14B开发而成,专注于数学推理能力的提升,其性能在多个权威基准测试中优于o1-mini与o3-mini,甚至接近o4-mini的表现。而最令人震撼的是,其后训练成本仅为499美元,极具性价比。

该模型现已开放使用,用户可通过Hugging Face平台进行在线试用,完整代码也已在GitHub平台开源,遵循MIT开源协议。同时,Fractal还开放了全部训练数据集和配套训练流程,极大地降低了模型复用和二次开发的门槛。

Fathom-R1-14B是Fractal为响应IndiaAI国家人工智能战略而提出的“印度首个推理大模型”计划的重要一环。Fractal首席执行官Srikanth Velamakanni在LinkedIn上表示:“我们提议构建印度首个大型推理语言模型,并计划分阶段开发三个版本:小型、中型和一个拥有700亿参数的大型版本。Fathom-R1-14B就是这项计划的初步成果,虽然是早期产品,但已展示出令人振奋的潜力。”

根据公开测试结果,在奥林匹克难度的数学考试AIME-25和HMMT-25中,Fathom-R1-14B取得了52.71%和35.26%的Pass@1准确率;在推理计算提升(cons@64)后,其得分分别上升至76.7%和56.7%,逼近闭源模型o4-mini(low)的推理能力,且维持在16K的上下文窗口之内,性能表现相当亮眼。

Fractal表示,Fathom-R1-14B通过多阶段训练策略获得当前成果,包括有监督微调(SFT)、课程式学习(Curriculum Learning)与模型融合(Model Merging)。他们指出:“我们针对精心挑选的数据集采用特定训练方式进行有监督微调,并在之后进行模型融合,最终获得当前性能。”

值得一提的是,该公司还发布了另一个变体模型——Fathom-R1-14B-RS。该版本在训练过程中引入了强化学习(Reinforcement Learning)与SFT结合的方式,训练成本为967美元,但整体性能表现与主模型版本基本持平,进一步展示了模型架构与训练策略的灵活性与可拓展性。

Fractal并非首次涉足AI领域高潜力产品开发。早在去年,他们就推出了Vaidya.ai这一多模态AI平台,旨在为大众提供免费的可访问医疗辅助服务,展现了AI在社会公益与商业之间的平衡应用。

与此同时,另一家参与IndiaAI基础模型计划的初创企业Sarvam也于近期推出Sarvam-M,这是一款基于Mistral Small开发的240亿参数开源权重混合语言模型,为印度本土AI基础设施建设注入新活力。

随着人工智能在全球范围内的蓬勃发展,Fractal以DeepSeek为基础训练出Fathom-R1-14B,无疑是一次重要的技术跃进。专家指出,未来DeepSeek将可能成为构建多模态、跨领域AI系统的关键平台,而Fractal已在该赛道上抢占先机。