27个月,被骂骗子的公司成了印度deepseek

AGI
故事从2023年12月开始。

 

文 | 硬唠intalk

2026年3月6日,Sarvam AI把两个模型的权重文件上传到了Hugging Face

文件名是sarvam-30b和sarvam-105b。任何人都可以免费下载,免费修改,免费部署。这是开源协议中最宽松的一种——Apache 2.0,连商业使用都不设障碍。

没有发布会,没有倒计时直播。就是两个文件,挂在网上。

但对于理解这个动作的人来说,这两个文件意味着一件事:一家印度AI公司,从零开始训练出了一个在全球基准测试上有竞争力的大模型——然后把它送了出去。

这家公司走到这一步,用了两年半。中间有一个让全网嘲笑过的失败,有一笔让外界议论至今的政府交易,还有一个在公开羞辱发生后写下的、只有一句话的回应。

故事从2023年12月开始。


一、顶峰那天

2023年12月7日,Sarvam AI宣布完成融资。

4100万美元,种子轮加A轮合并计算。领投方是Lightspeed,Peak XV和Khosla Ventures跟投。按照TechCrunch的说法,这是印度AI创业公司在这个阶段完成的最大单笔融资。

公司成立刚好五个月。员工总数约18人。

没有人知道这家公司之前做过什么——它是从隐身模式直接跳出来宣布融资的。但投资人显然不需要更多时间判断。Peak XV和Lightspeed在种子轮时不到一周就拍了板。Khosla Ventures创始人Vinod Khosla在声明里说:"我们需要像Sarvam这样的公司,为印度、在印度构建AI的深度能力。"

让他们下这么快决定的,是两个创始人的简历放在一起之后产生的化学反应。

Pratyush Kumar,IIT Bombay本科,ETH Zurich博士,之后在IBM Research和Microsoft Research做研究员,再后来回到IIT Madras做教职。他在学术圈发表了89篇论文,但更重要的履历是另一个身份:AI4Bharat联合创始人。这是一个专注于印度语言AI的开源研究计划,背后站着印度数字基础设施的主要缔造者Nandan Nilekani

Vivek Raghavan,IIT Delhi本科,卡内基梅隆博士。毕业后在EDA行业做了整整二十年,做到Synopsys的副总裁级别。然后他做了一个不太符合职业逻辑的选择:回印度,去UIDAI——那个负责Aadhaar身份证系统的政府机构——做生物识别基础设施,一做就是十二年。Aadhaar今天覆盖了超过十亿印度人,是全球最大规模的数字身份系统之一。Raghavan是这套系统底层技术的参与建设者。

两个人在AI4Bharat相遇,2023年8月一起创办了Sarvam。

他们看到的机会,和ChatGPT在2022年11月出现有直接关系。不是因为要复制ChatGPT,而是因为ChatGPT的出现让一件事变得显而易见:语言模型正在成为新的基础设施,而这套基础设施如果只懂英语,对一个有二十二种官方语言、大多数人口不以英语为母语的国家来说,意味着一种结构性的排斥。Raghavan在融资公告里说了一句话:"我亲眼见证过在基础层创新、并在人口规模上部署的巨大价值。"他指的不是抽象的愿景,而是Aadhaar。

这就是VC在不到一周内决定投资的原因:这不是两个在硅谷学了几年深度学习就回来创业的人,而是两个真正在印度数字基础设施最深处工作过的人,在AI范式切换的时间节点上,做了一个在他们背景下极为自然的选择。

融资公告发出之后,Sarvam承诺的事情很简单:造一个印度自己的AI。

但"印度自己的"这几个字,比他们预想的要难兑现得多。


二、第一个滑坡

拿到钱之后,Sarvam的第一步走得相当稳。

2024年2月,微软CEO纳德拉访印主持AI Tour,宣布将与Sarvam合作开发印度语音AI工具,并将Sarvam的印度语音大模型上线Azure。2024年6月,世界经济论坛把Sarvam列入Technology Pioneers 2024名单——全球100家,印度10家,Sarvam在列。2024年10月,公司发布了第一个公开模型Sarvam-1:20亿参数,支持10种印度语言,在部分印度语言任务上的表现超过了规模更大的全球模型。

媒体的描述越来越顺滑:印度AI的国家队、主权模型的希望、下一个DeepSeek。

但有一件事,在这段时间里悄悄积累了压力。

2025年4月26日,印度政府在67家申请机构中选中Sarvam,承接IndiaAI Mission的主权大模型项目。这是一笔条件特殊的交易:政府提供算力——4096块NVIDIA H100,使用期六个月,托管在Yotta数据中心——换取Sarvam的股权。算力的总账单是2.47亿卢比,政府补贴其中的9868万卢比,剩余部分由Sarvam承担。

合同的核心要求只有一条:模型必须从零训练,完成后开源。

这是Sarvam第一次真正拿到足以训练主权模型的算力。

按理说,接下来的动作应该是埋头去做那件一直承诺的事。

但2025年5月23日,Sarvam发布了Sarvam-M。

Sarvam-M是一个240亿参数的混合模型,支持10种印度语言,针对数学和代码任务做了强化训练。发布公告里列了一串基准测试数字,措辞是它在"多项指标上与全球领先模型相当"。

问题不在于这些数字是否属实。问题在于模型的底座:Sarvam-M建立在法国公司Mistral的开源模型Mistral Small之上。Sarvam的工程师在这个基础上用印度语言数据做了大规模的后训练。这是一种在资源受限条件下相当务实的选择,业界也有不少成功先例。

但它不是从零训练的主权模型。

名字里的"M",代表Mistral。这不是外界的解读,而是媒体报道中普遍流传的说法,Sarvam没有公开否认。一家宣称要造"印度自己的AI"、刚刚拿到政府主权模型合同的公司,交出的第一个成果,用的是法国人的底座。

逻辑上可以解释:政府的H100算力4月底才到位,Sarvam-M的开发应该在此之前已经进行了相当长时间;发布Sarvam-M,是为了给开发者提供一个可用的工具,同时为从零训练积累数据管道和后训练经验;这是一个过渡性产品,不是最终答案。

这些解释都站得住脚。但对于外部观察者来说,一个从零训练的承诺,和一个建立在Mistral底座上的发布,之间的距离是真实存在的。

而在接下来的二十四小时里,这个距离被放大到了所有人都看得见的程度。


三、23个下载量

2025年5月24日,Sarvam-M上线两天后,Menlo Ventures投资人Deedy Das在X上发了一条帖子。

内容不长,但足够精准:印度最大的AI创业公司,估值十亿美元的Sarvam,刚刚发布了它的旗舰大模型。上线两天,Hugging Face下载量:23次。作为对比,他附上了另一组数字——两名韩国大学生做的开源模型Dia,上个月的下载量:约20万次。

最后一个词:「丢人」。

这条帖子的转发量在几小时内突破了印度科技圈的日常阈值。不是因为它特别刻薄——它确实刻薄——而是因为它把一个让很多人隐隐不安的问题用数字说出来了:印度的AI,到底在哪里?

批评很快分成了几个方向。

技术路线的质疑最直接:基于Mistral微调,在IndicLLM基准上的得分仅比原始Llama高出0.02,这是Sarvam值得骄傲的成绩吗?有开发者在X上贴出了对比数据——Sarvam-M 0.49,Llama原版 0.47,Gemma 0.48——然后问:这是"可感知的提升"吗?

生态批评则更结构性。有投资人指出,印度没有了Koo这样的本土社交平台,Sarvam-M缺乏一个天然的早期用户反馈场,下载量低不只是模型的问题,是整个生态的问题。也有人算了另一笔账:印度H100极度稀缺,出口管制压力持续存在,在这种资源约束下,Sarvam能交出一个可用的24B印度语言模型,本身就不是一件容易的事——用Hugging Face几小时的统计数据来定性一个项目,是在刻意误读。

支持的声音里最有分量的,来自Zoho联合创始人Sridhar Vembu。他在X上写道:"我们做过的每一个产品,没有一个一开始就是爆款。"

但外界争议如何,Sarvam的公关部门选择了沉默。

真正开口的,是Pratyush Kumar本人。

他在X上转发了批评帖子,写了一句话:「很高兴收到大家对Sarvam-M的反馈,请继续。等我们开始训练主权模型的时候,这些都会用上。」

这句话值得细读。

他没有辩解Sarvam-M的技术选择,没有解释为什么用了Mistral底座,没有反驳下载量数字,也没有指责批评者不懂印度的资源限制。他做的事情是:把一次公开羞辱,原地转化成了一个公开宣言。"等我们开始训练主权模型的时候"——不是"如果",是"等"。不是"我们将来考虑从零开始",是"我们正在开始"。

这句话发出的时间是2025年5月25日,距离Sarvam-M发布过去了四十八小时。

此后的几天里,Sarvam-M的Hugging Face下载量从23个反弹到334个,然后继续缓慢爬升。不是什么了不起的数字,但至少证明最初的统计确实是因为Hugging Face数据延迟造成的偏差,而不是真实的用户冷漠。

但数字的反弹并不是这个插曲真正的结局。

真正的结局,发生在八个月之后。届时,曾经在X上写下「丢人」的那个人,会主动发文说:"I was wrong."

但那是后话。

2025年5月,Sarvam需要面对的现实是:政府的4096块H100已经就位,承诺从零训练的合同已经签署,外界的嘲讽已经变成了历史记录。接下来没有别的路,只有一条。


四、4096块GPU,重新开始

让我们回到那笔交易本身。

4096块NVIDIA H100,六个月使用期,托管在孟买郊外的Yotta数据中心。总账单2.47亿卢比,政府补贴其中的9868万卢比。作为交换,Sarvam让出了一部分股权,训练完成的模型必须开源。

这是印度政府在IndiaAI Mission框架下签下的第一批主权模型合同之一。67家机构参与申请,最终四家入选:Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一块。

从外部看,这是一笔对Sarvam极为有利的交易:政府出钱补贴算力,Sarvam用政府的GPU训练模型,训练完开源,政府拿一点股权。性价比高得有些不真实。

但这笔交易的另一面,是一个约束。

开源意味着Sarvam不能把这个模型变成护城河。股权意味着政府成了Sarvam的股东,这个身份在任何国家都意味着某种隐性的期待和潜在的干预空间。算力是政府补贴的,但账单的剩余部分——超过1.5亿卢比——要Sarvam自己承担。对一家年收入只有2910万卢比的公司来说,这个数字意味着巨大的财务压力。

更深的约束是时间。六个月,4096块H100,目标是一个从零开始、在全球基准测试上有竞争力、同时精通印度语言的大模型。

在全球AI军备竞赛的背景下,这是一个听起来有些冒险的赌注。2025年初,OpenAI的融资总额已经超过180亿美元。DeepSeek用相对有限的资源训练出了震惊业界的R1,但它背后是中国成熟的AI基础设施生态。Sarvam的114名员工,要在一个GPU基础设施还不完善、训练数据需要自己从头整理的国家,完成这件事。

他们的回答,是从基础设施开始做起。

Sarvam的工程师首先重新设计了tokenizer——这是大模型处理文字的最底层组件。现有的主流tokenizer对印度文字效率极低,处理梵文、泰米尔文、孟加拉文这类非拉丁字母体系时,需要消耗比英文多出数倍的token。Sarvam重新训练的tokenizer,对印度文字的处理效率提升了三到四倍。这一步没有任何可见度,不会出现在发布会的PPT上,但它决定了后续所有训练的成本和效率。

数据管道是另一个自建的基础设施。Sarvam在内部搭建了一套评估数据质量的工具,从头整理训练语料。最终用于预训练的数据量,30B模型约为16万亿token。这些数据的收集、清洗、标注,全部在印度国内完成。

强化学习基础设施也是自研的。这个环节决定了模型在推理任务上的最终表现,也是DeepSeek-R1让业界重新注意到的核心技术路线。Sarvam选择了同样的方向,并把整套训练流程完整地跑了一遍。

2025年下半年,Sarvam几乎没有对外发声。

公司账面上的年收入是2910万卢比,折合约350万美元。这是一个健康的早期创业公司收入,但在大模型训练的语境下,这个数字说明Sarvam几乎没有任何财务缓冲。他们在用一家小公司的资源,做一件通常需要十倍体量才敢启动的事情。

对外沉默的背后,是一支114人的团队在训练一个他们自己也不确定能否成功的模型。


五、14天,14次发布

2026年2月1日,Sarvam开始了一场密集的公开攻势。

策略是刻意设计的:在India AI Impact Summit召开前的两周,每天发布一个新产品或新功能,连续十四天不间断。语音识别模型Saaras V3、文字转语音模型Bulbul V3、文档数字化工具Sarvam Akshar、多语言内容创作平台Sarvam Studio……一个接一个,节奏像节拍器一样准确。

这个策略有一个明显的参照对象:OpenAI在2024年末的"12 Days of OpenAI"发布攻势。Sarvam把它改成了14天,因为峰会日期决定了窗口长度,但逻辑是一样的——用密集的发布节奏制造舆论动能,让媒体和开发者在峰会开幕之前就持续关注这家公司。

在峰会开幕前的密集发布期间,有一件事悄悄发生了。2月7日,Sarvam发布Bulbul V3语音合成模型当天,Deedy Das——那个在2025年5月写下「丢人」的人——主动在X上发了一篇帖子,开头三个字:"I was wrong."他说,他一年前认为训练小型Indic语言模型的方向是错的。"但他们做到了转变。他们有Indic语言最好的语音合成、语音识别和文字识别模型,这是真正有价值的东西。"从「丢人」到"I was wrong",八个月,触发转变的不是大模型,而是一个语音产品。

2月16日,峰会开幕展览日。

印度Modi总理在Bharat Mandapam的展览区走了一圈。他在Sarvam的展台前停下来,试戴了一副黑色眼镜。这副眼镜叫Sarvam Kaze,是Sarvam研发的AI智能眼镜原型,支持十种以上印度语言的实时语音交互,Pratyush Kumar在X上发了一张Modi戴着眼镜的照片,配文只有一句:「第一个试戴的人?总理。」

这张照片的传播速度,超过了Sarvam过去两年所有发布的总和。

2月18日,Research Symposium,Sarvam正式发布Sarvam-30B和Sarvam-105B。

两个模型,都从零训练。30B模型预训练用了约16万亿token,支持32000 token的上下文窗口,MoE架构下每次推理只激活约10亿参数,推理成本大幅压缩。105B模型支持128000 token的超长上下文,在AIME 25数学竞赛基准上得分88.3,使用工具后达到96.7;MMLU得分90.6;Math500得分98.6。

Pratyush Kumar在台上说,105B在多项推理基准上超过了DeepSeek-R1——而DeepSeek-R1的总参数量是6000亿,是Sarvam-105B的近六倍。

批评在几小时内又来了。

有人在X上翻出了Sarvam-105B的架构配置文件,指其为"DeepSeek的山寨缩水版"。有帖子把配置文件扔进ChatGPT,得到的描述是"Mini DeepSeek-V2风格模型"。这个截图被广泛转发。对于刚刚经历过Sarvam-M事件的人来说,这个指控听起来似曾相识——上次是法国人的底座,这次是中国人的架构。

Pratyush Kumar的回应比上次更直接。他在X上写道,团队欣赏DeepSeek的研究,也从中学习,但Sarvam-105B是用更小的规模做到了这些结果。一名Sarvam工程师补充:公司所有模型都是从零训练的基础模型,没有例外。

这场争议的实质,是一个在AI领域反复出现的认知误区:架构和模型是两件不同的事。架构是蓝图,是发表在学术论文里供所有人使用的设计方案;模型是训练的产物,是数据、算力和工程决策共同生成的结果。

Sarvam借鉴了DeepSeek在Multi-head Latent Attention和Mixture of Experts上的架构设计,正如DeepSeek借鉴了Transformer,正如Transformer借鉴了注意力机制的早期论文。这是这个领域一直以来的运作方式。

2月20日,Sarvam发布了面向普通用户的对话产品Indus,登陆App Store和Google Play。这是Sarvam第一次走出开发者和企业市场,直接面对消费者。

峰会结束了。距离3月6日开源,还有两周。


尾声

2026年3月6日,Sarvam把模型权重传到了Hugging Face。

没有发布会,没有倒计时直播。文件名sarvamai/sarvam-30b和sarvamai/sarvam-105b,Apache 2.0协议,商业使用不设障碍。同一天,模型也上传到了印度政府的AIKosh平台。

Pratyush Kumar在X上写了一段话:「开源Sarvam 30B和105B。从零训练,所有数据、模型研究和推理优化全部在内部完成。这些模型在大多数全球基准测试上表现突出,同时在印度语言上表现卓越。」

这句话里有一个词值得停下来看一眼:"all done in-house",全部在内部完成。不是Mistral的底座,不是借来的架构实现,是一支114人的团队,在一个GPU基础设施直到最近才勉强够用的国家,自己搭建tokenizer、自己整理数据管道、自己写强化学习基础设施,从头到尾跑完了一遍。

从2023年12月那场18人公司的融资发布会,到这两个文件挂上Hugging Face,中间过去了二十七个月。

这二十七个月里发生的事情,放在任何一个叙事框架里都可以讲得通:可以是一家公司如何在公开羞辱中找回初心,可以是印度国家意志如何通过一纸算力合同把一家创业公司绑上主权叙事的战车,也可以是两个深度参与印度数字基础设施的人,在AI范式切换的时间节点上,做了一次代价高昂但方向正确的押注。

这些叙事都是真的,也都是不完整的。

Sarvam现在面对的问题,比两年前更难回答:开源之后呢?当模型权重免费可得,公司的商业护城河在哪里?当全球大模型开始认真处理印度语言,Sarvam的差异化还能维持多久?政府成为股东之后,商业利益和公共利益之间的张力,迟早会在某一个具体决策上显现出来。

这些问题,2026年3月6日那天没有答案。

但那两个文件已经在网上了。任何人都可以下载,任何人都可以修改,任何人都可以拿去用。

这是Sarvam最初承诺的那件事。

本文系作者 硬唠intalk 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App