
文章摘要
Sarvam AI作为印度“IndiaAI Mission”国家级项目的首批入选公司,近期发布了名为Sarvam-M的240亿参数混合语言模型,被视为印度本土AI研究的一项突破。该模型基于Mistral Small构建,支持10种印度本地语言,包括印地语、孟加拉语等。然而,模型上线后反响平平,下载量远低于预期,引发了业内人士的批评。风投公司Menlo Ventures的投资人Deedy Das直言该成绩“令人尴尬”,并将其与韩国大学生开发的开源模型Dia进行对比,后者在Hugging Face上获得了约20万次下载。
Sarvam AI的创始人Vivek Raghavan和Pratyush Kumar致力于在印度大规模普及生成式AI,并强调印度需要属于自己的基础AI模型,而不仅仅是对西方模型的“适配”。Kumar认为,AI主权不仅在于构建基础模型,更在于拥有从数据生成到模型部署的完整技术链。尽管Sarvam-M基于法国AI初创公司的Mistral Small构建,但Sarvam AI正筹备开发一个700亿参数的模型,预估成本为4000-5000万美元。
Sarvam-M在性能上已超越Llama-4 Scout,并在与更大规模模型对比时表现稳健。然而,模型在英文知识评估上出现了1%的小幅下降。Sarvam AI对这一进展感到自豪,认为Sarvam-M是为印度打造自主AI的重要基石。尽管如此,Das的批评不仅针对下载量,还指出Sarvam的做法反映出了“错位的雄心”,认为其成果远远配不上获得的融资。
Sarvam AI目前已获得4100万美元融资,投资方包括Lightspeed India Partners、Peak XV Partners等主流机构。尽管一些用户指出Sarvam-M表现不错,有不少实际应用场景,但确实还需要进一步优化。有用户分享了使用Sarvam最新模型的用途,列举了模型如何帮助农民、老年人、小店主、法律从业者等人群,强调这是围绕印度本土的真实问题做的技术落地。然而,也有网友指出,那些用例都围绕本国较为弱势的群体,而问题在于,在那些经济条件较差的地区,人们几乎不使用科技产品,让他们使用“语音指令”和“人工智能”毫无意义。
印度语言模型固然很棒,但根本不存在产品市场匹配度(PMF)。像LLaMA和GPT这样的基础模型已经覆盖了足够多的语言,能够满足有能力使用它们的人群的需求。Das建议Sarvam应该对软硬件基础设施进行更为根本性的重构,并以中国的DeepSeek项目为参考,聚焦于大规模的印度本地语言及通用语料数据收集。
AI4Bharat的用户“cneuralnetwork”则将关注点放在了建模方法论上,认为模型本身不是最关键的,真正让人欣赏的是他们构建模型的过程。许多人对Sarvam的努力表示肯定,并强调创新并非总是能瞬间爆红。不过,也有人指出,这背后更大的问题是:外界预期与实际成果之间的落差,以及这场印度寄希望于本土AI技术的豪赌,能否拿出与其浩大声势匹配的成果。
Sarvam AI的Harveen Singh Chadha面对Das的批评反驳道,认为Das只用自己的影响力去批评、却从不亲自尝试,是问题的一部分。与此同时,Sarvam AI的机器学习工程师Kurain Benoy表达了更多的乐观情绪和民族自豪感。然而,Reliance Jio副总裁兼首席AI科学家Gaurav Aggarwal质疑围绕Sarvam的“民族主义情绪”,指出它实际上是由西方投资者支持的公司。
开发印度本土模型,有意义吗?印度有6亿智能手机用户,相当一部分人喜欢使用印度本土语言键盘。许多印度智能手机用户是首次接触这类设备,他们尽可能使用母语操作。英语用户和印度本土语言用户之间的这种差异,给弥合技术与多元用户之间的鸿沟带来了独特的挑战。印度许多初创企业和开发人员致力于解决本土需求,而Sarvam等公司需要重点推广其瞄准的应用场景。Together Fund负责人Pratyush Choudhury解释说道,大多数印度以外的人既不了解这些挑战,也意识不到算力其实是一道隐形的天花板。
他反驳Das的观点时补充道:“此外,在许多印度语言的应用场景中,本土自主开发的模型比使用任何其他开源权重模型的效果都要好得多。”这或许表明了为什么有人要开发印度本土AI模型。这一趋势始于两年前,当时开发者们正在Llama的基础上为卡纳达语、泰米尔语和马拉雅拉姆语等语言构建模型。
原文和模型
【原文链接】 阅读原文 [ 2537字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★