先看印度手里握着的那张牌:语言。

印度有 22 种宪法承认的官方语言,加上方言,是一个语言极度多样的国家。对全球主流的大语言模型来说,这种多样性是一个盲区——它们绝大多数是用英语和少数几种主要语言训练的,对印度本土语言的覆盖既不全也不深。而对印度来说,这个盲区恰恰是一个战略机会:谁能掌握印度本土语言的高质量数据,谁就能在印度市场建立一个全球巨头难以逾越的护城河。

印度押注这个机会的第一个抓手,是 Bhashini。这是一个 2022 年启动的国家级语言 AI 平台,提供 22 种以上印度语言的开源语音转文字、文字转语音和翻译 API1。它的逻辑和 India Stack 一脉相承——不是做一个产品,而是做一层开放的、谁都能调用的公共能力。Bhashini 有一个明确的数据目标:到 2025 年第四季度,建成一个超过 15000 小时的、跨 22 种印度语言的标注语音语料库2。这个语料库,就是喂养印度本土语言 AI 的“燃料”。

这里值得点出一个关键点:Bhashini 本质上是把 India Stack 那套“DPI 方法论”从身份和支付,复制到了人工智能领域。它要做的,是一层“AI 的公共基础设施”——把高质量数据集、模型能力变成开放的公共品,让创业公司、学术界、企业都能在上面开发,而不必各自从零去采集印度语言数据3

第二个抓手,是国家级的算力和模型计划。

2024 年,印度启动了 IndiaAI 使命,配套约 1037 亿卢比(约 12.5 亿美元)的预算4。这笔钱的核心用途之一,是建国家级的 AI 算力——到 2025 年中,印度已经把可调用的高端 GPU 规模扩到了 34000 张以上4。算力是训练大模型的硬门槛,由国家出面集中采购、再以补贴价开放给本土玩家,是印度避免在 AI 竞赛中因算力受制于人的办法。

模型层面,印度本土的大模型已经开始出现。班加罗尔的 Sarvam AI 是其中最受瞩目的一家,它借助 IndiaAI 使命提供的算力,发布了一个 30 亿参数的模型和一个 1050 亿参数的旗舰模型5。此外还有 BharatGen、Sarvam-1、Everest 等一批针对印度语言和情境训练的本土模型6。它们共同的口号,可以概括成一句被反复使用的话:“在印度造 AI,让 AI 为印度服务”——核心诉求是数据留在印度境内、模型理解印度情境3

需要诚实地标注:这些模型大多还处于早期阶段,参数规模、实际能力、商业化程度都还远不能和全球前沿模型相比,相关的宏大目标里有相当一部分是规划和宣称,而非已经兑现的成果。把印度本土大模型说成已经能与全球巨头分庭抗礼,是夸大的。但方向是清晰的:印度不打算只做全球 AI 巨头的市场,它要建自己的。

把语料、算力、模型这三样放进 India Stack 的脉络里,那个“数据飞轮”就转起来了。

逻辑链条是这样的:Aadhaar 和 UPI 让十四亿人进入了数字系统,产生了海量的、带本国情境的交互数据;第四层的同意架构(上一章讲的 DEPA / 账户聚合器)为这些数据提供了合规的、可规模化的获取通道;Bhashini 把印度语言变成结构化的语料;IndiaAI 提供算力;本土模型把这些数据和算力转化为能力。每一环都扣着前一环,而每一环都建立在过去十五年那套公共基建之上。

这就是为什么说 India Stack 有潜力成为印度 AI 的数据基建——它不是临时为 AI 现搭的,而是早在 AI 浪潮到来之前,就已经把“让十四亿人数字化、让数据可流动”这件最难的基础工作做完了。当全球都在抢数据时,印度发现自己手里已经有了一座金矿,以及一套挖矿和运矿的现成基础设施。咨询机构和政策圈把这条路线称为“DPI for AI”——用数字公共基础设施的方法论去建人工智能,把数据集、算力、训练工具都变成开放的公共品7

尼勒卡尼本人,已经把目光投向了比模型更远的地方。

据 MIT 科技评论 2026 年的报道,这位七十岁的教父正在推动一个叫“金融互联网”(Finternet)的构想——把金融工具和实物资产都变成数字代币,让它们能像信息一样在网络上自由流动,目标是把金融服务扩展到那些至今仍被排斥在外的人群。这个项目据称已经有横跨四大洲的约三十个合作伙伴,计划在 2026 年上线8。与此同时,他还在推动一个“印度能源栈”(India Energy Stack)——给发电厂、屋顶光伏、电动车都分配数字身份,用来实时监测和稳定电网9

这两个项目,是同一套方法论的延伸。把它和前面所有章节连起来看,会发现一个一以贯之的模式:给万物分配可识别的数字身份(先是人,后是钱,再是资产、是电厂),然后建一层开放的协议让它们流动,再在流动中积累数据。从人的身份,到钱的流动,到资产的代币化,到电网的数字化——这是同一个“国家级 API”思路在不断地向新领域复制。被问到七十岁为什么还在折腾,尼勒卡尼的回答带着一种工程师式的执拗:“也许我是个上瘾的人……我想保持好奇、保持活力、一直看着未来。”10

那么,回到那个前瞻的问题:这套基建真的能托起印度的 AI 主权吗?

诚实的答案是:它提供了一个别人难以复制的起点,但起点不等于终点。

印度的优势是真实的。它有十四亿人产生的数据,有覆盖到村庄的数字基础设施,有一套已经验证过的“建公共数字平台”的方法论,有庞大的工程师人才池,还有把语言多样性从劣势转为护城河的战略空间。这些加起来,是一个比绝大多数发展中国家都更扎实的 AI 起跑线。

但前面几章揭示的那些张力,也会一并被带进 AI 时代,而且会被放大。开放的轨道最后被资本最雄厚的玩家主导——这个在支付层出现过的反讽,在数据和 AI 层可能重演,只不过这次的玩家不只是谷歌和沃尔玛,还可能是任何最擅长把印度公共数据转化为模型能力的力量。“个人同意”在海量数据采集面前的实际控制力有多强,决定了这条飞轮转的是“赋权”还是“攫取”。而那个贯穿全书的根本问题——这套能力最终服务于普惠还是服务于控制——在 AI 这个更强大的工具面前,只会变得更尖锐,而不会自动消解。

所以这套基建在 AI 时代的命运,和它在身份、支付时代的命运是同构的:它创造了巨大的可能性,但可能性朝哪个方向兑现,不由技术决定,而由制度、由博弈、由那条法院画下又不断被测试的边界线决定。印度握着一手别人羡慕的牌,但牌怎么打、最后谁赢,还远没有定数。它已经为 AI 时代备好了燃料和管道,但点火之后火往哪烧,是一个比建基础设施更难、也更重要的问题。


参考文献

  1. Bhashini 2022 年启动,提供 22 种以上印度语言的开源语音/翻译 API,见 Stimson Center 与 IndiaAI 资料。stimson.org(访问于 2026-06)。

  2. Bhashini 目标到 2025 年 Q4 建成逾 15000 小时、跨 22 种语言的标注语音语料库,见 Stimson Center。stimson.org(访问于 2026-06)。

  3. “DPI for AI” 方法论与“在印度造 AI、让 AI 为印度服务”“数据留在境内”的诉求,见 EY 与 IBEF 分析。ey.comibef.org(访问于 2026-06)。

  4. IndiaAI 使命(2024)约 1037 亿卢比/约 12.5 亿美元预算;至 2025 年中算力扩至逾 34000 张高端 GPU,见 Stimson Center。stimson.org(访问于 2026-06)。

  5. Sarvam AI 借 IndiaAI 算力发布 30 亿与 1050 亿参数模型,见 Stimson Center 与相关报道。stimson.org(访问于 2026-06)。

  6. BharatGen、Sarvam-1、Everest 等本土模型,见 BharatGen 官网与 IBEF。bharatgen.comibef.org(访问于 2026-06)。

  7. “DPI for AI”——把数据集、算力、训练工具变为开放公共品,见 EY 分析。ey.com(访问于 2026-06)。

  8. Nilekani 推动的 Finternet(资产代币化、约 30 个跨四大洲合作伙伴、计划 2026 上线),见 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。

  9. India Energy Stack(给电厂/屋顶光伏/电动车分配数字身份、实时监测电网),见 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。

  10. Nilekani 关于“也许我是个上瘾的人……保持好奇、一直看着未来”的自述,引自 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。