一
先看印度手里握着的那张牌:语言。
印度有 22 种宪法承认的官方语言,加上方言,是一个语言极度多样的国家。对全球主流的大语言模型来说,这种多样性是一个盲区——它们绝大多数是用英语和少数几种主要语言训练的,对印度本土语言的覆盖既不全也不深。而对印度来说,这个盲区恰恰是一个战略机会:谁能掌握印度本土语言的高质量数据,谁就能在印度市场建立一个全球巨头难以逾越的护城河。
印度押注这个机会的第一个抓手,是 Bhashini。这是一个 2022 年启动的国家级语言 AI 平台,提供 22 种以上印度语言的开源语音转文字、文字转语音和翻译 API1。它的逻辑和 India Stack 一脉相承——不是做一个产品,而是做一层开放的、谁都能调用的公共能力。Bhashini 有一个明确的数据目标:到 2025 年第四季度,建成一个超过 15000 小时的、跨 22 种印度语言的标注语音语料库2。这个语料库,就是喂养印度本土语言 AI 的“燃料”。
这里值得点出一个关键点:Bhashini 本质上是把 India Stack 那套“DPI 方法论”从身份和支付,复制到了人工智能领域。它要做的,是一层“AI 的公共基础设施”——把高质量数据集、模型能力变成开放的公共品,让创业公司、学术界、企业都能在上面开发,而不必各自从零去采集印度语言数据3。
二
第二个抓手,是国家级的算力和模型计划。
2024 年,印度启动了 IndiaAI 使命,配套约 1037 亿卢比(约 12.5 亿美元)的预算4。这笔钱的核心用途之一,是建国家级的 AI 算力——到 2025 年中,印度已经把可调用的高端 GPU 规模扩到了 34000 张以上4。算力是训练大模型的硬门槛,由国家出面集中采购、再以补贴价开放给本土玩家,是印度避免在 AI 竞赛中因算力受制于人的办法。
模型层面,印度本土的大模型已经开始出现。班加罗尔的 Sarvam AI 是其中最受瞩目的一家,它借助 IndiaAI 使命提供的算力,发布了一个 30 亿参数的模型和一个 1050 亿参数的旗舰模型5。此外还有 BharatGen、Sarvam-1、Everest 等一批针对印度语言和情境训练的本土模型6。它们共同的口号,可以概括成一句被反复使用的话:“在印度造 AI,让 AI 为印度服务”——核心诉求是数据留在印度境内、模型理解印度情境3。
需要诚实地标注:这些模型大多还处于早期阶段,参数规模、实际能力、商业化程度都还远不能和全球前沿模型相比,相关的宏大目标里有相当一部分是规划和宣称,而非已经兑现的成果。把印度本土大模型说成已经能与全球巨头分庭抗礼,是夸大的。但方向是清晰的:印度不打算只做全球 AI 巨头的市场,它要建自己的。
三
把语料、算力、模型这三样放进 India Stack 的脉络里,那个“数据飞轮”就转起来了。
逻辑链条是这样的:Aadhaar 和 UPI 让十四亿人进入了数字系统,产生了海量的、带本国情境的交互数据;第四层的同意架构(上一章讲的 DEPA / 账户聚合器)为这些数据提供了合规的、可规模化的获取通道;Bhashini 把印度语言变成结构化的语料;IndiaAI 提供算力;本土模型把这些数据和算力转化为能力。每一环都扣着前一环,而每一环都建立在过去十五年那套公共基建之上。
这就是为什么说 India Stack 有潜力成为印度 AI 的数据基建——它不是临时为 AI 现搭的,而是早在 AI 浪潮到来之前,就已经把“让十四亿人数字化、让数据可流动”这件最难的基础工作做完了。当全球都在抢数据时,印度发现自己手里已经有了一座金矿,以及一套挖矿和运矿的现成基础设施。咨询机构和政策圈把这条路线称为“DPI for AI”——用数字公共基础设施的方法论去建人工智能,把数据集、算力、训练工具都变成开放的公共品7。
四
尼勒卡尼本人,已经把目光投向了比模型更远的地方。
据 MIT 科技评论 2026 年的报道,这位七十岁的教父正在推动一个叫“金融互联网”(Finternet)的构想——把金融工具和实物资产都变成数字代币,让它们能像信息一样在网络上自由流动,目标是把金融服务扩展到那些至今仍被排斥在外的人群。这个项目据称已经有横跨四大洲的约三十个合作伙伴,计划在 2026 年上线8。与此同时,他还在推动一个“印度能源栈”(India Energy Stack)——给发电厂、屋顶光伏、电动车都分配数字身份,用来实时监测和稳定电网9。
这两个项目,是同一套方法论的延伸。把它和前面所有章节连起来看,会发现一个一以贯之的模式:给万物分配可识别的数字身份(先是人,后是钱,再是资产、是电厂),然后建一层开放的协议让它们流动,再在流动中积累数据。从人的身份,到钱的流动,到资产的代币化,到电网的数字化——这是同一个“国家级 API”思路在不断地向新领域复制。被问到七十岁为什么还在折腾,尼勒卡尼的回答带着一种工程师式的执拗:“也许我是个上瘾的人……我想保持好奇、保持活力、一直看着未来。”10
五
那么,回到那个前瞻的问题:这套基建真的能托起印度的 AI 主权吗?
诚实的答案是:它提供了一个别人难以复制的起点,但起点不等于终点。
印度的优势是真实的。它有十四亿人产生的数据,有覆盖到村庄的数字基础设施,有一套已经验证过的“建公共数字平台”的方法论,有庞大的工程师人才池,还有把语言多样性从劣势转为护城河的战略空间。这些加起来,是一个比绝大多数发展中国家都更扎实的 AI 起跑线。
但前面几章揭示的那些张力,也会一并被带进 AI 时代,而且会被放大。开放的轨道最后被资本最雄厚的玩家主导——这个在支付层出现过的反讽,在数据和 AI 层可能重演,只不过这次的玩家不只是谷歌和沃尔玛,还可能是任何最擅长把印度公共数据转化为模型能力的力量。“个人同意”在海量数据采集面前的实际控制力有多强,决定了这条飞轮转的是“赋权”还是“攫取”。而那个贯穿全书的根本问题——这套能力最终服务于普惠还是服务于控制——在 AI 这个更强大的工具面前,只会变得更尖锐,而不会自动消解。
所以这套基建在 AI 时代的命运,和它在身份、支付时代的命运是同构的:它创造了巨大的可能性,但可能性朝哪个方向兑现,不由技术决定,而由制度、由博弈、由那条法院画下又不断被测试的边界线决定。印度握着一手别人羡慕的牌,但牌怎么打、最后谁赢,还远没有定数。它已经为 AI 时代备好了燃料和管道,但点火之后火往哪烧,是一个比建基础设施更难、也更重要的问题。
参考文献
-
Bhashini 2022 年启动,提供 22 种以上印度语言的开源语音/翻译 API,见 Stimson Center 与 IndiaAI 资料。stimson.org(访问于 2026-06)。
-
Bhashini 目标到 2025 年 Q4 建成逾 15000 小时、跨 22 种语言的标注语音语料库,见 Stimson Center。stimson.org(访问于 2026-06)。
-
“DPI for AI” 方法论与“在印度造 AI、让 AI 为印度服务”“数据留在境内”的诉求,见 EY 与 IBEF 分析。ey.com;ibef.org(访问于 2026-06)。
-
IndiaAI 使命(2024)约 1037 亿卢比/约 12.5 亿美元预算;至 2025 年中算力扩至逾 34000 张高端 GPU,见 Stimson Center。stimson.org(访问于 2026-06)。
-
Sarvam AI 借 IndiaAI 算力发布 30 亿与 1050 亿参数模型,见 Stimson Center 与相关报道。stimson.org(访问于 2026-06)。
-
BharatGen、Sarvam-1、Everest 等本土模型,见 BharatGen 官网与 IBEF。bharatgen.com;ibef.org(访问于 2026-06)。
-
“DPI for AI”——把数据集、算力、训练工具变为开放公共品,见 EY 分析。ey.com(访问于 2026-06)。
-
Nilekani 推动的 Finternet(资产代币化、约 30 个跨四大洲合作伙伴、计划 2026 上线),见 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。
-
India Energy Stack(给电厂/屋顶光伏/电动车分配数字身份、实时监测电网),见 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。
-
Nilekani 关于“也许我是个上瘾的人……保持好奇、一直看着未来”的自述,引自 MIT Technology Review(2026 年 1 月)。technologyreview.com(访问于 2026-06)。