第十一期：用基建喂养自己的大模型

一

先看印度手里握着的那张牌：语言。

印度有 22 种宪法承认的官方语言，加上方言，是一个语言极度多样的国家。对全球主流的大语言模型来说，这种多样性是一个盲区——它们绝大多数是用英语和少数几种主要语言训练的，对印度本土语言的覆盖既不全也不深。而对印度来说，这个盲区恰恰是一个战略机会：谁能掌握印度本土语言的高质量数据，谁就能在印度市场建立一个全球巨头难以逾越的护城河。

印度押注这个机会的第一个抓手，是 Bhashini。这是一个 2022 年启动的国家级语言 AI 平台，提供 22 种以上印度语言的开源语音转文字、文字转语音和翻译 API1。它的逻辑和 India Stack 一脉相承——不是做一个产品，而是做一层开放的、谁都能调用的公共能力。Bhashini 有一个明确的数据目标：到 2025 年第四季度，建成一个超过 15000 小时的、跨 22 种印度语言的标注语音语料库2。这个语料库，就是喂养印度本土语言 AI 的“燃料”。

这里值得点出一个关键点：Bhashini 本质上是把 India Stack 那套“DPI 方法论”从身份和支付，复制到了人工智能领域。它要做的，是一层“AI 的公共基础设施”——把高质量数据集、模型能力变成开放的公共品，让创业公司、学术界、企业都能在上面开发，而不必各自从零去采集印度语言数据3。

二

第二个抓手，是国家级的算力和模型计划。

2024 年，印度启动了 IndiaAI 使命，配套约 1037 亿卢比（约 12.5 亿美元）的预算4。这笔钱的核心用途之一，是建国家级的 AI 算力——到 2025 年中，印度已经把可调用的高端 GPU 规模扩到了 34000 张以上4。算力是训练大模型的硬门槛，由国家出面集中采购、再以补贴价开放给本土玩家，是印度避免在 AI 竞赛中因算力受制于人的办法。

模型层面，印度本土的大模型已经开始出现。班加罗尔的 Sarvam AI 是其中最受瞩目的一家，它借助 IndiaAI 使命提供的算力，发布了一个 30 亿参数的模型和一个 1050 亿参数的旗舰模型5。此外还有 BharatGen、Sarvam-1、Everest 等一批针对印度语言和情境训练的本土模型6。它们共同的口号，可以概括成一句被反复使用的话：“在印度造 AI，让 AI 为印度服务”——核心诉求是数据留在印度境内、模型理解印度情境3。

需要诚实地标注：这些模型大多还处于早期阶段，参数规模、实际能力、商业化程度都还远不能和全球前沿模型相比，相关的宏大目标里有相当一部分是规划和宣称，而非已经兑现的成果。把印度本土大模型说成已经能与全球巨头分庭抗礼，是夸大的。但方向是清晰的：印度不打算只做全球 AI 巨头的市场，它要建自己的。

三

把语料、算力、模型这三样放进 India Stack 的脉络里，那个“数据飞轮”就转起来了。

逻辑链条是这样的：Aadhaar 和 UPI 让十四亿人进入了数字系统，产生了海量的、带本国情境的交互数据；第四层的同意架构（上一章讲的 DEPA / 账户聚合器）为这些数据提供了合规的、可规模化的获取通道；Bhashini 把印度语言变成结构化的语料；IndiaAI 提供算力；本土模型把这些数据和算力转化为能力。每一环都扣着前一环，而每一环都建立在过去十五年那套公共基建之上。

这就是为什么说 India Stack 有潜力成为印度 AI 的数据基建——它不是临时为 AI 现搭的，而是早在 AI 浪潮到来之前，就已经把“让十四亿人数字化、让数据可流动”这件最难的基础工作做完了。当全球都在抢数据时，印度发现自己手里已经有了一座金矿，以及一套挖矿和运矿的现成基础设施。咨询机构和政策圈把这条路线称为“DPI for AI”——用数字公共基础设施的方法论去建人工智能，把数据集、算力、训练工具都变成开放的公共品7。

四

尼勒卡尼本人，已经把目光投向了比模型更远的地方。

据 MIT 科技评论 2026 年的报道，这位七十岁的教父正在推动一个叫“金融互联网”（Finternet）的构想——把金融工具和实物资产都变成数字代币，让它们能像信息一样在网络上自由流动，目标是把金融服务扩展到那些至今仍被排斥在外的人群。这个项目据称已经有横跨四大洲的约三十个合作伙伴，计划在 2026 年上线8。与此同时，他还在推动一个“印度能源栈”（India Energy Stack）——给发电厂、屋顶光伏、电动车都分配数字身份，用来实时监测和稳定电网9。

这两个项目，是同一套方法论的延伸。把它和前面所有章节连起来看，会发现一个一以贯之的模式：给万物分配可识别的数字身份（先是人，后是钱，再是资产、是电厂），然后建一层开放的协议让它们流动，再在流动中积累数据。从人的身份，到钱的流动，到资产的代币化，到电网的数字化——这是同一个“国家级 API”思路在不断地向新领域复制。被问到七十岁为什么还在折腾，尼勒卡尼的回答带着一种工程师式的执拗：“也许我是个上瘾的人……我想保持好奇、保持活力、一直看着未来。”10

五

那么，回到那个前瞻的问题：这套基建真的能托起印度的 AI 主权吗？

诚实的答案是：它提供了一个别人难以复制的起点，但起点不等于终点。

印度的优势是真实的。它有十四亿人产生的数据，有覆盖到村庄的数字基础设施，有一套已经验证过的“建公共数字平台”的方法论，有庞大的工程师人才池，还有把语言多样性从劣势转为护城河的战略空间。这些加起来，是一个比绝大多数发展中国家都更扎实的 AI 起跑线。

但前面几章揭示的那些张力，也会一并被带进 AI 时代，而且会被放大。开放的轨道最后被资本最雄厚的玩家主导——这个在支付层出现过的反讽，在数据和 AI 层可能重演，只不过这次的玩家不只是谷歌和沃尔玛，还可能是任何最擅长把印度公共数据转化为模型能力的力量。“个人同意”在海量数据采集面前的实际控制力有多强，决定了这条飞轮转的是“赋权”还是“攫取”。而那个贯穿全书的根本问题——这套能力最终服务于普惠还是服务于控制——在 AI 这个更强大的工具面前，只会变得更尖锐，而不会自动消解。

所以这套基建在 AI 时代的命运，和它在身份、支付时代的命运是同构的：它创造了巨大的可能性，但可能性朝哪个方向兑现，不由技术决定，而由制度、由博弈、由那条法院画下又不断被测试的边界线决定。印度握着一手别人羡慕的牌，但牌怎么打、最后谁赢，还远没有定数。它已经为 AI 时代备好了燃料和管道，但点火之后火往哪烧，是一个比建基础设施更难、也更重要的问题。

参考文献

Bhashini 2022 年启动，提供 22 种以上印度语言的开源语音/翻译 API，见 Stimson Center 与 IndiaAI 资料。stimson.org（访问于 2026-06）。
Bhashini 目标到 2025 年 Q4 建成逾 15000 小时、跨 22 种语言的标注语音语料库，见 Stimson Center。stimson.org（访问于 2026-06）。
“DPI for AI” 方法论与“在印度造 AI、让 AI 为印度服务”“数据留在境内”的诉求，见 EY 与 IBEF 分析。ey.com；ibef.org（访问于 2026-06）。
IndiaAI 使命（2024）约 1037 亿卢比/约 12.5 亿美元预算；至 2025 年中算力扩至逾 34000 张高端 GPU，见 Stimson Center。stimson.org（访问于 2026-06）。
Sarvam AI 借 IndiaAI 算力发布 30 亿与 1050 亿参数模型，见 Stimson Center 与相关报道。stimson.org（访问于 2026-06）。
BharatGen、Sarvam-1、Everest 等本土模型，见 BharatGen 官网与 IBEF。bharatgen.com；ibef.org（访问于 2026-06）。
“DPI for AI”——把数据集、算力、训练工具变为开放公共品，见 EY 分析。ey.com（访问于 2026-06）。
Nilekani 推动的 Finternet（资产代币化、约 30 个跨四大洲合作伙伴、计划 2026 上线），见 MIT Technology Review（2026 年 1 月）。technologyreview.com（访问于 2026-06）。
India Energy Stack（给电厂/屋顶光伏/电动车分配数字身份、实时监测电网），见 MIT Technology Review（2026 年 1 月）。technologyreview.com（访问于 2026-06）。
Nilekani 关于“也许我是个上瘾的人……保持好奇、一直看着未来”的自述，引自 MIT Technology Review（2026 年 1 月）。technologyreview.com（访问于 2026-06）。