2025 年 1 月 20 日,DeepSeek 公司发布了 R1 模型。它在多个推理 benchmark 上达到或超过 OpenAI 的 o1。R1 是在 DeepSeek-V3 基础上用强化学习做后训练得到的——而 V3 的预训练计算成本被报道为约 560 万美元(约 280 万 GPU 小时的 H800 算力),比 OpenAI 同级别模型低一个数量级。最关键的:DeepSeek R1 完全开源,用 MIT License 发布1

接下来 72 小时是 AI 行业的一次小地震。Nvidia 股价单日下跌 17%,市值蒸发约 5900 亿美元。原因是 DeepSeek 用旧的 Nvidia H800 GPU——已经被美国出口管制限制了——做出了前沿水平的模型。这个事实“破坏”了美国“通过芯片出口管制阻止中国 AI 进展”的基础假设2

DeepSeek R1 的故事不只是技术——它是开源运动新一章的开端。它代表了一个 Stallman 1985 年没法想象的现象:一个国家用开源策略反制另一个国家的出口管制

要看清楚这件事,需要倒回去看 AI 开源是怎么变成“主权问题”的。


AI 模型的“开源”在 2010 年代后期还是个简单概念。早期项目像 Theano、Caffe、TensorFlow(Google 2015)、PyTorch(Facebook 2016)都是“开源框架”——你下载框架代码,自己训练模型。模型权重是你自己训练得来的产物,是你自己的财产。

但模型大小很快变得超出个人能力。2018 GPT-2 是 1.5B 参数;2019 GPT-3 是 175B 参数;2024 GPT-4 据传超过 1T 参数。训练这样的模型需要数千个 GPU + 几个月时间 + 数千万美元。普通开发者不可能自己训3

所以“开源 AI”变成两种东西:

开权重(open weights):你公开已训练好的模型权重。任何人可以下载、使用、修改、再训练。代表项目:Meta Llama、Mistral、Alibaba Qwen、DeepSeek、智源 BGE、Stability Diffusion。

闭权重(closed weights):你只通过 API 提供模型——用户能用,但不能下载权重。代表项目:OpenAI GPT、Anthropic Claude、Google Gemini Pro。

这个分裂在 2023 年成为 AI 政治的关键问题。

开权重派的论点:

  • 开源是科学进步的基础——AI 也应该如此
  • 民主化访问——让小公司、小国家、个人也能用前沿 AI
  • 安全研究——让研究者能审查、测试、改进模型
  • 经济竞争——开放生态让更多创新

闭权重派的论点:

  • 模型权重可能被用于恶意目的(如生物武器设计、网络攻击)
  • 一旦发布权重无法收回
  • 商业模式——闭权重让公司能持续从模型获利
  • 国家安全——前沿 AI 应该被国家控制4

2023 年 7 月 18 日,Meta 发布 Llama 2。这是第一个被广泛使用、性能接近前沿的开权重模型。Llama 2 的 license 不完全是开源(它有“超过 7 亿月活用户的公司不能商用”等限制),但权重是公开的——任何人可下载5

Llama 2 立即被全球 AI 社区采用。它成为微调(fine-tuning)研究的标准基准;它被部署到无数应用;它衍生出几百个 variant(Vicuna、Alpaca、Llama-2-Chat 等)。

Meta 做这个决定的逻辑:开源能让 Llama 成为生态主导。OpenAI 闭权重让它的模型只能被 OpenAI 服务;Llama 开权重让它能进入每个开发者的工具链。如果 Meta 想在 AI 长期竞争中获得位置——但 ChatGPT 已经主导消费市场——开源是一个不对称竞争策略。

2024 年 4 月 Llama 3 发布。性能进一步接近 GPT-4。2025 年 4 月 Llama 4 发布——其中的 Behemoth 变种用 2T 参数 + Mixture of Experts 架构6

但到 2025 年下半年,开权重领域的主导权从美国(Meta、Mistral)转移到了中国。

Qwen(阿里达摩院)2024 年的版本已经在多个 benchmark 上接近 Llama 同代。2025 年 4 月 Qwen 3 与 Llama 4 同时发布。Qwen 3 在数学(AIME25 92.3%)和代码(HumanEval 88.5%)上超过 Llama 47

DeepSeek 2024 年 12 月发布 V3——一个开权重的前沿性能模型。2025 年 1 月 R1 发布,在推理任务上达到或超过 OpenAI o1。

Yi(零一万物)、智源 BGE、智谱 GLM、月之暗面 Kimi——多个中国 AI 实验室加入开权重赛道。

到 2025 年 9 月,Qwen 在全球累计下载量超过 Llama。到 2025 年中,总开权重模型下载量从美国主导切换到中国主导8

这是 AI 历史上一个少被注意但意义重大的转折。开权重领域不再是“美国主导,其他追随”——是中国主导,其他模仿。Llama 仍然有大量用户,但全球开权重格局的中心已经东移。


中国 AI 实验室为什么如此积极开源?答案有几层。

第一层是商业。在闭权重领域,OpenAI / Anthropic / Google 已经先发优势——它们有 ChatGPT、Claude、Gemini 等成熟产品。中国公司要做闭权重产品很难超越。开权重是一个不对称竞争——通过开放生态让全球开发者使用中国模型,最终建立生态主导。

第二层是规模。中国 AI 实验室普遍受美国芯片出口管制约束——它们不能像 OpenAI 那样用最新 H100、H200 GPU。但 DeepSeek 等用工程优化(FP8 训练、MoE 架构、专家路由)在旧硬件上达到接近前沿的性能。开源让这种技术创新被全球验证、扩散、反馈——这给了中国实验室的“工程优化”路径一个 multiplier9

第三层是政治。如果 OpenAI 通过 API 控制全球 AI 访问,中国未来在 AI 主导权上是被动的。如果中国开源的 Qwen / DeepSeek 成为全球开发者的工具,那么不论政治如何变化,全球 AI 生态都不能脱离中国创新。开源是一种长期影响力建设

第四层是务实。中国当前还没有像 OpenAI 那种全球消费品(ChatGPT 在中国境外占主导)。开源让中国模型被全球研究者引用、研究、改进——这建立学术影响力。学术影响力 → 长期人才吸引 → 长期生态主导。

这四层逻辑加起来,让中国在开权重领域的投入超过任何其他国家。到 2026 年,全球开源 AI 生态的核心节点——Hugging Face 上下载量最大的模型——绝大多数是中国实验室出品10


但开权重的政治化也很快。

2024 年 2 月,美国 BIS(Bureau of Industry and Security)发布提案,要求对“双用 AI 模型权重”出口管制。具体的 framework 在 2025 年 1 月发布——叫《Framework for Artificial Intelligence Diffusion》11

这个 framework 的核心:

  • 新 ECCN 4E091——“AI 模型权重”
  • 训练计算量超过 10^26 operations 的闭权重模型需要 license 出口
  • 开权重模型不受此管制(NTIA 2024 年 7 月评估的结论)12

为什么开权重不管制?因为 BIS 承认:一旦发布的开放权重模型不能召回。任何人都已经下载了 Llama、Qwen、DeepSeek;任何后续管制只对未来未发布的模型有效。

但 BIS 通过另一条路径管制开权重的使用

2025 年 2 月,参议员 Bill Cassidy(路易斯安那共和党)和 Jacky Rosen(内华达民主党)提案:禁止联邦承包商在与联邦合同相关的活动中使用 DeepSeek 或其后续模型13

2025 年 4 月,众议院“对中国共产党战略竞争特别委员会”发布关于 DeepSeek 的报告,建议更新 FAR(Federal Acquisition Regulations)禁止联邦政府采购基于中国 AI 模型的系统14

2025 年 12 月,美国政府正式更新 AI 采购规则。联邦承包商被禁止使用中国 AI 模型——Qwen 和 DeepSeek 都在禁止列表15

注意这个管制的形式:它不是禁止 DeepSeek 被下载(任何人仍然可以从 Hugging Face 下载)。它是禁止“在联邦合同中使用”。这跟我们在第 2 章讨论的 Bernstein 案保护“出版自由”但不保护“使用自由”的不对称完全对应。


中国对开权重的政策反应不同。

中国《生成式人工智能服务管理暂行办法》2023 年 7 月由网信办发布16。它的核心:

  • 在中国境内提供生成式 AI 服务必须备案
  • 备案要求包括:模型安全评估、内容合规审查、训练数据来源说明
  • 必须通过中国国家安全评估

实际效果:

  • 国内大模型(百度文心一言、阿里通义千问、腾讯混元、字节豆包、DeepSeek 等)都已完成备案
  • 国外大模型(OpenAI、Anthropic、Google)由于未备案,在中国境内不能直接访问(除 VPN 等灰色方式)

这造成了一个奇怪的状况:中国 AI 模型在全球开放权重(任何人能下载),但在中国境内的服务化(提供 chatbot 服务)受严格监管。一个 DeepSeek 模型可以被美国开发者下载、修改、商用——但在中国境内必须经过备案才能向用户提供服务。

这种“全球开放 + 本土受控”的模式是中国 AI 政策的一个独特设计。它最大化中国 AI 的全球影响力(开权重不受国内监管限制),同时保留对国内 AI 服务的国家控制。


Hugging Face 在这个新格局中扮演关键角色。

Hugging Face 是美国 Delaware 公司,2016 年成立,最初是个聊天机器人公司。2019 年它转向 AI 模型的开源 hub。到 2025 年它托管几百万个模型、数据集、demo——成为事实上的“AI 模型 GitHub”17

Hugging Face 的关键特点:

  • 主权位置:美国公司 → 受 OFAC 约束
  • 内容:托管全球各国实验室的模型——包括 Qwen、DeepSeek 等
  • 服务:免费提供模型下载(有些 limit),付费提供 Inference API、Spaces 等
  • 治理:私营公司 → 决定权在公司管理层

这创造了一个有趣的悖论。最大的中国 AI 模型分发渠道是一家美国公司

Hugging Face 怎么应对这个悖论?它的实际操作:

  • 对模型 上传:受 OFAC 管制——被制裁的实体不能从 Hugging Face 上传模型
  • 对模型 下载:相对宽松——多数模型对全球用户开放下载
  • 对 Spaces / Inference:受合规约束——某些功能对被制裁地区有限制
  • 透明日志:公开的 model card、模型版本历史等

到 2026 年初,Hugging Face 仍然是全球 AI 模型分发的中心。中国实验室主动选择把模型上传到 Hugging Face(虽然中国有 ModelScope 等本土平台)——因为 Hugging Face 提供最大的国际可见性18

但 Hugging Face 也面对越来越多的合规压力。美国国会有声音要求 Hugging Face 限制托管中国模型;中国监管要求 Hugging Face 不能托管违反中国内容规定的模型。这两种压力让 Hugging Face 在中美之间走钢丝。


如果 Hugging Face 受 OFAC 压力增加,会发生什么?

理论上的演化路径:

Step 1(已发生):Hugging Face 限制部分高敏感账号——OpenAI、Anthropic 等“前沿闭权重”实验室自然不托管在 Hugging Face;OFAC SDN list 上的实体被限制 upload。

Step 2(可能 2026-2027):Hugging Face 对某些“前沿开权重”模型加合规审查。如果某个模型被认为可能用于军事/双用途,Hugging Face 可能拒绝托管。

Step 3(可能 2027-2030):Hugging Face 被迫拆分——美国部分和“国际部分”分立法律实体。中国实验室转向 ModelScope 等本土平台。“AI 模型 GitHub” 分裂为多个区域生态。

Step 4(远期):每个区域 AI 生态有自己的模型 hub、自己的合规框架、自己的“主导模型”。全球 AI 协作变得复杂——一个中国实验室的模型可能在美国不能商用,反之亦然19

读到这里要承认:这是合理推测,不是预言。Hugging Face 的未来可能完全不同。但合规压力的轨迹(2014 → 2019 → 2022 → 2024 → 2025)暗示 AI 模型分发的领域很可能跟随类似的精细化主权穿透。


中国模型托管平台是这种平行化的具体体现。

ModelScope(魔搭社区)由阿里达摩院 2022 年发布。它是中国版的 Hugging Face——托管模型、数据集、demo20。到 2026 年 ModelScope 托管的模型主要服务中国市场,国际可见性有限。

HF Mirror(多个第三方):在中国镜像 Hugging Face 的尝试。规模有限——主要是为了让中国开发者更快下载 Hugging Face 上的模型。

百度 Wenxin Workshop:百度自己的模型生态。

智源 BGE / Tsinghua KEG / OpenBMB:学术机构主导的模型 hub。

这些平台的存在不是“反 Hugging Face”——是中国 AI 生态的本土备援。如果 Hugging Face 哪天对中国用户不可用,这些备援能保证中国 AI 工作继续。但它们目前的实际规模远小于 Hugging Face——多数中国 AI 研究者仍然主要用 Hugging Face21


训练数据的国籍化是这个故事的另一层。

AI 模型训练需要大量数据。多数前沿模型用 CommonCrawl 等公开数据集——这是个非营利项目,自 2008 年起爬取整个 web 的快照22

但 CommonCrawl 有几个特点:

  • 主要爬取英文 web
  • 对中文、阿拉伯文、印地文等小语种覆盖较弱
  • 不包含 paywall 后的内容(很多学术、新闻)
  • 不包含中国大陆很多 web 内容(很多中国网站不愿被国际爬虫爬取)

这造成了一个“AI 训练数据的地缘特征”:用 CommonCrawl 训练的模型在英文任务上很强,在中文等小语种任务上较弱。中国 AI 实验室如果要做中文优秀的模型,必须额外爬取中国 web、收集中文语料23

阿里、百度、字节、智源等都积累了自己的中文训练数据。这些数据不公开——它们是中国 AI 公司的护城河。一个外国实验室想做同等优秀的中文模型很难,因为他们没法访问这些专属语料。

类似的故事在其他语言领域上演:

  • 法国 Mistral 积累法语语料
  • 印度 BHASHINI 项目构建印度本土语言语料库
  • 日本一些实验室积累日语专属语料

到 2026 年,AI 训练数据已经在按语言/地区分化。多语言模型仍然由 CommonCrawl 主导,但单语言旗舰模型几乎都有专属语料。这是 AI “本土化”的具体技术基础24


十一

读到这里有人可能会问:AI 模型权重和源代码到底是不是同一种东西?

这个问题在第 2 章我们已经讨论过。简单回顾:

  • 模型权重是数十亿个数字
  • 你不能“读懂”它——它的功能性是 emergent
  • 它的存在目的是被使用,不是被理解

但模型权重也有源代码的某些属性:

  • 可被任何人下载
  • 可被任何人修改(fine-tuning)
  • 可表达信息(通过 prompt → output 方式)

到 2026 年,法律层面对这个问题没有清晰回答。Bernstein 案确立了“源代码是言论”——但这个判决是否延伸到模型权重,没有美国法院明确回答。BIS 的实际行动倾向于把模型权重当作“工具”而非“言论”——可以受出口管制覆盖。

这种法律不确定性是 AI 时代的一个核心问题。如果模型权重是言论,那么所有开权重模型受第一修正案保护——美国政府不能限制它们的发布或使用。如果模型权重是工具,那么它们可以被广泛管制——出口、使用、训练都能受限。

这两种判决的差异巨大。一个判决会决定全球 AI 发展的政治可能性25


十二

DeepSeek R1 之后一年的发展轨迹值得记住。

2025 年 1 月 R1 发布——震惊全球 AI 业。 2025 年 2 月:参议员提案禁止联邦承包商使用 DeepSeek。 2025 年 4 月:众议院特别委员会建议更新 FAR。 2025 年 5 月:美国一些州也开始限制政府机构使用 DeepSeek。 2025 年 8 月:DeepSeek V3.1 发布——继续保持开权重,性能进一步提升。 2025 年 9 月:Qwen 累计下载量超过 Llama,全球开权重领导权从美国转移到中国。 2025 年 12 月:美国正式更新 AI 采购规则——联邦承包商不能用中国 AI 模型。

到 2026 年,开权重领域已经形成新的格局:

  • 中国实验室在开权重数量和性能上领先
  • 美国实验室转向高度专业化的闭权重路线
  • 欧洲(Mistral 等)做“中间道路”——较中性的开权重,强调欧盟监管合规
  • 印度(Sarvam 等)开始建立本土开权重生态26

这是 AI 史上一个少被预见的发展。2022-2023 年绝大多数 AI 预测都假设美国会主导生成式 AI。OpenAI、Google、Microsoft 的领先地位看起来不可动摇。但开权重路线的兴起——特别是中国实验室在开权重领域的领先——把这个预测推翻了。

DeepSeek 的故事让人想起 PRISM 系列里的另一个故事:2013 年 Snowden 揭露 NSA 监控之后,全球各国意识到他们需要建立“不依赖美国”的通信基础设施。十年后,2024 年的 AI 故事是类似的:各国意识到他们需要建立“不依赖美国”的 AI 基础设施。但应对的方式不同——这次主要工具是开源

通过开源 AI 模型,各国(尤其是中国)能够:

  • 不被美国出口管制阻止
  • 让全球开发者使用本国模型
  • 建立长期生态主导权
  • 在美中竞争中获得不对称优势27

这是开源运动新一章的核心矛盾。Stallman 1985 年写 GNU 宣言时想象的开源是“反企业、反专有”。2025 年的中国开源 AI 战略是“反美国出口管制、利用开放性建立国家影响力”。两种“开源”的形式相似但动机完全不同。


十三

最后回到 DeepSeek R1 发布那一刻。

那个 1 月晚上,Hugging Face 上的 R1 model page 在几小时内被下载几百万次。Nvidia 股价开始下跌。Twitter / X 上一片喧嚣。OpenAI 的工程师们半夜被叫起来分析 R1 的训练细节。美国国会议员的助手们紧急起草关于 DeepSeek 的备忘录。Anthropic 的 Dario Amodei 公开承认 R1 让 Anthropic 重新思考自己的策略。

这个时刻就是 AI 开源进入国家化的标志。

在 R1 之前,“开源 AI” 还是个相对学术 / 技术圈的话题。多数政策制定者把 AI 主要理解为 OpenAI / Anthropic 那种闭权重商业产品。R1 让所有人意识到:开权重不只是“小项目玩具”——它能达到前沿水平,能挑战闭权重生态,能成为国家战略工具。

R1 之后的一年,关于“开源 AI 的政策”的讨论从专业领域扩展到国会、白宫、欧盟、北京。每个主要国家都在反思自己的 AI 开源策略。

到 2026 年 5 月,这种反思还在进行。没有一个国家给出了完整答案。但有几件事变得清楚:

  • 开源 AI 已经是国家级议题,不能被忽视
  • 开权重模型已经不能被“召回”——只能被规则
  • 模型权重的法律性质是开放的、待定的
  • 全球 AI 生态正在向区域化分裂

下一章——也是最后一章——我们把所有这些放在一起,问一个最直接的问题:开源到底变成了什么?


References

  1. MIT Technology Review 2025-01-24: “How Chinese company DeepSeek released a top AI reasoning model despite US sanctions”. Link →

  2. 关于 DeepSeek R1 发布后 Nvidia 股价下跌的多家媒体报道。

  3. 大型模型训练成本与计算量历史数据。Epoch AI 等组织的追踪。

  4. 开权重 vs 闭权重辩论的多种立场。NTIA 2024 报告综合多方观点。

  5. Meta Llama 2 发布历史。2023-07-18 公布。

  6. Meta Llama 4 发布 (2025-04)。包括 Behemoth 2T 参数 MoE 描述。

  7. Qwen 3 性能数据。AIME25 92.3%、HumanEval 88.5%。CodeSOTA Open LLM Leaderboard →

  8. MIT Technology Review 2026-02-12: “What’s next for Chinese open-source AI”(Caiwei Chen)。文中指出 Qwen 在 Hugging Face 累计下载量超过 Llama,且到 2025-08-04 由 Qwen 衍生的新模型已占 Hugging Face 新增语言模型衍生体的 40% 以上,Llama 降至约 15%。Link →

  9. Brookings: “DeepSeek shows the limits of US export controls on AI chips”. 关于工程优化策略的分析。Link →

  10. Hugging Face 公开模型 download 统计。2025 年中后,中国实验室模型在全球开权重领域领先。

  11. Federal Register 2025-01-15: “Framework for Artificial Intelligence Diffusion”. Link →

  12. Sidley: “New U.S. Export Controls on Advanced Computing Items and Artificial Intelligence Model Weights” (2025-01). Link →

  13. CyberScoop: “Senators move to quash the use of Chinese AI system by federal contractors”. Link →

  14. Mintz 2025-04-24: “House Select Committee Publishes Report on DeepSeek”. Link →

  15. Inside Government Contracts 2025-02: “U.S. Federal and State Governments Moving Quickly to Restrict Use of DeepSeek”. Link →

  16. 《生成式人工智能服务管理暂行办法》(网信办 2023-07)。中国官方文本。

  17. Hugging Face 公司历史与平台规模。

  18. Hugging Face Trust & Safety pages 描述合规框架。

  19. IISS: “DeepSeek’s release of an open-weight frontier AI model”. 关于全球 AI 生态分裂可能的分析。Link →

  20. ModelScope (魔搭社区) 官方页面。阿里达摩院 2022 年发布。

  21. 中国 AI 研究者实际平台使用统计。Hugging Face 仍占主导。

  22. CommonCrawl 项目介绍。2008 年起爬取全 web 快照。

  23. 关于 CommonCrawl 多语言覆盖弱点的多份学术研究。

  24. BHASHINI 项目页面。Bhashini Challenge - Innovate India。Link →

  25. Federal Register 2024-02-26: 关于 AI 模型权重法律性质的官方探讨。Link →

  26. EU Institute for Security Studies: “Challenging US dominance: China’s DeepSeek model and the pluralisation of AI development”. Link →

  27. Brookings: 同 c11-ref-9. 关于 DeepSeek 作为不对称竞争策略的分析。

  28. Red Hat Developer: “The state of open source AI models in 2025”. 综合分析。Link →

  29. Open Source LLM Comparison Table (2026). Link →

  30. Vahu: “Selecting Open-Source LLMs: Llama, Mistral, Qwen, and DeepSeek Compared”. Link →

  31. Hugging Face 2025 model releases timeline.

  32. Washington Post 2025-02-03: “Sens. Warren and Hawley call for tougher chip export bans to stymie Chinese AI”. Link →