AI 模型权重：开源新一层的国家化

一

2025 年 1 月 20 日，DeepSeek 公司发布了 R1 模型。它在多个推理 benchmark 上达到或超过 OpenAI 的 o1。R1 是在 DeepSeek-V3 基础上用强化学习做后训练得到的——而 V3 的预训练计算成本被报道为约 560 万美元（约 280 万 GPU 小时的 H800 算力），比 OpenAI 同级别模型低一个数量级。最关键的：DeepSeek R1 完全开源，用 MIT License 发布1。

接下来 72 小时是 AI 行业的一次小地震。Nvidia 股价单日下跌 17%，市值蒸发约 5900 亿美元。原因是 DeepSeek 用旧的 Nvidia H800 GPU——已经被美国出口管制限制了——做出了前沿水平的模型。这个事实“破坏”了美国“通过芯片出口管制阻止中国 AI 进展”的基础假设2。

DeepSeek R1 的故事不只是技术——它是开源运动新一章的开端。它代表了一个 Stallman 1985 年没法想象的现象：一个国家用开源策略反制另一个国家的出口管制。

要看清楚这件事，需要倒回去看 AI 开源是怎么变成“主权问题”的。

二

AI 模型的“开源”在 2010 年代后期还是个简单概念。早期项目像 Theano、Caffe、TensorFlow（Google 2015）、PyTorch（Facebook 2016）都是“开源框架”——你下载框架代码，自己训练模型。模型权重是你自己训练得来的产物，是你自己的财产。

但模型大小很快变得超出个人能力。2018 GPT-2 是 1.5B 参数；2019 GPT-3 是 175B 参数；2024 GPT-4 据传超过 1T 参数。训练这样的模型需要数千个 GPU + 几个月时间 + 数千万美元。普通开发者不可能自己训3。

所以“开源 AI”变成两种东西：

开权重（open weights）：你公开已训练好的模型权重。任何人可以下载、使用、修改、再训练。代表项目：Meta Llama、Mistral、Alibaba Qwen、DeepSeek、智源 BGE、Stability Diffusion。

闭权重（closed weights）：你只通过 API 提供模型——用户能用，但不能下载权重。代表项目：OpenAI GPT、Anthropic Claude、Google Gemini Pro。

这个分裂在 2023 年成为 AI 政治的关键问题。

开权重派的论点：

开源是科学进步的基础——AI 也应该如此
民主化访问——让小公司、小国家、个人也能用前沿 AI
安全研究——让研究者能审查、测试、改进模型
经济竞争——开放生态让更多创新

闭权重派的论点：

模型权重可能被用于恶意目的（如生物武器设计、网络攻击）
一旦发布权重无法收回
商业模式——闭权重让公司能持续从模型获利
国家安全——前沿 AI 应该被国家控制4

三

2023 年 7 月 18 日，Meta 发布 Llama 2。这是第一个被广泛使用、性能接近前沿的开权重模型。Llama 2 的 license 不完全是开源（它有“超过 7 亿月活用户的公司不能商用”等限制），但权重是公开的——任何人可下载5。

Llama 2 立即被全球 AI 社区采用。它成为微调（fine-tuning）研究的标准基准；它被部署到无数应用；它衍生出几百个 variant（Vicuna、Alpaca、Llama-2-Chat 等）。

Meta 做这个决定的逻辑：开源能让 Llama 成为生态主导。OpenAI 闭权重让它的模型只能被 OpenAI 服务；Llama 开权重让它能进入每个开发者的工具链。如果 Meta 想在 AI 长期竞争中获得位置——但 ChatGPT 已经主导消费市场——开源是一个不对称竞争策略。

2024 年 4 月 Llama 3 发布。性能进一步接近 GPT-4。2025 年 4 月 Llama 4 发布——其中的 Behemoth 变种用 2T 参数 + Mixture of Experts 架构6。

但到 2025 年下半年，开权重领域的主导权从美国（Meta、Mistral）转移到了中国。

Qwen（阿里达摩院）2024 年的版本已经在多个 benchmark 上接近 Llama 同代。2025 年 4 月 Qwen 3 与 Llama 4 同时发布。Qwen 3 在数学（AIME25 92.3%）和代码（HumanEval 88.5%）上超过 Llama 47。

DeepSeek 2024 年 12 月发布 V3——一个开权重的前沿性能模型。2025 年 1 月 R1 发布，在推理任务上达到或超过 OpenAI o1。

Yi（零一万物）、智源 BGE、智谱 GLM、月之暗面 Kimi——多个中国 AI 实验室加入开权重赛道。

到 2025 年 9 月，Qwen 在全球累计下载量超过 Llama。到 2025 年中，总开权重模型下载量从美国主导切换到中国主导8。

这是 AI 历史上一个少被注意但意义重大的转折。开权重领域不再是“美国主导，其他追随”——是中国主导，其他模仿。Llama 仍然有大量用户，但全球开权重格局的中心已经东移。

四

中国 AI 实验室为什么如此积极开源？答案有几层。

第一层是商业。在闭权重领域，OpenAI / Anthropic / Google 已经先发优势——它们有 ChatGPT、Claude、Gemini 等成熟产品。中国公司要做闭权重产品很难超越。开权重是一个不对称竞争——通过开放生态让全球开发者使用中国模型，最终建立生态主导。

第二层是规模。中国 AI 实验室普遍受美国芯片出口管制约束——它们不能像 OpenAI 那样用最新 H100、H200 GPU。但 DeepSeek 等用工程优化（FP8 训练、MoE 架构、专家路由）在旧硬件上达到接近前沿的性能。开源让这种技术创新被全球验证、扩散、反馈——这给了中国实验室的“工程优化”路径一个 multiplier9。

第三层是政治。如果 OpenAI 通过 API 控制全球 AI 访问，中国未来在 AI 主导权上是被动的。如果中国开源的 Qwen / DeepSeek 成为全球开发者的工具，那么不论政治如何变化，全球 AI 生态都不能脱离中国创新。开源是一种长期影响力建设。

第四层是务实。中国当前还没有像 OpenAI 那种全球消费品（ChatGPT 在中国境外占主导）。开源让中国模型被全球研究者引用、研究、改进——这建立学术影响力。学术影响力 → 长期人才吸引 → 长期生态主导。

这四层逻辑加起来，让中国在开权重领域的投入超过任何其他国家。到 2026 年，全球开源 AI 生态的核心节点——Hugging Face 上下载量最大的模型——绝大多数是中国实验室出品10。

五

但开权重的政治化也很快。

2024 年 2 月，美国 BIS（Bureau of Industry and Security）发布提案，要求对“双用 AI 模型权重”出口管制。具体的 framework 在 2025 年 1 月发布——叫《Framework for Artificial Intelligence Diffusion》11。

这个 framework 的核心：

新 ECCN 4E091——“AI 模型权重”
训练计算量超过 10^26 operations 的闭权重模型需要 license 出口
开权重模型不受此管制（NTIA 2024 年 7 月评估的结论）12

为什么开权重不管制？因为 BIS 承认：一旦发布的开放权重模型不能召回。任何人都已经下载了 Llama、Qwen、DeepSeek；任何后续管制只对未来未发布的模型有效。

但 BIS 通过另一条路径管制开权重的使用。

2025 年 2 月，参议员 Bill Cassidy（路易斯安那共和党）和 Jacky Rosen（内华达民主党）提案：禁止联邦承包商在与联邦合同相关的活动中使用 DeepSeek 或其后续模型13。

2025 年 4 月，众议院“对中国共产党战略竞争特别委员会”发布关于 DeepSeek 的报告，建议更新 FAR（Federal Acquisition Regulations）禁止联邦政府采购基于中国 AI 模型的系统14。

2025 年 12 月，美国政府正式更新 AI 采购规则。联邦承包商被禁止使用中国 AI 模型——Qwen 和 DeepSeek 都在禁止列表15。

注意这个管制的形式：它不是禁止 DeepSeek 被下载（任何人仍然可以从 Hugging Face 下载）。它是禁止“在联邦合同中使用”。这跟我们在第 2 章讨论的 Bernstein 案保护“出版自由”但不保护“使用自由”的不对称完全对应。

六

中国对开权重的政策反应不同。

中国《生成式人工智能服务管理暂行办法》2023 年 7 月由网信办发布16。它的核心：

在中国境内提供生成式 AI 服务必须备案
备案要求包括：模型安全评估、内容合规审查、训练数据来源说明
必须通过中国国家安全评估

实际效果：

国内大模型（百度文心一言、阿里通义千问、腾讯混元、字节豆包、DeepSeek 等）都已完成备案
国外大模型（OpenAI、Anthropic、Google）由于未备案，在中国境内不能直接访问（除 VPN 等灰色方式）

这造成了一个奇怪的状况：中国 AI 模型在全球开放权重（任何人能下载），但在中国境内的服务化（提供 chatbot 服务）受严格监管。一个 DeepSeek 模型可以被美国开发者下载、修改、商用——但在中国境内必须经过备案才能向用户提供服务。

这种“全球开放 + 本土受控”的模式是中国 AI 政策的一个独特设计。它最大化中国 AI 的全球影响力（开权重不受国内监管限制），同时保留对国内 AI 服务的国家控制。

七

Hugging Face 在这个新格局中扮演关键角色。

Hugging Face 是美国 Delaware 公司，2016 年成立，最初是个聊天机器人公司。2019 年它转向 AI 模型的开源 hub。到 2025 年它托管几百万个模型、数据集、demo——成为事实上的“AI 模型 GitHub”17。

Hugging Face 的关键特点：

主权位置：美国公司 → 受 OFAC 约束
内容：托管全球各国实验室的模型——包括 Qwen、DeepSeek 等
服务：免费提供模型下载（有些 limit），付费提供 Inference API、Spaces 等
治理：私营公司 → 决定权在公司管理层

这创造了一个有趣的悖论。最大的中国 AI 模型分发渠道是一家美国公司。

Hugging Face 怎么应对这个悖论？它的实际操作：

对模型上传：受 OFAC 管制——被制裁的实体不能从 Hugging Face 上传模型
对模型下载：相对宽松——多数模型对全球用户开放下载
对 Spaces / Inference：受合规约束——某些功能对被制裁地区有限制
透明日志：公开的 model card、模型版本历史等

到 2026 年初，Hugging Face 仍然是全球 AI 模型分发的中心。中国实验室主动选择把模型上传到 Hugging Face（虽然中国有 ModelScope 等本土平台）——因为 Hugging Face 提供最大的国际可见性18。

但 Hugging Face 也面对越来越多的合规压力。美国国会有声音要求 Hugging Face 限制托管中国模型；中国监管要求 Hugging Face 不能托管违反中国内容规定的模型。这两种压力让 Hugging Face 在中美之间走钢丝。

八

如果 Hugging Face 受 OFAC 压力增加，会发生什么？

理论上的演化路径：

Step 1（已发生）：Hugging Face 限制部分高敏感账号——OpenAI、Anthropic 等“前沿闭权重”实验室自然不托管在 Hugging Face；OFAC SDN list 上的实体被限制 upload。

Step 2（可能 2026-2027）：Hugging Face 对某些“前沿开权重”模型加合规审查。如果某个模型被认为可能用于军事/双用途，Hugging Face 可能拒绝托管。

Step 3（可能 2027-2030）：Hugging Face 被迫拆分——美国部分和“国际部分”分立法律实体。中国实验室转向 ModelScope 等本土平台。“AI 模型 GitHub” 分裂为多个区域生态。

Step 4（远期）：每个区域 AI 生态有自己的模型 hub、自己的合规框架、自己的“主导模型”。全球 AI 协作变得复杂——一个中国实验室的模型可能在美国不能商用，反之亦然19。

读到这里要承认：这是合理推测，不是预言。Hugging Face 的未来可能完全不同。但合规压力的轨迹（2014 → 2019 → 2022 → 2024 → 2025）暗示 AI 模型分发的领域很可能跟随类似的精细化主权穿透。

九

中国模型托管平台是这种平行化的具体体现。

ModelScope（魔搭社区）由阿里达摩院 2022 年发布。它是中国版的 Hugging Face——托管模型、数据集、demo20。到 2026 年 ModelScope 托管的模型主要服务中国市场，国际可见性有限。

HF Mirror（多个第三方）：在中国镜像 Hugging Face 的尝试。规模有限——主要是为了让中国开发者更快下载 Hugging Face 上的模型。

百度 Wenxin Workshop：百度自己的模型生态。

智源 BGE / Tsinghua KEG / OpenBMB：学术机构主导的模型 hub。

这些平台的存在不是“反 Hugging Face”——是中国 AI 生态的本土备援。如果 Hugging Face 哪天对中国用户不可用，这些备援能保证中国 AI 工作继续。但它们目前的实际规模远小于 Hugging Face——多数中国 AI 研究者仍然主要用 Hugging Face21。

十

训练数据的国籍化是这个故事的另一层。

AI 模型训练需要大量数据。多数前沿模型用 CommonCrawl 等公开数据集——这是个非营利项目，自 2008 年起爬取整个 web 的快照22。

但 CommonCrawl 有几个特点：

主要爬取英文 web
对中文、阿拉伯文、印地文等小语种覆盖较弱
不包含 paywall 后的内容（很多学术、新闻）
不包含中国大陆很多 web 内容（很多中国网站不愿被国际爬虫爬取）

这造成了一个“AI 训练数据的地缘特征”：用 CommonCrawl 训练的模型在英文任务上很强，在中文等小语种任务上较弱。中国 AI 实验室如果要做中文优秀的模型，必须额外爬取中国 web、收集中文语料23。

阿里、百度、字节、智源等都积累了自己的中文训练数据。这些数据不公开——它们是中国 AI 公司的护城河。一个外国实验室想做同等优秀的中文模型很难，因为他们没法访问这些专属语料。

类似的故事在其他语言领域上演：

法国 Mistral 积累法语语料
印度 BHASHINI 项目构建印度本土语言语料库
日本一些实验室积累日语专属语料

到 2026 年，AI 训练数据已经在按语言/地区分化。多语言模型仍然由 CommonCrawl 主导，但单语言旗舰模型几乎都有专属语料。这是 AI “本土化”的具体技术基础24。

十一

读到这里有人可能会问：AI 模型权重和源代码到底是不是同一种东西？

这个问题在第 2 章我们已经讨论过。简单回顾：

模型权重是数十亿个数字
你不能“读懂”它——它的功能性是 emergent
它的存在目的是被使用，不是被理解

但模型权重也有源代码的某些属性：

可被任何人下载
可被任何人修改（fine-tuning）
可表达信息（通过 prompt → output 方式）

到 2026 年，法律层面对这个问题没有清晰回答。Bernstein 案确立了“源代码是言论”——但这个判决是否延伸到模型权重，没有美国法院明确回答。BIS 的实际行动倾向于把模型权重当作“工具”而非“言论”——可以受出口管制覆盖。

这种法律不确定性是 AI 时代的一个核心问题。如果模型权重是言论，那么所有开权重模型受第一修正案保护——美国政府不能限制它们的发布或使用。如果模型权重是工具，那么它们可以被广泛管制——出口、使用、训练都能受限。

这两种判决的差异巨大。一个判决会决定全球 AI 发展的政治可能性25。

十二

DeepSeek R1 之后一年的发展轨迹值得记住。

2025 年 1 月 R1 发布——震惊全球 AI 业。 2025 年 2 月：参议员提案禁止联邦承包商使用 DeepSeek。 2025 年 4 月：众议院特别委员会建议更新 FAR。 2025 年 5 月：美国一些州也开始限制政府机构使用 DeepSeek。 2025 年 8 月：DeepSeek V3.1 发布——继续保持开权重，性能进一步提升。 2025 年 9 月：Qwen 累计下载量超过 Llama，全球开权重领导权从美国转移到中国。 2025 年 12 月：美国正式更新 AI 采购规则——联邦承包商不能用中国 AI 模型。

到 2026 年，开权重领域已经形成新的格局：

中国实验室在开权重数量和性能上领先
美国实验室转向高度专业化的闭权重路线
欧洲（Mistral 等）做“中间道路”——较中性的开权重，强调欧盟监管合规
印度（Sarvam 等）开始建立本土开权重生态26

这是 AI 史上一个少被预见的发展。2022-2023 年绝大多数 AI 预测都假设美国会主导生成式 AI。OpenAI、Google、Microsoft 的领先地位看起来不可动摇。但开权重路线的兴起——特别是中国实验室在开权重领域的领先——把这个预测推翻了。

DeepSeek 的故事让人想起 PRISM 系列里的另一个故事：2013 年 Snowden 揭露 NSA 监控之后，全球各国意识到他们需要建立“不依赖美国”的通信基础设施。十年后，2024 年的 AI 故事是类似的：各国意识到他们需要建立“不依赖美国”的 AI 基础设施。但应对的方式不同——这次主要工具是开源。

通过开源 AI 模型，各国（尤其是中国）能够：

不被美国出口管制阻止
让全球开发者使用本国模型
建立长期生态主导权
在美中竞争中获得不对称优势27

这是开源运动新一章的核心矛盾。Stallman 1985 年写 GNU 宣言时想象的开源是“反企业、反专有”。2025 年的中国开源 AI 战略是“反美国出口管制、利用开放性建立国家影响力”。两种“开源”的形式相似但动机完全不同。

十三

最后回到 DeepSeek R1 发布那一刻。

那个 1 月晚上，Hugging Face 上的 R1 model page 在几小时内被下载几百万次。Nvidia 股价开始下跌。Twitter / X 上一片喧嚣。OpenAI 的工程师们半夜被叫起来分析 R1 的训练细节。美国国会议员的助手们紧急起草关于 DeepSeek 的备忘录。Anthropic 的 Dario Amodei 公开承认 R1 让 Anthropic 重新思考自己的策略。

这个时刻就是 AI 开源进入国家化的标志。

在 R1 之前，“开源 AI” 还是个相对学术 / 技术圈的话题。多数政策制定者把 AI 主要理解为 OpenAI / Anthropic 那种闭权重商业产品。R1 让所有人意识到：开权重不只是“小项目玩具”——它能达到前沿水平，能挑战闭权重生态，能成为国家战略工具。

R1 之后的一年，关于“开源 AI 的政策”的讨论从专业领域扩展到国会、白宫、欧盟、北京。每个主要国家都在反思自己的 AI 开源策略。

到 2026 年 5 月，这种反思还在进行。没有一个国家给出了完整答案。但有几件事变得清楚：

开源 AI 已经是国家级议题，不能被忽视
开权重模型已经不能被“召回”——只能被规则
模型权重的法律性质是开放的、待定的
全球 AI 生态正在向区域化分裂

下一章——也是最后一章——我们把所有这些放在一起，问一个最直接的问题：开源到底变成了什么？

References

MIT Technology Review 2025-01-24: “How Chinese company DeepSeek released a top AI reasoning model despite US sanctions”. Link →
关于 DeepSeek R1 发布后 Nvidia 股价下跌的多家媒体报道。
大型模型训练成本与计算量历史数据。Epoch AI 等组织的追踪。
开权重 vs 闭权重辩论的多种立场。NTIA 2024 报告综合多方观点。
Meta Llama 2 发布历史。2023-07-18 公布。
Meta Llama 4 发布 (2025-04)。包括 Behemoth 2T 参数 MoE 描述。
Qwen 3 性能数据。AIME25 92.3%、HumanEval 88.5%。CodeSOTA Open LLM Leaderboard →
MIT Technology Review 2026-02-12: “What’s next for Chinese open-source AI”（Caiwei Chen）。文中指出 Qwen 在 Hugging Face 累计下载量超过 Llama，且到 2025-08-04 由 Qwen 衍生的新模型已占 Hugging Face 新增语言模型衍生体的 40% 以上，Llama 降至约 15%。Link →
Brookings: “DeepSeek shows the limits of US export controls on AI chips”. 关于工程优化策略的分析。Link →
Hugging Face 公开模型 download 统计。2025 年中后，中国实验室模型在全球开权重领域领先。
Federal Register 2025-01-15: “Framework for Artificial Intelligence Diffusion”. Link →
Sidley: “New U.S. Export Controls on Advanced Computing Items and Artificial Intelligence Model Weights” (2025-01). Link →
CyberScoop: “Senators move to quash the use of Chinese AI system by federal contractors”. Link →
Mintz 2025-04-24: “House Select Committee Publishes Report on DeepSeek”. Link →
Inside Government Contracts 2025-02: “U.S. Federal and State Governments Moving Quickly to Restrict Use of DeepSeek”. Link →
《生成式人工智能服务管理暂行办法》（网信办 2023-07）。中国官方文本。
Hugging Face 公司历史与平台规模。
Hugging Face Trust & Safety pages 描述合规框架。
IISS: “DeepSeek’s release of an open-weight frontier AI model”. 关于全球 AI 生态分裂可能的分析。Link →
ModelScope (魔搭社区) 官方页面。阿里达摩院 2022 年发布。
中国 AI 研究者实际平台使用统计。Hugging Face 仍占主导。
CommonCrawl 项目介绍。2008 年起爬取全 web 快照。
关于 CommonCrawl 多语言覆盖弱点的多份学术研究。
BHASHINI 项目页面。Bhashini Challenge - Innovate India。Link →
Federal Register 2024-02-26: 关于 AI 模型权重法律性质的官方探讨。Link →
EU Institute for Security Studies: “Challenging US dominance: China’s DeepSeek model and the pluralisation of AI development”. Link →
Brookings: 同 c11-ref-9. 关于 DeepSeek 作为不对称竞争策略的分析。
Red Hat Developer: “The state of open source AI models in 2025”. 综合分析。Link →
Open Source LLM Comparison Table (2026). Link →
Vahu: “Selecting Open-Source LLMs: Llama, Mistral, Qwen, and DeepSeek Compared”. Link →
Hugging Face 2025 model releases timeline.
Washington Post 2025-02-03: “Sens. Warren and Hawley call for tougher chip export bans to stymie Chinese AI”. Link →