一
这本书的十二章已经穷尽了我做 desk research 能找到的所有 2014-2026 年公开材料的主要面向。我读了 LKML 邮件归档、xz-devel 邮件列表、Russ Cox 的复盘、各种 threat intel 团队的报告、OpenSSF 文档、CRA 法案文本、BIS 出口管制文件、各国政策报告、维护者的公开 blog、独立媒体的深度报道。我也访问了所有引用源的链接,验证了大部分关键事实。
但 desk research 有边界。有些问题只能通过现场访谈、内部档案、私域社群、政府文件解密来回答。这一章列出二十个仍待后续研究者、记者、学者去挖的方向。
按“重要性 × 可达性”分四类:高优先级 × 高可达性、高优先级 × 中低可达性、中优先级、超时或难以挖掘。每一条说明:现有证据等级、田野能提供什么、预计成本和伦理风险。
这一章不要求读者去做。它是路线图,不是任务清单。如果你是开源治理研究者、记者、学者,或者只是对这些细节感兴趣,欢迎用它作为后续研究起点。
二|高优先级 × 高可达性
A1. xz 后门归因的更多技术分析
现有证据等级:C 级(多家私营 threat intel 报告,但无政府正式归因)
田野能提供什么:
- 攻击者使用的 OPSEC(操作安全)模式的更细分析——commit 时区、邮件 metadata、IP 信息(如果能获得)
- 跟其他已知国家级 supply chain 攻击的 TTP(tactics、techniques、procedures)对比
- 加密的 Ed448 私钥的 forensic 分析
可访谈对象:
- Andres Freund(已多次接受公开采访)
- Lasse Collin(一直保持低调,但通过 Tukaani mailing list 可能接受)
- Russ Cox(research!rsc 作者,对 timeline 有深度研究)
- Securelist、ReversingLabs、Mandiant、CISA 的 xz 调查团队
- 各 Linux 发行版的安全响应团队(Debian、Ubuntu、Fedora、Arch、SUSE)
预计成本:中等。多数研究者愿意公开讨论已知信息;归因方面会谨慎。
伦理风险:低。除非接触正在调查中的具体技术细节,公开材料层面安全。
A2. Linux 11 名俄籍 maintainer 的具体身份与现状
现有证据等级:B 级(公开 LKML 邮件 + 多份新闻报道)但具体名单未在主流报道中完整公布
田野能提供什么:
- 11 个具体的人是谁、他们为哪家公司工作、他们对删除的个人反应
- 被删除之后他们的实际状态(是否找到了“sufficient documentation”路径,是否考虑迁移到其他项目)
- 俄罗斯境内 maintainer 社区对这件事的更广泛反应
可访谈对象:
- Greg Kroah-Hartman(公开 maintainer,可能愿意谈合规细节,不会谈具体人)
- James Bottomley(在 LKML 上做了详细法律解释)
- 被删除的 maintainer 本人(需要通过 LKML 邮件 + 已知公司联系;伦理上需要谨慎)
- LWN.net 编辑(多年报道 Linux 内核动态)
预计成本:高。被删除人可能不愿公开讨论;通过中介接触需要时间。
伦理风险:中等。涉及个人隐私和职业现状,需要严格脱敏处理。
A3. xz 后门攻击者使用的所有 sock puppet 账号清单
现有证据等级:B 级(Securelist 和 ReversingLabs 已识别 Jia Tan、Jigar Kumar、Dennis Ens、Hans Jansen、krygorin4545、misoeater91)
田野能提供什么:
- 是否还有未识别的关联账号
- 这些账号在其他开源项目中是否有过类似活动(可能针对其他项目的类似攻击)
- Wayback Machine、Internet Archive 的早期备份是否包含更多线索
可访谈对象:
- Evan Boehs(独立研究者,详细记录 xz 时间线)
- Securelist 和 ReversingLabs 的研究团队
- GitHub 安全团队(应该有内部账号关联数据)
预计成本:中等。需要 patience 做大量数据交叉。
伦理风险:低。所有相关账号都是公开的。
A4. CRA 实际执行后小项目放弃 EU 用户的具体清单
现有证据等级:D 级(部分匿名报告,没有系统统计)
田野能提供什么:
- 截至 2026 年 9 月 CRA 部分生效后,有多少项目明确宣布不向 EU 用户提供
- 这些项目的规模分布(小项目占多数还是中大项目?)
- 是否有项目专门为 EU 合规重新设计(如增加 SBOM、incident reporting 等)
可访谈对象:
- OpenSSF 政策团队(维护 CRA 影响 tracker)
- Eclipse Foundation、Linux Foundation Europe 的合规团队
- 中小开源项目的 maintainer(通过 GitHub、Mastodon 等渠道)
预计成本:低-中等。多数信息可以通过 survey + 邮件获得。
伦理风险:低。
三|高优先级 × 中低可达性
B1. 开源 supply chain 安全在金融、医疗、能源等关键基础设施的实际状况
现有证据等级:C 级(行业报告,但没有具体到关键基础设施的内部部署细节)
田野能提供什么:
- 美国、欧盟、中国关键基础设施中开源依赖的实际清单
- 不同行业的 SBOM 采用率差异
- 关键 supply chain 攻击预案的具体内容
可访谈对象:
- CISA、NSA Cybersecurity Directorate、欧盟 ENISA 的政策制定者
- 大型金融机构的 CISO(多数不愿公开讨论)
- 医疗设备公司的安全工程师(FDA 监管下,SBOM 是合规要求)
- 能源行业 ICS / OT 安全研究者
预计成本:高。需要建立专业网络。
伦理风险:中等。涉及国家关键基础设施的细节,可能触及保密信息。
B2. RISC-V 在美国成员公司中如何应对中国合作
现有证据等级:B 级(公开报道 + CSIS 智库分析)
田野能提供什么:
- Intel、Google、Western Digital 等美国 RISC-V 成员公司的内部决策过程
- 他们如何在“国际中立的 RISC-V 标准化”和“美国出口管制压力”之间平衡
- 是否有美国公司因压力退出 RISC-V 国际基金会工作组
可访谈对象:
- RISC-V International(瑞士)的高级管理层
- 美国半导体行业协会(SIA)政策团队
- 美国商务部 BIS 的 RISC-V 调查团队
预计成本:高。涉及商业机密和政策敏感性。
伦理风险:低-中等。
B3. 中国 AI 模型备案制度的实际通过率与拒绝原因
现有证据等级:D 级(部分企业公开声明备案通过;拒绝率不公开)
田野能提供什么:
- 国家网信办备案的具体审查流程(公开材料只有大纲)
- 通过率、拒绝率的统计数据
- 拒绝的典型原因(内容合规 vs 技术不足 vs 数据来源问题)
可访谈对象:
- 已备案 AI 公司的合规团队(多数不愿公开讨论细节)
- 协助备案的咨询公司
- 网信办前官员(如果能接触到)
- 不愿/未能备案的项目的开发者
预计成本:中-高。
伦理风险:中等。涉及中国境内监管敏感性。
B4. 各国 OFAC 等同制裁工具的实际执行
现有证据等级:C 级(美国 OFAC 公开 SDN list;其他国家的等同工具不太透明)
田野能提供什么:
- 欧盟制裁 list(EU Consolidated List)对开源协作的实际执行
- 英国 OFSI(Office of Financial Sanctions Implementation)对开源平台的影响
- 中国“不可靠实体清单”对外国开源项目的影响
可访谈对象:
- OFAC、OFSI、EU Commission 制裁政策制定者
- 大型开源基金会的合规律师
- 各国制裁法律学者
预计成本:中等。
伦理风险:低。
B5. Hugging Face 内部对 OFAC 压力的应对
现有证据等级:D 级(公开 Trust & Safety 文档,但内部决策过程不透明)
田野能提供什么:
- Hugging Face 如何决定哪些账号 / 模型受 OFAC 影响
- 内部是否有“合规升级”路线图
- 如何处理 OFAC 不明确的边缘案例(如中国模型在美国法律下的灰区使用)
可访谈对象:
- Hugging Face 管理层(Clement Delangue 等)
- 法律顾问与合规团队
- 大量在 Hugging Face 上托管模型的实验室
预计成本:中等。Hugging Face 多数对话相对透明。
伦理风险:低。
四|中优先级
C1. 中国镜像基础设施的实际同步率
现有证据等级:B 级(USTC、Tsinghua 等镜像公开运行状态)
田野能提供什么:
- 主要中国镜像与 GitHub、npm、PyPI 等原仓的实际同步延迟
- 哪些项目被有意 / 无意排除在镜像之外
- “假如 GitHub 不可用” 场景下,中国镜像能多大程度上保证生态运转
可访谈对象:
- 中国主要镜像站的运维团队(USTC、清华、阿里等)
预计成本:低。多数镜像运维公开 contact。
C2. 中国 OpenAtom Foundation 的财务和治理细节
现有证据等级:B 级(公开成立信息,但具体财务和治理不透明)
田野能提供什么:
- OpenAtom 的年度财务(捐款来源、支出结构)
- 治理结构的实际运作(董事会、决策机制)
- 与 Linux Foundation 的合规对比
可访谈对象:
- OpenAtom 管理层
- 主要 OpenAtom 项目的 maintainer
预计成本:高。中国非营利透明度有限。
C3. 印度 India Stack 的国际推广实际效果
现有证据等级:B 级(公开协议数)
田野能提供什么:
- 23 个签署协议国家中,有多少实际部署了 UPI / DigiLocker 等
- 印度 IT 行业从 India Stack 推广中的实际收益
- 与中国“数字丝绸之路”的对比
可访谈对象:
- 印度 IT 部、Modi 政府数字基础设施团队
- 国际数字公共物品基金会(Digital Public Goods Alliance)
预计成本:中等。
C4. 开源 maintainer 的人口学趋势
现有证据等级:C 级(Tidelift 调查数据)
田野能提供什么:
- 25-35 岁开发者进入 maintainer 角色的比例变化
- 不同地区的趋势差异(美国、欧洲、中国、印度等)
- “maintainer cohort 衰老” 的具体数据
可访谈对象:
- Tidelift、GitHub 等的研究团队
- 大型开源项目的 governance team
预计成本:中等。
C5. xz 之后开源安全工具的实际采用
现有证据等级:C 级(OpenSSF Alpha-Omega 项目报告,但行业整体数据缺乏)
田野能提供什么:
- SLSA Level 1-4 在主流项目中的实际采用率
- Sigstore 签名在不同包管理器中的覆盖率
- Reproducible Builds 在 npm、PyPI、Maven 等的状况
可访谈对象:
- OpenSSF 工程师
- 大型企业的 supply chain security 团队
预计成本:低-中等。
五|已超时或难以挖掘
D1. xz 后门归因到具体国家
为什么难以挖掘:除非有政府正式归因或攻击者被抓,否则只能停留在“嫌疑指向”
当前不要尝试。等待美国政府或其他主要政府发布正式归因后再调查。
D2. NSA / 五眼联盟是否在某些开源项目中有 backdoor
为什么难以挖掘:涉及最高级保密;现有泄露材料(Snowden 等)已经多年,新材料不太可能短期出现
仅追踪现有公开材料,不深挖。
D3. 中国 OSS 项目中是否有国家直接干预的具体证据
为什么难以挖掘:中国境内调研敏感性;多数证据是间接推断而非直接证据
通过公开学术研究跟踪,不做现场田野。
六|长期观察指标
如果想长期追踪开源世界的地缘政治变化,可以监控这些指标:
1. 第二次 xz 类型的国家级供应链后门事件
至 2026 年 5 月没有第二次被识别的事件。但概率不为零——继续监控 oss-security 邮件列表、安全研究公司报告。
2. Linux Foundation 是否扩展 MAINTAINERS 清理到其他国家
2024 年 10 月针对俄罗斯。继续监控:是否会有中国、伊朗、朝鲜籍 maintainer 被以同样理由清理。
3. EU CRA 2026 年 9 月部分生效后的实际影响
- 多少小项目宣布放弃 EU 用户
- 大型基金会的合规成本如何变化
- 是否有项目主动迁出欧盟法域
4. AI 模型权重的法律定性
- 是否有美国法院明确判决“模型权重是言论”
- 是否有 BIS 进一步限制开放权重模型出口
- 中国是否会调整模型备案要求
5. 主要 forge 平台的合规执行精细度
- GitHub 是否会扩展到 maintainer 级别的精确制裁
- Hugging Face 是否会拆分为区域实体
- 中国 Gitee、俄罗斯 GitFlic 的国际化进展
6. 国家级 AI 开源战略的演化
- 中国 OpenAtom 是否会国际化
- 美国是否会建立“美国版 OpenAtom”
- 印度 India Stack 是否会扩展到 AI 模型层
每一项都是 ongoing 的故事。这本书呈现的是 2014-2026 这一段的快照。下一段 5-10 年的故事还在写。
七|研究者伦理提醒
如果你想在这些方向做田野研究,几个伦理原则值得记住:
1. 保护个体 maintainer 的隐私
即使他们公开了某些信息(GitHub username、邮件等),他们没有同意成为研究对象。在引用他们之前问自己:他们愿意被这样写吗?
xz 后门事件让 Lasse Collin 不情愿地成为公众人物。这本书引用了他的公开邮件,但避免对他做心理推测。后续研究应该保持同样克制。
2. 区分合规与政治
Greg Kroah-Hartman 做删除决定是合规执行,不是政治推动。把合规决定写成政治站队是错的。同样,被删除的 maintainer 不一定是政治支持者——他们是合规风险的承担者。
3. 不点名被切断的开发者
伊朗、克里米亚、朝鲜的开发者已经处在脆弱状态。如果你做现场调研,避免点名具体个体——这可能让他们面对额外的风险(既来自本国监管,也来自国际制裁)。
4. 接受归因的开放性
xz 后门归因没有确凿证据。任何研究者宣称“知道是谁”——除非他们有明确证据——都在做不负责任的推测。这本书保持“嫌疑指向但未定论”。后续研究应该保持同样标准。
5. 不浪漫化 maintainer 或妖魔化国家行为者
Daniel Stenberg、Lasse Collin、Andres Freund 不是英雄——他们是处在结构张力中的具体的人。同样,中国、俄罗斯、美国不是单一意图的整体——每个国家都有内部博弈、不同声音、复杂利益。把任何一方简化为英雄或反派是写糟的研究。
八|诚实声明
最后我想做几个诚实声明。
这本书有相当大的不完整性。它依赖公开 web 材料、新闻报道、学术研究、官方文件,没有任何独立的现场田野。这是 desk research 的固有限度。
具体的不完整性包括:
- xz 后门归因:仍然开放。我没有提供超过公开信息的额外洞察。
- 被删除的 11 名 maintainer:他们的个人故事没有被叙述,因为公开材料不足且保护他们隐私是更高优先级。
- 被切断者(伊朗、朝鲜、古巴)的具体生活:只有抽象描述,没有任何具体的人物故事。这是这本书最大的人文缺陷。
- 关键基础设施实际部署:金融、医疗、能源等行业的具体开源依赖状态没有覆盖——这需要内部访谈。
- 中国 OSS 战略的内部决策:基于公开材料推断;可能错过 nuance。
- 截至 2026 年 5 月之后的事件:这本书的时间窗口截止在 2026 年 5 月。之后的发展不在覆盖范围。
这些不完整性不是 oversight——是 desk research 的边界。后续研究者如果想填补这些空白,应该考虑混合方法:desk research + 关键访谈 + 现场观察 + 内部文档分析。
这本书希望做的是给后续研究一个起点——一个能让读者从“模糊感觉开源在变化”到“具体理解开源如何在变化”的过渡。它不是终点。它是一个邀请——邀请其他研究者、记者、学者、政策制定者去填补这些空白。
如果有一天某位读者用这本书作为出发点,做出更深入的研究——挖出我没看到的事实、访谈我没接触的人、看清我没看清的细节——那是这本书最希望发生的事。
九|结尾
写完十二章 + 这个附录,写作工作就结束了。
这本书探讨的开源运动地缘政治化是 ongoing 的故事。10 年后回看 2014-2026,我们会知道这十年是开源的成熟阶段、衰退阶段、还是分裂阶段。现在没法知道。
但有一件事到 2026 年 5 月是清楚的:开源没有死。即使所有这一切——制裁、社会工程、合规、主权穿透——它仍然在运转。Stallman 1985 年的想法仍然有效;Linus 1991 年的内核仍然在运行;DeepSeek 2025 年的模型仍然被全球下载。
这是个奇迹。我们应该承认它,享受它,保护它。
不论开源接下来 10 年走向哪里,希望读者读完这本书之后,能对它的具体形态——它的脆弱、它的力量、它的复杂、它的不可预测——有一份具体的、不被简化叙事左右的理解。
这就是这本书想留给读者的。
References
-
Tidelift 2024 maintainer survey. Link →
-
OpenSSF Alpha-Omega 项目 Reports 页面。Link →
-
Open Regulatory Compliance Working Group (ORCWG). Link →
-
CHAOSS Community Health Analytics for Open Source Software. Link →
-
SovereignTech Agency: 关于跨国开源资助模式的范例。Link →
-
Sourcegraph 2023 “State of Open Source” 报告。中国 contributor 增长 47% 数据。
-
Linux Foundation Annual Report 2023. 项目数量与 contributor 规模。Link →