GitHub Copilot 4月起将用你的代码训练AI — 不退出就等于同意

GitHub Copilot 4月起将用你的代码训练AI — 不退出就等于同意

GitHub于3月25日宣布,Copilot Free/Pro/Pro+用户的交互数据将默认用于AI模型训练。本文整理退出方法和实际影响。

3月25日,GitHub博客上静悄悄地发布了一篇文章。标题很克制 — “Updates to our Privacy Statement and Terms of Service.” 但内容相当直接。从4月24日起,Copilot Free、Pro和Pro+用户的交互数据将默认用于训练AI模型。

我是从The Register的报道中先看到这个消息的,坦白说第一反应是”终于来了”。提供免费方案却不使用数据,本来就有点不自然。

具体变了什么

GitHub明确要收集的数据类型比想象中要广泛:

  • 代码片段(输入和输出)
  • 用户接受或修改的代码建议
  • 光标周围的代码上下文
  • 注释和文档
  • 文件名和仓库结构
  • Copilot Chat、内联建议等功能的交互数据
  • 对建议的反馈(👍/👎)

关键在于,这是**默认开启(opt-out方式)**的。如果不主动关闭,就视为同意。

不过GitHub也澄清了几点:

  1. Business和Enterprise方案不受影响 — 组织管理员现有的策略设置保持不变
  2. 不会使用私有仓库中静态存储的源代码进行训练 — 意思是”at rest”状态的代码不在范围内
  3. 不会与第三方AI模型提供商共享数据 — 仅用于GitHub/Microsoft内部学习

第2点有些微妙。他们说”at rest”的代码不用,但Copilot在读取代码并生成建议过程中产生的数据是要收集的。实质上私有代码可能间接参与了模型训练。这一点我个人觉得有些不安。

如何退出

步骤很简单:

  1. 登录GitHub
  2. 进入 Settings → Copilot → Features
  3. 在Privacy部分禁用 “Allow GitHub to use my data for AI model training”

如果你之前已经拒绝了”用于产品改进的数据收集”,那个设置会保留。但如果从未动过这个设置,4月24日起就会默认开启。

注意一点 — 如果你的个人账号属于某个Organization,根据组织策略,这个设置可能不可见。建议向组织管理员确认。

为什么这是个问题(以及为什么可能没那么严重)

认为有问题的视角:

你写的代码片段进入模型训练,意味着你的代码模式可能会出现在给其他人的建议中。如果包含专有算法或业务逻辑,不得不在意。特别是在私有仓库工作的开发者,“不使用源代码本身”这句话并不能完全让人安心。

认为没问题的视角:

现实中,Copilot已经用数十亿行公开代码训练过了,你的几行代码片段对模型产生统计学上显著影响的可能性很低。而且交互数据训练的目的是改进”哪些建议有用”,这有助于提升整体工具质量。

我个人项目不打算退出。算是为Copilot变得更好做贡献吧。但公司代码一定会确认。

从更大的背景来看

这个策略变更不只是GitHub的事。以免费或低价提供AI工具,同时用用户数据改进模型的模式,正在成为行业标准。Google的Gemini、Anthropic的Claude都有或即将有类似的策略。

在开发者工具市场,这件事特别敏感的原因是,代码就是知识产权。文本对话和代码的性质完全不同。

最终还是每个人自己判断的问题。有退出选项本身是好事,但默认选择收集同意而非主动同意,必然会招来批评。选择让用户主动禁用而非主动启用,是一个刻意的设计决策 — 而且不是站在用户一边的。

清单:现在该做的事

  • 在GitHub Settings → Copilot → Features检查数据学习设置
  • 如果是组织管理员,在Organization策略中审查Copilot数据政策
  • 向团队成员分享4月24日的变更
  • 在私有仓库使用Copilot时,重新评估敏感代码暴露范围

4月24日前确认一次就够了。5分钟的事。

阅读其他语言版本

这篇文章有帮助吗?

您的支持能帮助我创作更好的内容。请我喝杯咖啡吧!☕

关于作者

JK

Kim Jangwook

AI/LLM专业全栈开发者

凭借10年以上的Web开发经验,构建AI代理系统、LLM应用程序和自动化解决方案。分享Claude Code、MCP和RAG系统的实践经验。