GitHub Copilot 4月起将用你的代码训练AI — 不退出就等于同意
GitHub于3月25日宣布,Copilot Free/Pro/Pro+用户的交互数据将默认用于AI模型训练。本文整理退出方法和实际影响。
3月25日,GitHub博客上静悄悄地发布了一篇文章。标题很克制 — “Updates to our Privacy Statement and Terms of Service.” 但内容相当直接。从4月24日起,Copilot Free、Pro和Pro+用户的交互数据将默认用于训练AI模型。
我是从The Register的报道中先看到这个消息的,坦白说第一反应是”终于来了”。提供免费方案却不使用数据,本来就有点不自然。
具体变了什么
GitHub明确要收集的数据类型比想象中要广泛:
- 代码片段(输入和输出)
- 用户接受或修改的代码建议
- 光标周围的代码上下文
- 注释和文档
- 文件名和仓库结构
- Copilot Chat、内联建议等功能的交互数据
- 对建议的反馈(👍/👎)
关键在于,这是**默认开启(opt-out方式)**的。如果不主动关闭,就视为同意。
不过GitHub也澄清了几点:
- Business和Enterprise方案不受影响 — 组织管理员现有的策略设置保持不变
- 不会使用私有仓库中静态存储的源代码进行训练 — 意思是”at rest”状态的代码不在范围内
- 不会与第三方AI模型提供商共享数据 — 仅用于GitHub/Microsoft内部学习
第2点有些微妙。他们说”at rest”的代码不用,但Copilot在读取代码并生成建议过程中产生的数据是要收集的。实质上私有代码可能间接参与了模型训练。这一点我个人觉得有些不安。
如何退出
步骤很简单:
- 登录GitHub
- 进入 Settings → Copilot → Features
- 在Privacy部分禁用 “Allow GitHub to use my data for AI model training”
如果你之前已经拒绝了”用于产品改进的数据收集”,那个设置会保留。但如果从未动过这个设置,4月24日起就会默认开启。
注意一点 — 如果你的个人账号属于某个Organization,根据组织策略,这个设置可能不可见。建议向组织管理员确认。
为什么这是个问题(以及为什么可能没那么严重)
认为有问题的视角:
你写的代码片段进入模型训练,意味着你的代码模式可能会出现在给其他人的建议中。如果包含专有算法或业务逻辑,不得不在意。特别是在私有仓库工作的开发者,“不使用源代码本身”这句话并不能完全让人安心。
认为没问题的视角:
现实中,Copilot已经用数十亿行公开代码训练过了,你的几行代码片段对模型产生统计学上显著影响的可能性很低。而且交互数据训练的目的是改进”哪些建议有用”,这有助于提升整体工具质量。
我个人项目不打算退出。算是为Copilot变得更好做贡献吧。但公司代码一定会确认。
从更大的背景来看
这个策略变更不只是GitHub的事。以免费或低价提供AI工具,同时用用户数据改进模型的模式,正在成为行业标准。Google的Gemini、Anthropic的Claude都有或即将有类似的策略。
在开发者工具市场,这件事特别敏感的原因是,代码就是知识产权。文本对话和代码的性质完全不同。
最终还是每个人自己判断的问题。有退出选项本身是好事,但默认选择收集同意而非主动同意,必然会招来批评。选择让用户主动禁用而非主动启用,是一个刻意的设计决策 — 而且不是站在用户一边的。
清单:现在该做的事
- 在GitHub Settings → Copilot → Features检查数据学习设置
- 如果是组织管理员,在Organization策略中审查Copilot数据政策
- 向团队成员分享4月24日的变更
- 在私有仓库使用Copilot时,重新评估敏感代码暴露范围
4月24日前确认一次就够了。5分钟的事。
阅读其他语言版本
- 🇰🇷 한국어
- 🇯🇵 日本語
- 🇺🇸 English
- 🇨🇳 中文(当前页面)
这篇文章有帮助吗?
您的支持能帮助我创作更好的内容。请我喝杯咖啡吧!☕