跳转至

GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型 - InfoQ

站点: InfoQ 抓取日期: 2026-04-15 URL: https://www.infoq.cn/article/Uw8eC56IOdyLm4aL294q


GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型 - InfoQ 首页 AI会议 hot AI课程 hot AI应用 hot 报告 HarmonyOS Snowflake new 更多    写点什么  创作场景  记录自己日常工作的实践、心得 发表对生活和职场的感悟 针对感兴趣的事件发表随笔或者杂谈 从 0 到 1 详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好 或者,就直接把你的个人博客、公众号直接搬到这里 登录 / 注册 企业动态 行业深度 AI&大模型 出海 后端 芯片&算力 架构 大数据 软件工程 云计算 大前端 管理/文化 GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型 Steef-Jan Wiggers 马可薇 2026-04-08 北京 本文字数:1437 字 阅读完需:约 5 分钟 GitHub 宣布,从 4 月 24 日起,将使用 Copilot Free、Pro 和 Pro+ 用户的交互数据来训练和改进其 AI 模型。该设置默认开启,如果用户不希望自己的数据被用于训练,需要手动关闭。Copilot Business 和 Enterprise 用户不受此次变更影响。 这一 公告 由 GitHub 首席产品官 Mario Rodriguez 发布,其中说明了在开启该设置后可能收集的数据类型,包括:被接受或修改过的模型输出、发送给 Copilot 的输入和代码片段、光标位置周围的代码上下文、注释和文档、文件名、仓库结构、导航行为,以及与 Copilot 功能(如聊天和内联建议)的交互记录,还有对建议的点赞/点踩反馈。此前已经关闭 GitHub 提示词和建议收集功能的用户,其偏好会被保留。 GitHub 表示,这一调整是为了提升模型性能。公司称,目前已经在使用微软员工的交互数据进行训练,并且在多种编程语言中观察到了建议采纳率的提升。公告附带的 FAQ 指出,该变更将于 4 月 24 日生效,并提前 30 天通知用户。 不过,这次数据收集的范围也引发了外界关注。在用户使用 Copilot 处理私有仓库代码时,这些代码可能会被收集并用于训练。GitHub 区分了“静态存储中的代码”(at rest)和“在使用过程中发送给 Copilot 的代码”:前者不会被访问,而后者则属于新政策的范围。收集到的数据还可能会与 GitHub 的关联公司共享(FAQ 中定义为同一公司体系内的公司,主要是微软及其子公司)。不过,第三方模型提供商不会使用这些数据进行自己的训练。 社区的反应整体偏负面。在 GitHub 的社区讨论 中,开发者普遍批评这种“默认开启”的做法,有人直接称其为“暗黑模式设计”。例如用户 burnhamup 表示: 邮件里让你关闭这个功能,但却没有提供直接跳转到设置页面的链接,这种设计很不友好。 另一位用户 inakarmacoma 指出,在 GitHub 的移动端应用中找不到关闭该设置的入口。在 Reddit 上,一条获得超过 1000 个赞的帖子也引发了讨论,用户担心用 AI 生成的代码再去训练模型,可能导致“模型退化”,而这类代码在 GitHub 仓库中的占比正在不断上升。此外,也有人质疑这个“选择退出”的开关是否具有真正的约束力。 这项政策还给使用个人版 Copilot 的组织带来了新的风险。有开发者指出,在组织中,个人用户通常并没有权利授权第三方使用公司源代码。但当前的退出机制是按“用户级别”而不是“组织级别”控制的,这意味着只要团队中有一个人没有关闭该选项,就可能通过 Copilot 的交互暴露公司内部代码。GitHub 在 FAQ 中对此做了一定说明:属于付费组织成员或外部协作者的用户,其交互数据不会被用于模型训练;同时,来自付费组织仓库的数据也不会被使用,无论用户使用的是哪种订阅。 一位 Reddit 用户 NeatRuin7406 从竞争角度提出了更宏观的看法,认为“是否退出”其实不是核心问题: 当你使用 Copilot 时,你不仅是在获取建议,也是在无形中教模型什么是你这个领域里的“好代码”。你的专有模式、架构决策、领域习惯和命名规范,都会被融入到一个通用模型中。这个模型随后会为所有人提供更好的建议——包括你的直接竞争对手。 还有评论指出可能存在 GDPR 合规风险,认为 GitHub 所声称的“合法利益”作为处理个人数据的法律依据,在欧盟法律下未必成立,因为在这种情况下,数据主体的权利和自由可能更应被优先考虑。 GitHub 在 FAQ 中也提到了与竞品的对比,表示微软、Anthropic 和 JetBrains 等公司也采用类似方式,利用用户交互数据来训练模型。用户可以随时在 Copilot 设置 中关闭“允许 GitHub 使用我的数据用于 AI 模型训练”这一选项。 促进软件开发及相关领域知识与创新的传播 关于我们 我要投稿 合作伙伴 加入我们 关注我们 联系我们 内容投稿:editors@geekbang.com 业务合作:hezuo@geekbang.com 反馈投诉:feedback@geekbang.com 加入我们:zhaopin@geekbang.com 联系电话:010-64738142 地址:北京市朝阳区望京北路9号2幢7层A701 InfoQ 近期会议 北京 · QCon 全球软件开发大会 2026.4.16-18 上海 · AICon 全球人工智能开发与应用大会 2026.6.26-27 全球 InfoQ InfoQ En InfoQ Jp InfoQ Fr InfoQ Br Copyright © 2026, Geekbang Technology Ltd. All rights reserved. 极客邦控股(北京)有限公司 | 京 ICP 备 16027448 号 - 5 京公网安备 11010502039052号 | 产品资质