新手问问大佬们， AI IDE 或大模型数据安全问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

虽然很多他们写的隐私告知代码会参与训练或不训练，那么完整代码泄露风险有多大？有这个被爆出来的案例吗？

第 1 条附言 7 天前

如果拿去训练代码，那我一个大项目的完代码是完完整整会被上传？还是使用的单文件代码被上传，还是说部分代码片段被其他使用？
如果大模型使用数据后，是作为模型原数据，会再次加工后使用，还是直接原始代码去匹配模型给其他人调用？
可能我说的比较模糊，就是说我的私有代码（大面积）会有可能一模一样被其他人使用到？

IDE

隐私

31 条回复 2025-12-18 14:59:49 +08:00

NxxRngjnbgj

7 天前

v 站用户向来以隐私强著称，但唯独在 ai 写代码这事情上，好像他们根本不在乎隐私，公司的代码随手就给了，不过也可以理解，又不是自己的东西，泄露了关我屁事，但是自己项目，他们也这样，另外最近有一个词叫 vibe coding ，可以说最近论坛非常 vibe 了，各种流水账产品，短时间内就给你写出来，然后分享到论坛，用他们的说法叫广撒网，看看有没有能火的，火了再考虑后续的运营，至于隐私是什么，那不重要。
=============================================
回到你的问题，你都把代码发人家了，你就剩一件事情可以考虑了，那就是因此带来的后果你能不能承受就行，想那么多干嘛。
=============================================
另外，curd 的代码，有很大价值吗，什么时候 ai 才能帮我写外挂啊

kneo

7 天前 via Android

风险很大，但是被你发现的概率不大。无所谓的。

cakera1ter

7 天前

用别怕，怕别用，公司领导都不在乎，你管泄漏不泄漏

corcre

7 天前

我一直在想有没有一种可能，公司不提供 AI 工具，但是打工人自己用，等领导想解雇你的时候只要拿到你使用 AI 的证据就能指控你违反了保密协议不需要给赔偿就能解雇员工

M1234

7 天前 via iPhone

同有疑问，前两天看了 qoder 的隐私协议，免费版本明确写了会使用上下文代码做训练，就有点不敢在公司项目中用了。印象中 trae 也会，估计要隐私就要付费版本。

Vaspike

7 天前

大多数项目的代码的价值要结合业务才能体现的, 或者说, 一个项目代码的保密性如果真的已达到断网或审查的程度, 公司 99%会规定项目内 AI 编程的红线或者工作电脑上 IT 管控

总结下我的观点就是,很多项目只拿到代码并没什么关系的

uNoBrain

7 天前

安全排名：
1. 自部署 AI
2. AI 大厂的开发工具如 codex 、cc 、antigravity 等
3. 使用量较大的开发工具/AI 大模型，如 cursor ，cc+glm ，cc+deepseek 等
4. 一般大厂的开发工具或者是出名的中转站，如 trae ，kiro ，qoder ，openrouter
5. 野鸡中转站

zzxCNCZ

7 天前

cursor 这种默认配置了忽略环境文件，但目前通过调用 cli 工具也可以查看内容

ssssiiiirren

7 天前

业务代码真的有什么价值吗？有价值的是业务本身。

YanSeven

7 天前

有些朋友还是逻辑跳跃了。

你泄露的代码有没有价值是一回事儿，AI 会不会泄露是另外一回事儿。

我的主观判断就是，所有的 AI 都会泄露你的代码，这里的泄露是指用你的对话做训练。从国外三巨头到国内三巨头，我都如此坚信。

ggzhyipeng

7 天前

代码有没有价值是一回事儿，会不会对你进行追责是另一回事

charles0

7 天前 via iPhone

你就当作会泄露吧，不想泄露数据的话可以本地部署（注：可以在云服务器上本地部署）

charles0

7 天前 via iPhone

@NxxRngjnbgj 因为很多人并不把代码当作隐私，真正的隐私是日常消费记录、购买倾向、照片和文件、输入法词库等等

hello267015

7 天前

泄露代码和将代码用于模型训练是两回事

ai 收集到的代码都是碎片化的，可能是几行，几个类文件，就算极端情况下要将整个项目库作为 context 发给 ai ，但到了 ai 模型算法内部，这些代码都转成了一些毫无业务意义的 tokens ，从原理上来说 ai 就没有完整泄露代码的机制....

但是将代码用于模型训练几乎是每个 CodeAgent 都会做的事情吧，你会在意 AI 借鉴、学习你的代码么，在意的话就不建议用 AI ，我是不 care...

sn0wdr1am

7 天前

会有安全问题。

如果公司有自己规定的，自己部署的 AI ，就用这个。
如果公司有规定不能乱用 AI ，就不要用外面的 AI 。

自己的代码，无所谓用什么 AI 。
公司的代码，你不要任性，要尊重公司规定。

changwei

7 天前

我也好奇过这个问题

但是在使用 Copilot 时有看到他们官网说明： https://docs.github.com/en/copilot/reference/ai-models/model-hosting#openai-models

比如 OpenAI 有写：OpenAI makes the following data commitment: We [OpenAI] *do not train models on customer business data*. Data processing follows OpenAI's enterprise privacy comments.

他说不会用客户数据来 [训练模型] ，但是这句话的含义似乎并不代表他们不会收集数据来做其他用途？如果你是大公司的话，可以请教你们公司的律师和法务看看？！

7 天前

@NxxRngjnbgj #1 ，这是数据安全，不是算是隐私问题。主要是使用 AI Coding 造成的合规隐患。

----
作为回答就是会，自己很早期使用 Github Coiplot 的时候就完整补全出来了一段 juejin.cn 的文章链接出来……

gongym

7 天前

@94 所谓的 ** juejin.cn 的文章链接 ** 应该是公开数据吧，不符合 OP 提到的场景

7 天前

@gongym #18 ，具体就不清楚了，完整 URL 复制出来又从 github 上面搜不到，就很奇怪。
在写具体业务函数的 JSDoc 的时候突然补全出来一大堆文案里面就带了链接，我同事都快笑死了……

connor123

7 天前

一帮写业务代码的，为什么觉得业务代码是机密啊？
你做的项目是火箭回收吗？

在我看来，写业务代码的不需要操心是否泄密，把业务实现就行了。

hbprotoss

7 天前

@connor123 火箭回收也不怕代码泄露，换个火箭就跑不了

jjwjiang

7 天前

@94 从原理上说，它只是模仿了 juejin 的链接而已…

7 天前

@jjwjiang #22 ，从 LLM 原理的理解来说是这样的。
但是这个生成的注释块很稳定。当时尝试了几次生成的都是同一个内容。按道理上下文变了生成的应该是不一样的。即使高度类似，生成的“假 URL”也不可能完全一样。

7 天前

@connor123 #20 ，因为企业裁员的时候可能利用 AI 辅助编程来作为“泄密”的理由来进行无赔偿辞退。如果企业没有明确落实到文字形式的允许信息就会有合规问题。

但这个理解是有偏差的。很多像 OP 这样的没有意识到，单纯只觉得代码才是重要的，但关键点并不是在代码上，而是在行为上。

connor123

7 天前

@94 #24 有没有可能是公司就是想裁你，故意找个理由？当决定裁你的那一刻，你连拉屎超过五分钟都能作为理由，不是吗？

7 天前

@connor123 #25 ，裁员是有补偿的，而严重违规是没有补偿的。

lixuda

7 天前

@94 主要先讨论数据安全问题，至于有没有价值另说了。

7 天前

@lixuda #27 ，需要看你使用的 AI 工具的具体隐私条款，但是一般都会有一个开关，我拿 Github Copilot 来举例。

> 如果拿去训练代码，那我一个大项目的完代码是完完整整会被上传？还是使用的单文件代码被上传，还是说部分代码片段被其他使用？
1. 直接的代码仓库形式的泄露。明确不会，除非你是在 Github 中的公开仓库；
2. Coding 中的自动补全代码块生成以及对话中的上下文和提示词。会，看你怎么提供的上下文，以及是否勾选了允许改进的开关。https://copilot.github.trust.page/faq

> 如果大模型使用数据后，是作为模型原数据，会再次加工后使用，还是直接原始代码去匹配模型给其他人调用？
1. 加工后的数据在匿名化之后用于模型训练，但是没有提及如何使用 https://github.com/customer-terms/github-data-protection-agreement
基于历史新闻，直接以原始代码的可能性是有的，但是会有一个 [suggestions matching public code]( https://docs.github.com/en/copilot/how-tos/manage-your-account/manage-policies#enabling-or-disabling-suggestions-matching-public-code) 的场景，所以并不确定是哪一种形式提供的完整代码块。

wahaha3010

7 天前

@NxxRngjnbgj 因为这根本就不是问题，现在随便一个中大厂互联网公司都会采购 copilot 或者 cursor 这种外部 ai 工具给员工用的。

chspy

6 天前

我感觉几乎所有都会拿你的代码去训练自己的模型的吧，但这个泄露应该不会是直接把整个给你秃噜出去，但是说白了这个代码如果有很大的保密的价值的话，也不会让你们 vibe coding 吧。特别注重安全的话就自部署吧。

MindMindMax

6 天前

怕的不是代码泄露，怕的是无良供应商定位代码到具体公司+业务产品+核心算法，针对性的窃取情报。

新手问问大佬们， AI IDE 或 大模型数据安全问题

新手问问大佬们， AI IDE 或大模型数据安全问题