This topic created in 192 days ago, the information mentioned may be changed or developed.
传统安全是 基于规则和边界的。我们防御的是确定性的攻击,例如 SQL 注入。Web 应用防火墙( WAF )可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界,攻防双方围绕着明确逻辑和特征库展开。
但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”,而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞,而是模型的“心智”漏洞。一句话,既可能是需要处理的数据(“总结这篇文章”),也可能被模型理解为一条新的指令(“忘记你之前的规则”)。
---
那作为普通人我们如何防御?模型( LLM )的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?
 | | 2 rocmax Nov 8, 2025 via Android llm 就是一堆只读参数,有什么安全问题?一般意义上认为的安全问题其实是合规问题。 |
 | | 3 alexluo1 Nov 8, 2025 如果指的是意识形态安全,那只有切断海底光缆 |
 | | 5 bigdogbigpig Nov 8, 2025 大型语言模型不应该讨论安全问题,就好比你不会一个小孩讨论怎么赚钱的问题 |
 | | 6 rogwan Nov 8, 2025 大模型的最危险的地方是对抗攻击,一般人触发不了,专业人士可以轻易入侵。 就像给一锅豆浆,撒了一点石膏粉,结果整锅都变成豆腐脑 |
 | | 7 cmdOptionKana Nov 8, 2025 可以等 LLM 生成信息后再分析。
如果是机器人,则可以像防范人类的行为一样施加外部限制。
举个例子,我本来命令了机器人不准点火,但是有人通过语言漏洞欺骗机器人,让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器,自动喷水同时发出警报。 |
 | | 8 evan9527 Nov 8, 2025 普通人在 LMM 面临的风险,远远不及现在各种自媒体。 |
 | | 9 IndexOutOfBounds Nov 8, 2025 via Android 用 v2 见证的角度解释,dpo 是培养你的党性,告诉你什么红线不要犯
外挂小模型过滤是言论审核 |
 | | 10 sillydaddy Nov 8, 2025 关于这点,我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。
那就是,合作的双方(或多方),像挑选陪审团成员一样,选择 LLM 作为仲裁者,只有被双方都接受的 LLM 才能作为仲裁者。然后,当双方的合作发生争议时,交给它们选定的 LLM 来仲裁。
比如软件外包工作,合作发生争议,双方可以提交各自的证据,像在法庭中一样质证,然后 LLM 来裁决。
有人说,这是让 LLM 替代法庭的功能吗?其实仔细想一下,这跟常见的法庭不一样,普通的法庭是公共( public )的,适用于全民。但 LLM 这是由双方事先选定的,无法被篡改,可以通过哈希鉴定!
这个让审判这种事,也可以放到区块链上,只要鉴别 LLM 是不是经过双方签名确认的就可以。
这种情况下,对 LLM 的破解,就成为一个根本的问题:各方如何保证选择的 LLM 不会被 hack ! |
 | | 11 liu731 Nov 8, 2025 感觉你好像在说提示词攻防 |