大型语言模型（LLM）的安全问题，是工程问题，是算法问题，还是一个根本性的“哲学”问题？

This topic created in 192 days ago, the information mentioned may be changed or developed.

传统安全是基于规则和边界的。我们防御的是确定性的攻击，例如 SQL 注入。Web 应用防火墙（ WAF ）可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界，攻防双方围绕着明确逻辑和特征库展开。

但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”，而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞，而是模型的“心智”漏洞。一句话，既可能是需要处理的数据（“总结这篇文章”），也可能被模型理解为一条新的指令（“忘记你之前的规则”）。

---

那作为普通人我们如何防御？模型（ LLM ）的安全问题，是工程问题，是算法问题，还是一个根本性的“哲学”问题？

AI安全

语义攻击

模型漏洞

11 replies

Absofknglutely

Nov 8, 2025

普通人要防御的场景在哪? 能举个栗子吗

rocmax

Nov 8, 2025 via Android

llm 就是一堆只读参数，有什么安全问题？一般意义上认为的安全问题其实是合规问题。

alexluo1

Nov 8, 2025

如果指的是意识形态安全，那只有切断海底光缆

catazshadow

Nov 8, 2025 via Android

先定义你想讨论什么安全

bigdogbigpig

PRO

Nov 8, 2025

大型语言模型不应该讨论安全问题，就好比你不会一个小孩讨论怎么赚钱的问题

rogwan

Nov 8, 2025

大模型的最危险的地方是对抗攻击，一般人触发不了，专业人士可以轻易入侵。
就像给一锅豆浆，撒了一点石膏粉，结果整锅都变成豆腐脑

cmdOptionKana

Nov 8, 2025

可以等 LLM 生成信息后再分析。

如果是机器人，则可以像防范人类的行为一样施加外部限制。

举个例子，我本来命令了机器人不准点火，但是有人通过语言漏洞欺骗机器人，让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器，自动喷水同时发出警报。

evan9527

Nov 8, 2025

普通人在 LMM 面临的风险，远远不及现在各种自媒体。

IndexOutOfBounds

Nov 8, 2025 via Android

用 v2 见证的角度解释，dpo 是培养你的党性，告诉你什么红线不要犯

外挂小模型过滤是言论审核

sillydaddy

Nov 8, 2025

关于这点，我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。

那就是，合作的双方（或多方），像挑选陪审团成员一样，选择 LLM 作为仲裁者，只有被双方都接受的 LLM 才能作为仲裁者。然后，当双方的合作发生争议时，交给它们选定的 LLM 来仲裁。

比如软件外包工作，合作发生争议，双方可以提交各自的证据，像在法庭中一样质证，然后 LLM 来裁决。

有人说，这是让 LLM 替代法庭的功能吗？其实仔细想一下，这跟常见的法庭不一样，普通的法庭是公共（ public ）的，适用于全民。但 LLM 这是由双方事先选定的，无法被篡改，可以通过哈希鉴定！

这个让审判这种事，也可以放到区块链上，只要鉴别 LLM 是不是经过双方签名确认的就可以。

这种情况下，对 LLM 的破解，就成为一个根本的问题：各方如何保证选择的 LLM 不会被 hack ！

liu731

PRO

Nov 8, 2025

感觉你好像在说提示词攻防