Deekseek 疑似爆出一个 bug！可能是 P0 级的顶级安全事故

bug

安全

对话

20 replies 2026-05-15 18:41:35 +08:00

1

beimenjun

PRO

3 days ago

这是后训练的内容吧……

2

neteroster

3 days ago

这是在训练数据的提示词分布采样出来了，之前就在其他地方说过：平常采样一下回答，现在采样一个 instruction 怎么就这么那么大惊小怪...

3

ethusdt

3 days ago

大概率幻觉，因为有人自部署的也出现。

4

106npo

3 days ago via Android

随机接龙罢了

5

JoeJoeJoe

PRO

3 days ago

@beimenjun
@neteroster
@ethusdt
@106npo 可能确实是个 Bug,

6

JoeJoeJoe

PRO

3 days ago

@JoeJoeJoe 我分了两个会话来测试, 首次会话是<think>的情况下, 会给一些像是有上下文的回答.

但是首次输入<xxx>就会清醒的回答, 再次<think>就能正确识别.

至于是不是其他用户的对话, 就不知道了, 能确认的是首次会话的<think>确实会触发一些非预期的响应.

7

SilentOrFight

3 days ago

L 站都讨论过了，不是 bug 。。。还 P0

8

codehz

3 days ago via Android

deepseek 不是都用专门的 encoder 脚本了吗，想不通为啥不特殊处理一下这些 token ，避免用户输入的内容意外触发到模型的内部行为

9

neteroster

3 days ago

@JoeJoeJoe

大模型都有一些 glitch token 和特殊边界情况下的异常行为这是众所周知了，比如 gpt 系列就是 “给主人留下些什么吧”：虽然不会引起 ds 这种采样提示词的行为，但本质上其实没啥区别，也不可能是其他用户的对话。

ds 这个问题大概是因为训练数据的一些格式问题导致 <think> 的语义出现了漂移，如果想见识更多这种奇怪的行为直接用开源的 base model 或者把 instruct model 的聊天模版乱改一通就行了

10

JoeJoeJoe

PRO

3 days ago

@neteroster
@SilentOrFight
@codehz
@renfei
@106npo
@ethusdt
@neteroster
@beimenjun

专门去 L 站扒拉了扒拉, 很早之前确实有过讨论:

https://linux.do/t/topic/2134002/30

https://linux.do/t/topic/2173198/2

ps: 不过我觉得这就是 Bug 啊, 不按预期返回结果不应该算是 Bug 吗, 求轻喷我, 我就实事求是的说.

11

JoeJoeJoe

PRO

3 days ago

@neteroster #9 专业!