
1 beimenjun PRO 这是后训练的内容吧…… |
2 neteroster 3 days ago 这是在训练数据的提示词分布采样出来了,之前就在其他地方说过:平常采样一下回答,现在采样一个 instruction 怎么就这么那么大惊小怪... |
3 ethusdt 3 days ago 大概率幻觉,因为有人自部署的也出现。 |
4 106npo 3 days ago via Android 随机接龙罢了 |
5 JoeJoeJoe PRO @ @neteroster @ethusdt @106npo 可能确实是个 Bug, ![]() |
6 JoeJoeJoe PRO @JoeJoeJoe 我分了两个会话来测试, 首次会话是<think>的情况下, 会给一些像是有上下文的回答. 但是首次输入<xxx>就会清醒的回答, 再次<think>就能正确识别. 至于是不是其他用户的对话, 就不知道了, 能确认的是首次会话的<think>确实会触发一些非预期的响应. |
7 SilentOrFight 3 days ago L 站都讨论过了,不是 bug 。。。还 P0 |
8 codehz 3 days ago via Android deepseek 不是都用专门的 encoder 脚本了吗,想不通为啥不特殊处理一下这些 token ,避免用户输入的内容意外触发到模型的内部行为 |
9 neteroster 3 days ago @JoeJoeJoe 大模型都有一些 glitch token 和特殊边界情况下的异常行为这是众所周知了,比如 gpt 系列就是 “给主人留下些什么吧”:虽然不会引起 ds 这种采样提示词的行为,但本质上其实没啥区别,也不可能是其他用户的对话。 ds 这个问题大概是因为训练数据的一些格式问题导致 <think> 的语义出现了漂移,如果想见识更多这种奇怪的行为直接用开源的 base model 或者把 instruct model 的聊天模版乱改一通就行了 |
10 JoeJoeJoe PRO @neteroster @SilentOrFight @codehz @renfei @106npo @ethusdt @neteroster @beimenjun 专门去 L 站扒拉了扒拉, 很早之前确实有过讨论: https://linux.do/t/topic/2134002/30 https://linux.do/t/topic/2173198/2 ps: 不过我觉得这就是 Bug 啊, 不按预期返回结果不应该算是 Bug 吗, 求轻喷我, 我就实事求是的说. |
11 JoeJoeJoe PRO @neteroster #9 专业! |
12 dacapoday 3 days ago 这边都是老登,被 AI 淘汰的那种. |
13 Leeeeex PRO 有人测试过自己部署的 deepseek 也会有这种问题 所以不是事故,只是单纯的 bug |
14 ldcr1319 3 days ago 还没点进来就猜测是这个<think>的问题 |
15 jacketma 3 days ago 实锤!是不是随机泄露不好说,但是输入这个标签能直出结果让人看着不放心 |
16 zhuanggu 3 days ago gemini 一样的问题 |
17 MoonShot 3 days ago 不如问 DeepSeek 喜欢爸爸还是妈妈 |
18 SilentOrFight 3 days ago @dacapoday #12 确实,这边的老登玩 AI 还没 L 站的中学生猛 |
19 mqnu00 3 days ago |