为何 deepseek-v4-flash 思考过程都是英文

工具不变，项目不变，换 GLM/MiniMax/qwen 思考过程都是中文，而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了？

7 replies

accacc

6 days ago

你这不都自己有答案了么是不是想发一贴期望有更多往这个上面靠拢的答案切！ ε=(ο｀*)))

xiaofeilongyy555

6 days ago

有看过相关解释，1.大模型使用了海量的英文高质量数据，特别是代码、顶级论文都是英文； 2.大模型在思考时，其实并不是在单纯地使用某种人类语言，而是将各种语言转化为一种抽象的“概念向量”，也就是说思考过程是没有语言概念的，只有 token

kyro00000

6 days ago

人类的发展就是靠蒸馏前人啊，这是事实啊

yidinghe

6 days ago

@accacc 人凡是有疑问，自然带着猜测。但猜测是主观的，答案是客观的。你为什么觉得一个人有自己的猜测，就必然不会去寻求答案？这想法挺窄的。

6 days ago

相信后人的智慧，含金量进一步提升。

Nzelites

3 days ago

我这边 qwen 和 glm 也是英文思考系统提示词的问题吧

Nzelites

3 days ago

其实小米 xla 智驾提到了模型间沟通还是什么不使用自然语言而是模型的中间语言如果这个做法能套到现在的模型思考上说不定效率会更高