会不会有一天，我们不能再看懂 AI 的推理过程？

This topic created in 180 days ago, the information mentioned may be changed or developed.

Gemini 3 刚出来，就去 AI Studio 试了一下。留意到侧边参数栏里的 temperature 参数有一个提示：降低 temperature 会影响 Gemini 3 的推理能力。

这让我想起刚接触 AI 的时候就有的疑问：temperature 能够影响输出下一个词的随机性，调低这个值会让 AI 的输出更加的稳定和确定。但问题是，答案不一定在可能性最高的下一个词中啊？调低了会不会反而影响 AI 的智力和发挥呢？

甚至的，我们有任何理由相信我们人类的思维方式是最优的吗？为什么要让 AI 按图索骥般的模仿人类的推理方式呢？

想象一下这样的场景：

问：[一个极难的问题] AI 推理过程：3490jf09j3489ugehg8934g <- 人类无法阅读的随机字符 AI 答：[完全正确]

人类智力是否存在一个“生理极限”？我们人类再也不能理解 AI 的思维？

然后，我把上面的问题给了 Gemini 3 。

释然了。

temperature

reasoning

34 replies 2025-11-20 15:44:12 +08:00

HongJay

Nov 19, 2025

你是可以理解汇编的

codehz

Nov 19, 2025

那个推理过程之所以是人类能看懂的，是因为训练数据就是这样的啊。。。至于推理过程实际上对 llm 的作用，那其实并非你所看到的那样，很多时候只是单纯的给的 token“预算”多了，更有可能联系到正确答案而已（然后通过强化学习等方式加强这一倾向性）

xuhengjs

Nov 19, 2025

快了，等 AI 能自我优化的时候

Q980q48Jgj6pRXoO

PRO

Nov 19, 2025

我觉得这个问题的出发点原因之一是认为人聪明到可以理解一切，而这是盲目自大的想法

ruchee

Nov 19, 2025

会的。相对应于《计算机组成原理》，以后会有一门课程叫《 AI 运行原理》

malusama

Nov 19, 2025

现在下棋那些不就看不懂 AI 为什么这么下了。

chenglus

Nov 19, 2025

不用有一天，现在神经网络对于任何人来说都是个黑盒子

cmdOptionKana

Nov 19, 2025

围棋 AI ，人类不知道 AI 为什么那样下棋，最顶尖的人类棋手都无法完全理解，只能猜测和学习。

另外，关于这个问题 “我们有任何理由相信我们人类的思维方式是最优的吗？为什么要让 AI 按图索骥般的模仿人类的推理方式呢？”

也可以参考围棋 AI ，第一代 AlphaGo 通过学习人类棋谱来训练，但后续新版采用了另一种方法，完全不学习人类棋谱，而是让 AI 自己和自己对弈，结果水平更高。也就是说，人类棋谱（人类经验）会拖后腿。

WuSiYu

Nov 19, 2025

以文字形式进行 CoT 很难说是最高效的方法，是这种形式大概仅仅是这样的训练数据比较好构建。目前也有一些所谓“latent thinking”的设想，也就是使用人类不可读的 tensor 来更高效得作为“思考”的中间表示，不过目前还没有太成熟的工作
实际上 AI 的“原理”早就是黑箱了，只是目前 LLM 以文字形式进行的 CoT 给人了一种“看懂它思考过程”的假象

newtype0092

Nov 20, 2025

“但问题是，答案不一定在可能性最高的下一个词中啊？”

LLM 不是筛选出一个可能的答案列表来给你选，是在这个语言所有的单词的全集中根据可能性打分，你能推理出的下一个词一定在这个语言的全集里。

假设你模型的 token 表就是 [我，吃，喝，苹果，香蕉，面包，汽水]，想推理 [吃] 后面出现的词，也是还是对这七个词进行计算，而不是先筛选出 [苹果，香蕉]，再从里面选一个。

Temperature 低
最后结果的概率分布就可能是 [苹果 50%，香蕉 25%，面包 15%，汽水 5%，喝 3%，我 1%，吃 1%]
概率差异大，随机的结果就更容易命中前面的。

Temperature 高
最后结果的概率分布就可能是 [苹果 20%，香蕉 18%，面包 18%，汽水 16%，喝 13%，我 10%，吃 5%]
概率差异小，后面的低概率的答案更有可能被选中。

Q980q48Jgj6pRXoO

PRO

Nov 20, 2025

@newtype0092 现在的模型已经不是这一套玩法了，你在网上看的科普视频已经过时

apuslilie

Nov 20, 2025

AI 的进化突破了，自然人看不懂，或者说跟不上 AI 的智力我觉得很正常后果。
但是能不能进化成功，现在还是未知的。

shilyx

Nov 20, 2025

逻辑问题。

其实本来就看不懂，但为什么现在能看懂，那是因为 AI 用人类能看懂的方式来解释罢了
担心将来 AI 让人看不懂，其实是担心 AI 将来愈发强大
但愈发强大的 AI 在“让人看懂”这方面肯定也会功力越强

ShinichiYao

Nov 20, 2025

AI 大模型本来就是个黑箱，你只能控制进去的内容，根据出来的结果是不是符合预期，不符合就继续调黑箱的参数，至于黑箱里到底是怎么炼丹的程序员自己都不知道

BBrother

Nov 20, 2025

说的像是你现在就能看懂 ai 怎么推理的一样。

> 人类智力是否存在一个“生理极限”？

在牛顿那个时代只有顶级的科学家才理解微积分，现在是个高中生都能理解。

> 我们人类再也不能理解 AI 的思维？

我觉得不管多么复杂的推理过程都能通过分治法来理解。

cxe2v

Nov 20, 2025

@usn #11 那现在是什么新的原理，有没有新的科普链接，发一个来学习一下

xinyu391

Nov 20, 2025

现代的 AI 不都是概率问题吗？

elevioux

Nov 20, 2025

@BBrother 举个例子，有些狗很聪明，能听懂人类的简单指令，但你不可能让狗学会微积分，因为狗的大脑的生理构造如此，大脑皮层就这么多。

同理：有些人类很聪明，能够学会微积分，但你不可能让人类学会《 XXX 》，因为人类的大脑的生理结构如此，大脑皮层就这么多。

hr6r

Nov 20, 2025

应该会。
但不是会不会“看不懂”，而是会不会“不愿意去看”。
复杂性在一层一层地向上封装。

sillydaddy

Nov 20, 2025

我觉得对 LLM 的一个误解（或者说被误导），就是认为 LLM 是以词作为下一个拣选单位，认为它是在以一定的概率选择下一次词（ token ）。
为什么不能是以“意思”作为拣选单位呢？

用一个 v 友举的一个对话例子：
A：北京的糖葫芦是不是很有名？
B：没错！尤其是在冬天，街头的小贩会卖糖葫芦，山楂蘸上糖浆，酸甜可口。
A：真想买一个尝尝，感觉很有童年回忆！

在输入 “北京的糖葫芦是不是很有名？”之后，LLM 要回答肯定的意思的话，就有多种方式，“没错”，“不错”，“是的”，“对的”，“说的太对了”，“是呀”，“你猜对了”，“你怎么知道？”，LLM 可以以一定概率选择这些词里面的一个，那么第一个字，就可能是“没”，“不”，“是”，“对”，“说”，“你”这些里面中的任一个。但无论选择哪个，它都是为了表达肯定的意思，而是否表达肯定的意思，恰恰反映了 LLM 对这个问题的理解！不是说以一定概率选择某个词，就说明了 LLM 是随机的选择哪个，没有任何理解能力。否则，如果 LLM 是以词元作为选择的单位的话，怎么解释 LLM 在输出成千上万 token 之后，仍然没有偏离问题而出现意思上的胡言乱语呢。为什么你问他 100 遍，仍然只能得到相近的回答呢？

BBrother

Nov 20, 2025

@elevioux #18

你的想法忽略了科技发展可以提高人类智力上线的可能性。

然后你的类比不太正确，智人的大脑结构和现在的人类一样，如果人类的智力极限是大脑结构决定的，那么智人无法理解微积分 => 现代人无法理解微积分。

人脑是图灵完备的，如果 xxxx 能被人类的符号系统表达，那就能被人类理解。

理论上如果 ai 能通过计算理解并推理的问题，人类可以通过同样的方式进行计算，只不过会很慢。

如果你的 xxxx 是超出了人类符号系统的表达能力的问题，那答案是不知道。

或者你是想讨论「哥德尔不完备定理」之类的东西？

catazshadow

Nov 20, 2025

又在做 aritificial intelligence 是真的 intelligence 的梦了

newtype0092

Nov 20, 2025

@usn #11 这不是 Transformer 架构决定的么？你说的新玩法是指？

newtype0092

Nov 20, 2025

@sillydaddy 你这才是一种误解吧，LLM 的数学模型就是个概率模型，不存在对意思的逻辑判断。

长上下文没有偏离是因为 Attention 机制，早期的 RNN 模型上下文过长就是会有问题。

问他 100 遍，仍然只能得到相近的回答，是因为训练数据里的类似场景远超你说的 100 遍这个数量级。

newtype0092

Nov 20, 2025

@sillydaddy 如果按你说的要通过意思进行真正的逻辑推理，那想要知道糖葫芦是否有名，就需要对知道糖葫芦的人的数量进行大致的统计，或者从相关文献中寻找信息源，这种具体任务已经和 “Language Model” 这个概念完全没有关系了。

sillydaddy

Nov 20, 2025

@newtype0092 #24
「 LLM 的数学模型就是个概率模型，不存在对意思的逻辑判断」你的意思是 LLM 无法进行逻辑判断吗？
「长上下文没有偏离是因为 Attention 机制」，我反驳的是有人简单的认为 LLM 的概率，是对下一个 token 的概率选择！比如在糖葫芦的例子中，他们认为 LLM 就是在用概率在“没”，“不”，“是”，“对”，“说”，“你”这些字中选择下一个字，所以，他们认为 LLM 就是概率机器，没有理解。而恰恰是这个例子，说明了 LLM 是在对“北京的糖葫芦很有名”表达肯定的回答，无论它以概率选择哪个字，都是如此。

sillydaddy

Nov 20, 2025

@newtype0092
或者换个说法，当输入「北京的糖葫芦是不是很有名？」之后，模型回答的第一个字是「不」，然后，后续模型该选择什么呢？「不对」？「不是」？「不错」？后续字的选择是按照 LLM 的理解来选择的，而不是说此时「对」、「是」、「错」这 3 个字的概率分别是 1%，1%，98%。我敢说，「不」字后面「对」、「是」这 2 个字的概率，肯定是 0 ！

sillydaddy

Nov 20, 2025

@newtype0092 也就是说，对于「「北京的糖葫芦是不是很有名？」」这个问题，如果模型的第一个字是「不」，那么你试验 1 亿次，也得不到「不对」、「不是」这样的答案。

newtype0092

Nov 20, 2025

@BBrother @elevioux #21 不知道抽象能力算不算智力的一部分。

比如说最早的程序员是能看懂纸带上的二进制编码的，后来有了汇编以后很多从汇编开始学习的程序员可能就看不懂（不熟练）打孔纸带了，后面有了高级语言后大部分程序员也不懂汇编了，以后如果 vibe coding 越来越流行，可能程序员都不用会编程语言了。。。

抽象能力让人可以在基础概念里总结发明出高级概念，通过高级概念来处理更大数量级的基础概念。
现在花 2 分钟写一个几 k 的 hello world ，编译一个几 MB 的可执行文件，里面就是上千万个 bit ，放到以前给纸带上打孔都不知道要打多久。

这样一层层抽象下去，人脑在硬件不变，处理数据量不变的前提下，能控制的基础概念的量是指数级提升的。
比如司机一脚踩下油门/电门，无数的零部件都在严丝合缝的运作。
医生一针打下去，无数的化学反应、微生物状态变化都在发生。

如果这种抽象是可以无限扩展的，那么人脑就不会是硬件上的瓶颈。

iloveoovx

Nov 20, 2025

@sillydaddy 本来就是以“意思”为基本单元。各种分词的方式都是比较粗糙的尝试去找“意思”的“元素周期表”。
以一定的概率选择下一个词的确是一个非常浅薄粗糙的理解，但也不能说是错的。更深一点的理解就是向量计算路径在不停地去寻找下一个坐标，所谓的概率不过是概念离得出坐标距离的远近。就像国王-男人+女人=皇后/女王，这个等式在现实中并不存在，但人们都能理解其意义；这意味着所有概念之间都有被我们日常显意识忽略的隐含关系，而这个超越一般语言分辨率所能承载的隐含关系，被我们尝试用高维向量去进行编码供 LLM 使用。

newtype0092

Nov 20, 2025

@sillydaddy #27 你这个例子里，你说概率为 0 就完全没有道理啊，从原理上就不成立啊。
你要是认为概率是 0 ，起码应该给个理由为什么是 0 吧？

至于你说的实验 1 亿次，1 亿次也不多啊，小概率事件和不可能事件这两个概念的区别总该知道吧。

cxe2v

Nov 20, 2025

@iloveoovx 训练的知识库如果不包含你说的这个隐含的关系的化，LLM 基本只有随机出这个结果而不是肯定会出这个结果，说得再花里胡哨，本质上也是统计归纳并输出结果这一个原理

iloveoovx

Nov 20, 2025

@cxe2v 你这回复呢，真的只是为了抬杠而抬杠。“本质上也是统计归纳这一个原理” - 是啊，用这个理论一统天下可太方便了：梵高画画是颜料统计归纳，贝多芬作曲是音符统计归纳，哥德巴赫证明猜想是数字统计归纳……那你活着本质上也就是细胞统计归纳了一下分裂，恭喜你，成功把自己降级成单细胞生物。要说唯物主义还原论为什么是人间毒瘤呢，，这就是活生生的洗脑例子。你以为别人想不到你说的问题？ interpolation 和 extrapolation 的区别明白么？你如果潜意识觉得人 somehow 比这个高明，which i actually agree ，该做的不是在这里顺应着自己经历多年洗脑的默认懒惰向量把世界上最聪明的一拨人的尝试还原成“不过如此”的统计归纳来安慰自己，而是去寻找那个高明点到底是啥

cxe2v

Nov 20, 2025

@iloveoovx #33 所以你不就跟你所表现的那样，用一大堆东拼西凑或者自创的词语来描述一个已经存在很久东西，然后告诉世人，我这就是跟你原来的东西不一样，你东拉西扯用艺术跟 LLM 底层实现技术来类比，正好证明了你的无知，至于 interpolation / extrapolation ，现代模型的外推能力本质上仍来自对高维分布的学习，我才回了一句话你就像被踩了脚的猫一样跳起来，是否是你对这个事情实际上没有深入了解分析，而只是为了用对这些名词的了解来给自己贴上某些标签，好用于在网络上与别人展示