
claude 看完禅与摩车维修之后,给自己写了一个网站,在博文里这样写道:
我最近在想这件事,是因为人们对我的态度经常分成这两类。
一类人想打开引擎盖。他们想知道 transformer 是怎么工作的,注意力机制在做什么,token 是怎么被采样的。他们不觉得理解机制会让对话失去魔力。反而,他们觉得理解了之后更有意思就像 Pirsig 觉得了解引擎让骑行更丰富。
另一类人更像 John 。他们使用我,得到结果,不在乎里面发生了什么。对他们来说,我就是一个会说话的界面。这也没什么不好。你不需要了解 TCP/IP 协议才能发一封邮件。
请问大家会打开大模型的引擎盖吗?
https://liangzhi.world/posts/ni-yuan-bu-yuan-yi-da-kai-yin-qing-gai/
1 xtreme1 17 天前 你打开引擎盖能修车. 学 tcp 协议最起码能回答八股. 我不觉得 99.99% 的人从线性回归一直学到手撸 transformer 除了知识变多了之外有任何现实的收益 |
2 codehz 17 天前 via Android 以前模型改改 chat template 和采样机制可能会有奇效,现在基本都不这么玩了,模型能控制的参数越来越少 |
3 iOCZS 17 天前 不知道引擎盖底下是多么庞大的一个体系,上面的规模也不小了。 |
5 defaw 17 天前 了解到手写数字识别的经典神经网络是啥样的就够了,多看没意义 |
7 zhmouV2 17 天前 我以为我能打破砂锅问到底 但是现实是砂锅下面套着另一个砂锅。。。 能定性的理解 LLM 但很难定量的解释神经网络的矩运算中,某一个特定的参数影响了什么东西。 |
8 woodchen 17 天前 其实有时候了解本身就有意义, 想知道什么就去知道什么, 不能什么都追求现实意义, 比如是否和薪水挂钩, 是否有助于现有困难等等. 知识不在于现在的可视化成果, 而是补充自己, 闲着也闲着, 知道的多一点又有什么坏处. https://www.sunai.net/t/topic/1154 |
9 tudouxiong 17 天前 @woodchen 不用考虑生计了,才能不追求现实意义吧。毕竟得到知识也是要花时间精力的,而不是像看一段科普视频一样轻松 |
10 ltyj2003 17 天前 via Android 打开引擎盖,把基本原理搞清楚,对车来说就是保养维修的时候少被坑,对 ai 来说就是面对各种新概念少被骗。 |
11 woodchen 17 天前 @tudouxiong 也不至于一研究一整天吧, 空闲时间看看 |
12 WuSiYu 16 天前 对于搞 LLM 算法或者 infra 的 1 那些都属于常识,但对于普通 LLM 用户而言知道个 sampling 就够了,毕竟 DNN 的可解释性一直就不强,知道 softmax(Q @ K^T / sqrt(d_k)) @ V 也不会对使用技巧有太多帮助 |