
1 thinszx 10 小时 32 分钟前 原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过,之后 chatgpt 是量变引起质变的验证,感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了 |
2 whoosy 10 小时 32 分钟前 大模型的调参对专门研究 LLM 算法的人,也像是一个黑盒,很多时候依赖经验主义和大量的实验探索。 |
4 cmdOptionKana 10 小时 28 分钟前 确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的,他们会认为 “哦,虽然我看不破,但反正就是你用了某种方法骗我,仅此而已”。LLM 也一样,有些人会感觉“反正你们是专家,你们把这个研究出来是应该的”,甚至还会嫌弃 LLM 太笨,鄙视一番。 |
5 maplezzz 10 小时 10 分钟前 我也觉得很神奇,能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数,通过用户的输入和这个函数以此来预测接下来的输出 |
6 DICK23 10 小时 5 分钟前 确实是长久的积累引起的质变。AI 概念很在就被提出了,昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博,确实挺震撼的 |
7 czkm1320 10 小时 3 分钟前 目前宇宙本质是数学来着,ai 一个字一个字根据概率和相关性往外输出文字,本质都是统计学,数学算法集大成 |
9 dog82 9 小时 51 分钟前 就是一个超级大型的矩阵,通过前向学习和反向传播使这个大矩阵更准确。 高等数学+线性代数就够了 |
10 risan 9 小时 42 分钟前 你可以了解一下“涌现”,会有自己的答案的 |
11 xtreme1 9 小时 38 分钟前 这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence. |
12 jonsmith 9 小时 26 分钟前 via Android AI 炼丹师,LLM 的内部逻辑是未解之谜。 |
13 meihuanyu88x 9 小时 26 分钟前 知道了原理以后,依旧会觉得它是魔法. |
14 sillydaddy 9 小时 9 分钟前 你不是一个人。即使是如杨立昆或辛顿这样的行业内专家,也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的:你把文字转为另一个空间的向量,这个向量表达了文字的各种 feature ,然后这个向量经过了 LLM 的复杂操作,输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。 可以看一下 3blue1brown 相关的科普视频,****几千万次****的播放量: &list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7 |
15 IndexOutOfBounds 8 小时 57 分钟前 @meihuanyu88x 这个同感,我自己撸了个玩具模型,过程中问了很多 Why ,依然不敢说有很透彻的了解,不过也正常可解释性目前也还只是研究方向 https://github.com/glidea/tinygpt |
16 ShinichiYao 8 小时 45 分钟前 你不需要知道大脑是怎么工作的,你只要照着上帝的设计把它通过电路模拟出来就行了 |
17 apkapb 8 小时 40 分钟前 我突然想到: 0-1 是最难的,现在 AI 已经过了 0-1 了,这会导致大量的企业投入巨量资金来研究,以后肯定会越来越好的。 |
18 TabGre 8 小时 40 分钟前 via iPhone @sillydaddy 地址好像不全 |
19 cmdOptionKana 8 小时 39 分钟前 via Android @ShinichiYao “上帝的设计”是指什么? |
20 LaurelHarmon 8 小时 20 分钟前 “原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。 真正一步一个脚印的基石是 AlexNet(2012 ,横空出世,证明了神经网络有用) word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车) Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新) Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形) ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献---> Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作) GPT-1 ( 2018 使用 Transformer 做生成,小有成就) GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变) 所以不仅仅量变引起质变,还是一步一个台阶走上来的 其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN ) |
21 thinszx 8 小时 20 分钟前 @YanSeven 我自己的理解是,从统计学的角度出发,深度学习模型拟合的是数据集的高维分布,我们可以假设不管模型大小,深度学习模型的权重都由很个不同分布的低维高斯分布构成,同样地,我认为人类对于世界的拟合也可以看作很多个高斯分布的复杂组合,即不管是语言、图像还是什么模态,都可以看做是人类对世界的 embedding ,大模型之所以能涌现,是因为输入的人类对世界的 embedding 足够多,因此帮助了大模型将自己的输入输出空间对齐到了人类对世界的拟合维度,你可以认为是因为大模型真的认识到了世界,所以才会出现涌现的现象,当然语言只是对世界的片面描述,这也是为什么李飞飞等人转向了世界模型,用机器人在真实世界的强化学习过程来帮助大模型真的认识世界 |
22 thinszx 8 小时 16 分钟前 @LaurelHarmon 我指的是最基本的先验后验的学习过程,理解和生成一个是学习分布一个主要是从学习后分布采样那肯定是不一样的,但我觉得不管是自监督强化学习最本质的贝叶斯出发的想法是不变的 |
23 forisra 8 小时 11 分钟前 虽然现在的大模型因为上下文问题和原始论文《 attention is all you need 》的那个模型已经天差地别,但在理解大模型上看关于这个论文解析也差不多了。 原始论文就没必要看了,这个论文表达不怎么样,可能是当时的谷歌工程师一直做 NLP 很多表达没有照顾其他领域的人。画的图也比较抽象。我觉得看李沐的论文解析,或者看看 3Blue1Brown 的视频理解都行: |
24 sillydaddy 8 小时 7 分钟前 @TabGre #18 我发的完整链接是 3blue1brown 的一个播放列表(关于机器学习的),不止包含上面那个视频,可惜链接被自动截断了,可以在 3blue1brown 频道的播放列表里面找到这个列表,包含了 7 ,8 个神经网络的视频,非常通俗易懂。 |
25 Rickkkkkkk 8 小时 4 分钟前 高维下空间稀疏,不会过拟合 |
26 zhanying 7 小时 47 分钟前 via Android 还有一个很神奇的思维实验,和 llm 原理勉强能靠上边,粘贴过来给大家看看: “中国脑是心灵哲学中的一个思想实验,探讨了如果每个中国人被要求使用电话或对讲机模拟大脑中一个神经元的动作,会发生什么情况。对讲机模拟连接神经元的轴突和树突。这会使中国人整体像大脑一样具有思想或意识吗?” |
27 visper 7 小时 9 分钟前 是啊,太神奇了。感觉就这么一个预测下一个 token, 在参数量上来后,竟然直接给涌现出这样的能力,遵循指令,写代码等。难以想象。 |
28 815377546 7 小时 7 分钟前 @sillydaddy #14 感谢分享 |
29 monway 6 小时 56 分钟前 @IndexOutOfBounds 好东西 |
30 lscho 6 小时 53 分钟前 @cmdOptionKana 神经元。。。LLM 的核心就是神经网络,结构都是参考人脑的神经元 |
31 sunice 6 小时 51 分钟前 @cmdOptionKana #19 自然选择 |
32 flyooh 5 小时 48 分钟前 可以读一下吴军写的《数学之美》上面讲得更基础。 |
33 henix 5 小时 17 分钟前 个人认为可以类比到输入法,输入法也是在预测“你前面说了这些,然后最可能说什么” |
34 chenY520 4 小时 32 分钟前 @IndexOutOfBounds 什么配置可以玩这个? |
35 IndexOutOfBounds 4 小时 26 分钟前 @chenY520 我是 mac mini m4 ,内存占用不大,理论都能跑时间长短而已 |
36 lifei6671 4 小时 19 分钟前 训练 AI 模型并不是“把知识塞进机器”,而是“让机器学会规律”。 模型文件中不存储事实,而是存储事实之间的结构性相似与概率模式。 它不能“知道”,但能模拟知道。 它没有“理解”,但能逼真地产生理解的表现。 当你与 AI 对话时,你看到的是: 一台高维函数机器,在数学空间里对语言的概率进行实时采样。 这既是它的局限,也是它的奇迹。 |
37 chenY520 4 小时 12 分钟前 @IndexOutOfBounds #35 我用 N 卡跑的话,大概要多少显存资源 |
38 kevan 4 小时 9 分钟前 推理确实神奇。游戏里的 Transformer 更 NB |
39 kevan 4 小时 5 分钟前 |
40 IndexOutOfBounds 3 小时 58 分钟前 @chenY520 #37 3060 应该就行,可以先试试,运行时会预估训练时间 如果太长,可以尝试减少模型参数,反正补全句子有基本语法结构就差不多,不用追求效果,主要是学原理 |
41 chenY520 3 小时 48 分钟前 @IndexOutOfBounds #40 好的感谢大佬,fork 项目学习一下 ![]() |
42 cocong 3 小时 44 分钟前 正常,人脑为何能诞生智能都是未解之谜 |
43 pipi32167 3 小时 35 分钟前 如果不追究细节,理解这一点就够了:只要参数足够多,训练得当,就能拟合世间万事万物。 |
44 zerovoid 3 小时 0 分钟前 确实很神奇 |
46 AoEiuV020JP 2 小时 31 分钟前 同感, 关键是这种感觉是大概 22 年 chatGpt 横空出世才有的, 而在 chatGpt 之前就已经有这种技术了,或者说人工智能深度学习神经网络一直都是这样的东西, 但是到了 chatGpt 突然炸了,和以前完全是一个天一个地,第一次真的能像个人一样交流了,虽然这个”人“有点傻,有点轴, 但感觉就是量变引起质变, |