关于大模型原理的感叹 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴AI 生成的内容
YanSeven
V2EX    程序员

关于大模型原理的感叹

  •  
  •   YanSeven 10 小时 38 分钟前 5717 次点击
    有时候使用 LLM ,对于其输出,尽管看了一下科普,了解一点什么“本质上是知识压缩”,“预测下一个 token”,“概率”等等。

    但是仍然觉得很神奇,大语言模型这个东西在我的感性上,觉得比图像大模型和视频大模型神奇多了。

    可能就像“不会数理化,觉得什么都是魔法”一样。我不知道大模型的具体的内部逻辑。

    真的是看着它的输出,觉得有点神奇。
    46 条回复    2025-11-24 18:27:50 +08:00
    thinszx
        1
    thinszx  
       10 小时 32 分钟前
    原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过,之后 chatgpt 是量变引起质变的验证,感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了
    whoosy
        2
    whoosy  
       10 小时 32 分钟前
    大模型的调参对专门研究 LLM 算法的人,也像是一个黑盒,很多时候依赖经验主义和大量的实验探索。
    YanSeven
        3
    YanSeven  
    OP
       10 小时 28 分钟前
    @thinszx 这里说的“量变”到“质变”说的是“涌现”吗。但是,仍然比较好奇,怎么就涌现了,为什么会涌现。
    cmdOptionKana
        4
    cmdOptionKana  
       10 小时 28 分钟前   1
    确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的,他们会认为 “哦,虽然我看不破,但反正就是你用了某种方法骗我,仅此而已”。LLM 也一样,有些人会感觉“反正你们是专家,你们把这个研究出来是应该的”,甚至还会嫌弃 LLM 太笨,鄙视一番。
    maplezzz
        5
    maplezzz  
       10 小时 10 分钟前
    我也觉得很神奇,能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数,通过用户的输入和这个函数以此来预测接下来的输出
    DICK23
        6
    DICK23  
       10 小时 5 分钟前
    确实是长久的积累引起的质变。AI 概念很在就被提出了,昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博,确实挺震撼的
    czkm1320
        7
    czkm1320  
       10 小时 3 分钟前
    目前宇宙本质是数学来着,ai 一个字一个字根据概率和相关性往外输出文字,本质都是统计学,数学算法集大成
    nno
        8
    nno  
       10 小时 0 分钟前
    @YanSeven
    还找不到真正原因。都是些猜测,比如系统论的猜测:系统复杂性上来之后就会带来新的特性
    而且说是涌现,但和真实智能还是有差距的;
    dog82
        9
    dog82  
       9 小时 51 分钟前
    就是一个超级大型的矩阵,通过前向学习和反向传播使这个大矩阵更准确。
    高等数学+线性代数就够了
    risan
        10
    risan  
       9 小时 42 分钟前
    你可以了解一下“涌现”,会有自己的答案的
    xtreme1
        11
    xtreme1  
       9 小时 38 分钟前
    这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence.
    jonsmith
        12
    jonsmith  
       9 小时 26 分钟前 via Android
    AI 炼丹师,LLM 的内部逻辑是未解之谜。
    meihuanyu88x
        13
    meihuanyu88x  
       9 小时 26 分钟前
    知道了原理以后,依旧会觉得它是魔法.
    sillydaddy
        14
    sillydaddy  
       9 小时 9 分钟前
    你不是一个人。即使是如杨立昆或辛顿这样的行业内专家,也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的:你把文字转为另一个空间的向量,这个向量表达了文字的各种 feature ,然后这个向量经过了 LLM 的复杂操作,输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。

    可以看一下 3blue1brown 相关的科普视频,****几千万次****的播放量:
    &list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7
    IndexOutOfBounds
        15
    IndexOutOfBounds  
       8 小时 57 分钟前
    @meihuanyu88x 这个同感,我自己撸了个玩具模型,过程中问了很多 Why ,依然不敢说有很透彻的了解,不过也正常可解释性目前也还只是研究方向

    https://github.com/glidea/tinygpt
    ShinichiYao
        16
    ShinichiYao  
       8 小时 45 分钟前
    你不需要知道大脑是怎么工作的,你只要照着上帝的设计把它通过电路模拟出来就行了
    apkapb
        17
    apkapb  
       8 小时 40 分钟前
    我突然想到:

    0-1 是最难的,现在 AI 已经过了 0-1 了,这会导致大量的企业投入巨量资金来研究,以后肯定会越来越好的。
    TabGre
        18
    TabGre  
       8 小时 40 分钟前 via iPhone
    @sillydaddy 地址好像不全
    cmdOptionKana
        19
    cmdOptionKana  
       8 小时 39 分钟前 via Android
    @ShinichiYao “上帝的设计”是指什么?
    LaurelHarmon
        20
    LaurelHarmon  
       8 小时 20 分钟前   7
    “原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。

    真正一步一个脚印的基石是
    AlexNet(2012 ,横空出世,证明了神经网络有用)
    word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车)
    Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新)
    Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形)
    ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
    Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作)
    GPT-1 ( 2018 使用 Transformer 做生成,小有成就)
    GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变)
    所以不仅仅量变引起质变,还是一步一个台阶走上来的
    其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN )
    thinszx
        21
    thinszx  
       8 小时 20 分钟前
    @YanSeven 我自己的理解是,从统计学的角度出发,深度学习模型拟合的是数据集的高维分布,我们可以假设不管模型大小,深度学习模型的权重都由很个不同分布的低维高斯分布构成,同样地,我认为人类对于世界的拟合也可以看作很多个高斯分布的复杂组合,即不管是语言、图像还是什么模态,都可以看做是人类对世界的 embedding ,大模型之所以能涌现,是因为输入的人类对世界的 embedding 足够多,因此帮助了大模型将自己的输入输出空间对齐到了人类对世界的拟合维度,你可以认为是因为大模型真的认识到了世界,所以才会出现涌现的现象,当然语言只是对世界的片面描述,这也是为什么李飞飞等人转向了世界模型,用机器人在真实世界的强化学习过程来帮助大模型真的认识世界
    thinszx
        22
    thinszx  
       8 小时 16 分钟前
    @LaurelHarmon 我指的是最基本的先验后验的学习过程,理解和生成一个是学习分布一个主要是从学习后分布采样那肯定是不一样的,但我觉得不管是自监督强化学习最本质的贝叶斯出发的想法是不变的
    forisra
        23
    forisra  
       8 小时 11 分钟前
    虽然现在的大模型因为上下文问题和原始论文《 attention is all you need 》的那个模型已经天差地别,但在理解大模型上看关于这个论文解析也差不多了。

    原始论文就没必要看了,这个论文表达不怎么样,可能是当时的谷歌工程师一直做 NLP 很多表达没有照顾其他领域的人。画的图也比较抽象。我觉得看李沐的论文解析,或者看看 3Blue1Brown 的视频理解都行:
    sillydaddy
        24
    sillydaddy  
       8 小时 7 分钟前
    @TabGre #18 我发的完整链接是 3blue1brown 的一个播放列表(关于机器学习的),不止包含上面那个视频,可惜链接被自动截断了,可以在 3blue1brown 频道的播放列表里面找到这个列表,包含了 7 ,8 个神经网络的视频,非常通俗易懂。
    Rickkkkkkk
        25
    Rickkkkkkk  
       8 小时 4 分钟前
    高维下空间稀疏,不会过拟合
    zhanying
        26
    zhanying  
       7 小时 47 分钟前 via Android
    还有一个很神奇的思维实验,和 llm 原理勉强能靠上边,粘贴过来给大家看看:


    “中国脑是心灵哲学中的一个思想实验,探讨了如果每个中国人被要求使用电话或对讲机模拟大脑中一个神经元的动作,会发生什么情况。对讲机模拟连接神经元的轴突和树突。这会使中国人整体像大脑一样具有思想或意识吗?”
    visper
        27
    visper  
       7 小时 9 分钟前
    是啊,太神奇了。感觉就这么一个预测下一个 token, 在参数量上来后,竟然直接给涌现出这样的能力,遵循指令,写代码等。难以想象。
    815377546
        28
    815377546  
       7 小时 7 分钟前
    @sillydaddy #14 感谢分享
    monway
        29
    monway  
       6 小时 56 分钟前
    @IndexOutOfBounds 好东西
    lscho
        30
    lscho  
       6 小时 53 分钟前
    @cmdOptionKana 神经元。。。LLM 的核心就是神经网络,结构都是参考人脑的神经元
    sunice
        31
    sunice  
       6 小时 51 分钟前
    @cmdOptionKana #19 自然选择
    flyooh
        32
    flyooh  
       5 小时 48 分钟前
    可以读一下吴军写的《数学之美》上面讲得更基础。
    henix
        33
    henix  
       5 小时 17 分钟前   1
    个人认为可以类比到输入法,输入法也是在预测“你前面说了这些,然后最可能说什么”
    chenY520
        34
    chenY520  
       4 小时 32 分钟前
    @IndexOutOfBounds 什么配置可以玩这个?
    IndexOutOfBounds
        35
    IndexOutOfBounds  
       4 小时 26 分钟前
    @chenY520 我是 mac mini m4 ,内存占用不大,理论都能跑时间长短而已
    lifei6671
        36
    lifei6671  
       4 小时 19 分钟前   1
    训练 AI 模型并不是“把知识塞进机器”,而是“让机器学会规律”。
    模型文件中不存储事实,而是存储事实之间的结构性相似与概率模式。
    它不能“知道”,但能模拟知道。
    它没有“理解”,但能逼真地产生理解的表现。
    当你与 AI 对话时,你看到的是:
    一台高维函数机器,在数学空间里对语言的概率进行实时采样。
    这既是它的局限,也是它的奇迹。
    chenY520
        37
    chenY520  
       4 小时 12 分钟前
    @IndexOutOfBounds #35 我用 N 卡跑的话,大概要多少显存资源
    kevan
        38
    kevan  
       4 小时 9 分钟前
    推理确实神奇。游戏里的 Transformer 更 NB
    kevan
        39
    kevan  
       4 小时 5 分钟前
    IndexOutOfBounds
        40
    IndexOutOfBounds  
       3 小时 58 分钟前
    @chenY520 #37 3060 应该就行,可以先试试,运行时会预估训练时间
    如果太长,可以尝试减少模型参数,反正补全句子有基本语法结构就差不多,不用追求效果,主要是学原理
    chenY520
        41
    chenY520  
       3 小时 48 分钟前
    @IndexOutOfBounds #40 好的感谢大佬,fork 项目学习一下
    cocong
        42
    cocong  
       3 小时 44 分钟前
    正常,人脑为何能诞生智能都是未解之谜
    pipi32167
        43
    pipi32167  
       3 小时 35 分钟前
    如果不追究细节,理解这一点就够了:只要参数足够多,训练得当,就能拟合世间万事万物。
    zerovoid
        44
    zerovoid  
       3 小时 0 分钟前
    确实很神奇
    Enivel
        45
    Enivel  
       2 小时 53 分钟前
    @zhanying 会, 本质上就是蜂群思维, 个体间相互影响产生了群体意识
    AoEiuV020JP
        46
    AoEiuV020JP  
       2 小时 31 分钟前
    同感, 关键是这种感觉是大概 22 年 chatGpt 横空出世才有的,
    而在 chatGpt 之前就已经有这种技术了,或者说人工智能深度学习神经网络一直都是这样的东西, 但是到了 chatGpt 突然炸了,和以前完全是一个天一个地,第一次真的能像个人一样交流了,虽然这个”人“有点傻,有点轴, 但感觉就是量变引起质变,
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3020 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 12:59 PVG 20:59 LAX 04:59 JFK 07:59
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86