有了 agent 这种范式之后,语言大模型就不会算错基本的计算题了 - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
Ericcccccccc

有了 agent 这种范式之后,语言大模型就不会算错基本的计算题了

  •  
  •   Ericcccccccc 2 days ago 2374 views

    以前都说 LLM 是推理下一个字符,所以有可能算错 10+11 这种最基本的计算题

    现在似乎不会了,agent 的逻辑之下,LLM 会发现这是一个计算题,所以会当场写一个脚本再来算,就不会算错了

    很多以前纯靠预测字符的方案难以解决的问题现在似乎都被解决了(至少不会再犯离谱的错误

    6 replies    2026-05-18 18:15:11 +08:00
    sentinelK
        1
    sentinelK  
       2 days ago
    1 、各家后训练的算法技巧提升了。导致最终输出更加贴合用户的需求。
    2 、AI 工具的能力逐渐丰满,让 LLM 不再是两眼一抹黑。

    当初有这个问题有很多个维度的理解。
    1 、为了占领市场(凸显效果好),各家都会有意的让模型随机性加大。
    2 、各家的工具都太粗糙,一开始连联网能力都没有。普通人根本没有能力提供给 LLM 合理的上下文。就像是你的女朋友跟你说“我的那个在哪里”,你怎么答都是错的。
    3 、模型预训练没形成范式,全靠大力出奇迹,没有基础认知这个概念。
    beyondstars
        2
    beyondstars  
       2 days ago
    接入一个 mathematica 的 skill/mcp 你甚至可以让 agent 准确无误地计算不定积分,只要 llm 足够聪明找得到正确的工具调用。
    ntdll
        3
    ntdll  
       2 days ago
    以我浅薄的理解,LLM 对于数据计算不正确,更多的原因可能是分词导致的。

    比如 1.0999 在分词的时候,有可能被分成

    1.0
    999

    两个 token
    xiliuya
        4
    xiliuya  
       1 day ago
    符号推理是比较古老的技术了,现在是神经网络,同一个输入并在种子不同时输出就不同
    XenoGear
        5
    XenoGear  
       11h 36m ago
    其实万变不离其宗,依然是 next token prediction ,只不过优秀的训练数据让模型能够分辨了
    coefu
        6
    coefu  
       8h 15m ago
    以前都说 LLM 是推理下一个字符,所以有可能算错 10+11 这种最基本的计算题。

    你说是就是?这个因果是你自己想当然定义的?先定义了一个错的 A ,反推出一个正确的 B 。
    About     Help     Advertise     Blog     API     FAQ     Solana     1100 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 18:31 PVG 02:31 LAX 11:31 JFK 14:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86