这可能是下一个周经帖:国产大模型哪个编程能力最顶? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kaesi0
V2EX    程序员

这可能是下一个周经帖:国产大模型哪个编程能力最顶?

  •  
  •   kaesi0 3 天前 5833 次点击

    如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:

    GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7

    Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%

    DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入

    MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计

    第 1 条附言    3 天前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    69 条回复    2025-12-17 13:41:29 +08:00
    courtier
        1
    courtier  
       3 天前
    我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
    gorvey
        2
    gorvey  
       3 天前
    不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
    abc0123xyz
        3
    abc0123xyz  
       3 天前
    GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
    sunny352787
        4
    sunny352787  
       3 天前   27
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
    midsolo
        5
    midsolo  
       3 天前
    GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
    keshawnvan
        6
    keshawnvan  
       3 天前   4
    全是垃圾,别浪费时间。
    ericguo
        7
    ericguo  
       3 天前   1
    kimi-for-coding 还行,49 元每周 1024 次调用
    cleveryun
        8
    cleveryun  
       3 天前
    好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
    abc0123xyz
        9
    abc0123xyz  
       3 天前
    刚出的时候最好,这个时候为了宣传,不怎么降智。
    YanSeven
        10
    YanSeven  
       3 天前
    干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
    Saunak
        11
    Saunak  
       3 天前
    @sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
    gpt5codex 咋样?
    livib
        12
    livib  
       3 天前
    还需要时间沉淀
    stonedongdong
        13
    stonedongdong  
       3天前
    @midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
    takanashisakura
        14
    takanashisakura  
       3 天前
    性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
    bronyakaka
        15
    bronyakaka  
       3 天前
    最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
    Feedmo
        16
    Feedmo  
       3 天前
    @midsolo 背刺包 好贴切的名字
    seven777
        17
    seven777  
       3 天前
    加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
    如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
    第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
    国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
    usVexMownCzar
        18
    usVexMownCzar  
       3 天前 via iPhone
    你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行
    usVexMownCzar
        19
    usVexMownCzar  
       3 天前 via iPhone
    还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
    furlxy
        20
    furlxy  
       3 天前
    这几个,实际用下来感觉都差不多
    Wh1t3zZ
        21
    Wh1t3zZ  
       3 天前 via Android
    Qwen3-Coder 我用来写一些独立的模块挺不错的,让他写完我再集成进自己的工程里,他写 Rust 感觉比我写得要好
    NizumaEiji
        22
    NizumaEiji  
       3 天前
    其他的没用过,glm 不怎么样。
    最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
    这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
    bbao
        23
    bbao  
       3 天前   1
    在做的各位都是垃圾
    defaw
        24
    defaw  
       3 天前
    glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
    你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
    maxwel1
        25
    maxwel1  
       3 天前   1
    “不不不,请不要误会,我不是针对你,我是说在做的各位。。。“
    LUCIFERorCHRIS
        26
    LUCIFERorCHRIS  
       3 天前
    @cleveryun 我理解就是服务商不一样,说直白点就是阉割版,比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧
    craftsmanship
        27
    craftsmanship  
       3 天前 via Android
    @sunny352787 确实 大模型这玩意只想用最强的 用最少的次数搞定需求 用垃圾的反复折腾 改 prompt 重建 context 麻烦死了
    derek80
        28
    derek80 &nbs;
       3 天前
    组合起来用,我用 glm4.6 写写文档,修修语法和测试问题。
    veni2023
        29
    veni2023  
       3 天前
    ds 起码生产的 code 小修改下能跑起来
    yxc246800
        30
    yxc246800  
       3 天前
    我用 ds 写 matlab ,嘎嘎好使
    randm
        31
    randm  
       3 天前
    Qoder 代码提示不行,但执行还可以的。
    8355
        32
    8355  
       3 天前   1
    @sunny352787 太对了,当你在跟一个蠢的模型斗智斗勇半天的时候,再切换到一个聪明的模型一切都是顺理成章,得出结论就是这蠢东西根本没法用,我都用上 ai 了我还要写一堆东西来防止他出问题,整个就是本末倒置,白送都不用。
    maix27
        33
    maix27  
       3 天前
    It's a weekly question...
    bs10081
        34
    bs10081  
       3 天前
    @Saunak 用 Claude Code 的,他自己切,plan mode 的候用 Opus ,其他候行用 Sonnet
    icyalala
        35
    icyalala  
       3 天前
    直接御三家 GPT/Gemini/Claude 最近的一两代模型
    本来 AI 就是拿来提效的,不要让 AI 反过来浪费你自己的时间
    herun
        36
    herun  
       3 天前 via Android
    试过 kimi-k2 写前端,80%的情况下写的代码可用,不过有时候会不按要求来写代码,这时候切换到 Claude Sonnet ,一次提示就搞定了
    momo31
        37
    momo31  
       3 天前
    only chatgpt claude
    vevlins
        38
    vevlins  
       3 天前
    日常工作主力开发 glm 4.6 超过两个月,没觉得 claude 有什么显著优势,我用 glm 做不好的任务交给 claude 也就那样。
    mmdsun
        39
    mmdsun  
       3 天前 via iPhone
    国产模型现在没那么差,GLM 还可以其他没有用过。
    fcten
        40
    fcten  
       3 天前
    用了一段时间 Qwen Code ,我的结论是完全可用。我自己把控架构,细节交给它。提效还是很明显的。

    如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊,毕竟出了问题是我背锅不是 AI 背锅。

    另外 Qwen Code 免费。让我花钱上班那是不可能的。
    dreamkuo
        41
    dreamkuo  
       3 天前
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命 ------------- 我认可这个观点
    HaibaraDP
        42
    HaibaraDP  
       3 天前
    别折磨自己了,用来编程一个都不行,就算免费它也得能干活才行
    evilgod528
        43
    evilgod528  
       3 天前
    @Saunak 日常主力就是 codex gpt5 ,sonnet 我感觉用下来没有 gpt5 质量好,gemini2.5pro 删过我项目心有余悸
    streamrx
        44
    streamrx  
       3 天前 via iPhone
    都是垃圾。别浪费自己的时间
    brookegas
        45
    brookegas  
       3 天前
    我现在的模式是,Claude Opus 4.5 给方案
    Deepseek v3.2 执行

    Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!

    Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。

    每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!
    gegeligegeligo
        46
    gegeligegeligo  
       3 天前 via Android
    @sunny352787 opus 还是太贵了,没必要,就用普通的 4.5 就行了
    kaesi0
        47
    kaesi0  
    OP
       3 天前
    @abc0123xyz 目前在用
    kaesi0
        48
    kaesi0  
    OP
       3 天前
    @sunny352787 这么绝对的么
    securityCoding
        49
    securityCoding  
       3 天前 via Android
    我在用企业版 cusor ,唯一真神是 opus 其次是 sonnet ,gpt5.2 跟 gemini3pro 都差点意思
    kaesi0
        50
    kaesi0  
    OP
       3 天前
    @cleveryun tare 和 iflow 给钱了啊
    kaesi0
        51
    kaesi0  
    OP
       3 天前
    kaesi0
        52
    kaesi0  
    OP
       3 天前
    @Wh1t3zZ 貌似运维的活也也干得好
    kaesi0
        53
    kaesi0  
    OP
       3 天前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    uuundefined
        54
    uuundefined  
       3 天前
    御三家降智了是垃圾, 国内的满智都是垃圾。。。一点点差异就会让误差越来越大, 啥时候真的能无视 token 的多 agent 互相协作监督才行
    linch97
        55
    linch97  
       3 天前
    @seven777 豆包排前面你认真的?国产模型编码能力前几位再怎么也排不到豆包啊
    wanghoi
        56
    wanghoi  
       2 天前
    你看 SWE-Bench Verified 排名就是了:
    排第一的大模型不是国外的,是国产:TRAE + Doubao-Seed-Code
    skuuhui
        57
    skuuhui  
       2 天前
    没有不行的模型,只有不行的人。1.不要相信任何网站上的实验室数据。2.针对模型调整合适的 ai coding 范式。3. transformer 架构的大模型一定是预测而不是真正“理解”。
    unco020511
        58
    unco020511  
       2 天前
    Qwen 吧,不过没用过国产模型来编程,没啥发言权
    edisonwong
        59
    edisonwong  
       2 天前
    gemini 是真神。让写了几个 ppt ,gemini 毫不夸张的说,我可以直接交上去,不用改。图片,文字都是上乘。qwen ,豆包啥玩意,生成的图片完全无法再 ppt 上使用,而且图片里带文字的错误的概率比 gemini 高多了
    neptuno
        60
    neptuno  
       2 天前
    不考虑价格的情况下,应该直接用国外大模型,套餐开到顶配
    kaesi0
        61
    kaesi0  
    OP
       2 天前
    @wanghoi 具体效果如何
    kaesi0
        62
    kaesi0  
    OP
       2 天前
    @edisonwong 图片这一块,gemini 目前是绝对领先了
    kaesi0
        63
    kaesi0  
    OP
       2 天前
    @neptuno 确实是,有朋友就这么用,oups 顶到用,就没有这么多烦恼
    catamaran
        64
    catamaran  
       2 天前
    @edisonwong 国外的模型能加中文吗?我试了下全是乱码
    edisonwong
        65
    edisonwong  
       2 天前
    @catamaran #64 不行
    Wkj1998
        66
    Wkj1998  
       2 天前 via Android
    不考虑价格的情况下还是支持 GPT 、Claude 。国内是能用,国外是好用
    chspy
        67
    chspy  
       1 天前
    国产主打的性价比,ds 、m2 这些用起来也没那么差,就是用的人多自然就会降点智,我的体感是拆分一些小任务走,准确度会高点。但说白了不管用国内国外最后都得自己把关,还没有能完全相信的。国产的话我是用 PPIO ,没什么阉割感,有需要的可以拿我的 WF34BQ 注册领试用。
    zxjxzj9
        68
    zxjxzj9  
       1 天前
    肯定是御三家最强。实际体验综合价格现在反而是被喷的最多的 openai 家最好,尤其是 5.2 一下上下文拉的超级大,很多时候可以不仅只是写代码,还能写那种非标准代码的自定义规则表达式,准确度比起之前的各种模型提升真的超大,真的是帮大忙了
    Gilfoyle26
        69
    Gilfoyle26  
       1 天前
    @sunny352787 #4 Big 胆!敢说国产大模型全是垃圾,此等逆天言论,难道 OP 就不怕天威降临吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1577 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 16:28 PVG 00:28 LAX 08:28 JFK 11:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86