这可能是下一个周经帖：国产大模型哪个编程能力最顶？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

如题，在不考虑价格的情况，目前国产大模型哪个编程能力最顶呢，以及各自的擅长领域,参赛的选手有：

GLM-4.6：说是 Claude Sonnet 4.5 和 GPT-5 ，但价格仅需要 Sonnet 1/7

Qwen3-Code：SWE-bench Live 测试中得分 54.7 ，超越 GPT-4.1 （ 48.6 ），中文 API 文档理解准确率达 92%

DeepSeek-V3.2-Exp：说是被 GLM4.6 超过，但在 Vercel 、Windsurf 等编程平台接入

MiniMax M2：每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ，专为 Agent 工作流设计

第 1 条附言 3 天前

简单总结下本周 PK 结果：

一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距，如果是奔着出活儿去的，就选择这三家模型，首推 Claude Opus ，缺点就是价格太高。

当然国产大模型也不是全军覆没

GLM-4.6 口碑不错，用来做调度还是小任务可以胜任，但是最近降智明显 @midsolo @defaw @vevlins @derek80

Qwen3-Coder 完成一些独立模块可用，写 Rust 感觉也写得不错 @Wh1t3zZ

DeepSeek-V3.2 做小修改，matlab 可以胜任 @veni2023 @yxc246800

kimi-for-coding

建议的工作方式：用 GPT Claude Gemini 给你出方案，让国产 llm 干活 @usVexMownCzar @brookegas

感谢各位大佬的反馈~

国产大模型

编程能力

擅长领域

69 条回复 2025-12-17 13:41:29 +08:00

courtier

3 天前

我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比，不然 Claude ，gpt ，gemini 不香吗

gorvey

3 天前

不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行

abc0123xyz

3 天前

GLM-4.6 不错，240 块的套餐，要是觉得不好，那肯定是我自己的问题（穷）

sunny352787

3 天前

我全测过一遍，结论是全是垃圾，不要在这上面浪费时间了，所谓的价格七分之一，但是你耗费的时间不只七倍，能力极差性价比极低，老老实实用 opus4.5 或者 gemini pro3 ，别的都是浪费生命

midsolo

3 天前

GLM-4.6 之前用起来还不错，但是在出了背刺包之后，用量太多了，总是莫名其妙的降智，严重影响体验

keshawnvan

3 天前

全是垃圾，别浪费时间。

ericguo

3 天前

kimi-for-coding 还行，49 元每周 1024 次调用

cleveryun

3 天前

好奇问一下，GLM 4.6 ，在 trae 和 iflow cli 里都有免费的，用这个和用 GLM coding plan 里的付费套餐，对应的是同样的大模型吗，网速上或者功能上有差异吗？

abc0123xyz

3 天前

刚出的时候最好，这个时候为了宣传，不怎么降智。

YanSeven

3 天前

干点小活儿是可以的，不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。

Saunak

3 天前

@sunny352787 sonnet4.5 呢？ opus4.5 有点太贵了。
gpt5codex 咋样？

livib

3 天前

还需要时间沉淀

stonedongdong

3天前

@midsolo #5 同感，之前用起来确实很不错，但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求，周六用 Sonnet 4.5 一天就搞定了

takanashisakura

3 天前

性价比一点的话，可以考虑 sota 模型（ claude ，gemini 这些）来进行系统设计，然后把需求拆分为小的功能点后，再让国产大模型来实现。

bronyakaka

3 天前

最近 kimi k2 、gml4.6 、minimax 一起用，降智问题确实存在

Feedmo

3 天前

@midsolo 背刺包好贴切的名字

seven777

3 天前

加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.

usVexMownCzar

3 天前 via iPhone

你可以用 GPT Claude Gemini 给你出方案，让国产 llm 去执行

usVexMownCzar

3 天前 via iPhone

还有 kimi 的 cli 工具，除了它自己的代码写的漂亮外，其他真就是垃圾，识别不了命令的/ 还是路径的/ ，无法识别图片。

furlxy

3 天前

这几个，实际用下来感觉都差不多

Wh1t3zZ

3 天前 via Android

Qwen3-Coder 我用来写一些独立的模块挺不错的，让他写完我再集成进自己的工程里，他写 Rust 感觉比我写得要好

NizumaEiji

3 天前

其他的没用过，glm 不怎么样。
最近试着拿他和 claude code 分析日志数据生成一份测试报告，80%的统计结果都是错误的，错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
这是我在花了 1.5 人日搞出来的东西，而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读，每次看这些东西都跟玩大家来找茬一样，需要在一堆垃圾中找出来到底哪里有问题，然后给它提出来等着它接下来再生成一堆垃圾。

bbao

3 天前

在做的各位都是垃圾

defaw

3 天前

glm 没问题，我目前写的六轴机器人的正逆解，属于非常偏门的网上找不到参考答案的程序，我描述清楚的情况下，glm 不开思考模式都能写的又快又好，这说明逻辑面上模型能力没有问题。
你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口，多思考自己是否真的给到了模型需要的信息，然后再来评价模型

maxwel1

3 天前

“不不不，请不要误会，我不是针对你，我是说在做的各位。。。“

LUCIFERorCHRIS

3 天前

@cleveryun 我理解就是服务商不一样，说直白点就是阉割版，比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧

craftsmanship

3 天前 via Android

@sunny352787 确实大模型这玩意只想用最强的用最少的次数搞定需求用垃圾的反复折腾改 prompt 重建 context 麻烦死了

derek80 &nbs;

3 天前

组合起来用，我用 glm4.6 写写文档，修修语法和测试问题。

veni2023

3 天前

ds 起码生产的 code 小修改下能跑起来

yxc246800

3 天前

我用 ds 写 matlab ，嘎嘎好使

randm

3 天前

Qoder 代码提示不行，但执行还可以的。

8355

3 天前

@sunny352787 太对了，当你在跟一个蠢的模型斗智斗勇半天的时候，再切换到一个聪明的模型一切都是顺理成章，得出结论就是这蠢东西根本没法用，我都用上 ai 了我还要写一堆东西来防止他出问题，整个就是本末倒置，白送都不用。

maix27

3 天前

It's a weekly question...

bs10081

3 天前

@Saunak 用 Claude Code 的，他自己切，plan mode 的候用 Opus ，其他候行用 Sonnet

icyalala

3 天前

直接御三家 GPT/Gemini/Claude 最近的一两代模型
本来 AI 就是拿来提效的，不要让 AI 反过来浪费你自己的时间

herun

3 天前 via Android

试过 kimi-k2 写前端，80%的情况下写的代码可用，不过有时候会不按要求来写代码，这时候切换到 Claude Sonnet ，一次提示就搞定了

momo31

3 天前

only chatgpt claude

vevlins

3 天前

日常工作主力开发 glm 4.6 超过两个月，没觉得 claude 有什么显著优势，我用 glm 做不好的任务交给 claude 也就那样。

mmdsun

3 天前 via iPhone

国产模型现在没那么差，GLM 还可以其他没有用过。

fcten

3 天前

用了一段时间 Qwen Code ，我的结论是完全可用。我自己把控架构，细节交给它。提效还是很明显的。

如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊，毕竟出了问题是我背锅不是 AI 背锅。

另外 Qwen Code 免费。让我花钱上班那是不可能的。

dreamkuo

3 天前

我全测过一遍，结论是全是垃圾，不要在这上面浪费时间了，所谓的价格七分之一，但是你耗费的时间不只七倍，能力极差性价比极低，老老实实用 opus4.5 或者 gemini pro3 ，别的都是浪费生命 ------------- 我认可这个观点

HaibaraDP

3 天前

别折磨自己了，用来编程一个都不行，就算免费它也得能干活才行

evilgod528

3 天前

@Saunak 日常主力就是 codex gpt5 ，sonnet 我感觉用下来没有 gpt5 质量好，gemini2.5pro 删过我项目心有余悸

streamrx

3 天前 via iPhone

都是垃圾。别浪费自己的时间

brookegas

3 天前

我现在的模式是，Claude Opus 4.5 给方案
Deepseek v3.2 执行

Minimax M2：刚开始我是它的粉丝，尤其是看到 openrouter 上它在 Cline 选用的模型里排前三，往往仅次于 Claude 家（现在又来了 Gemini 3pro ），这是老外每天真金白银投出来的，不过上次被它无声无息把我的文件删掉重写，所有的样式都按它的想法重改了以后，就不太敢用了。希望它的新版本改进些吧，我还会试用的！

Deepseek v3.2：12 月 1 日更新的这个版本运行得很好，速度飞快，而且实在太便宜了，便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比，Deepseek 简直是慈眉善目的大善人！它真正的缺点很少有人提到，就是上下文窗口从 1 月发布到 12 月都没有增长过，一直只有 128K ！导致我必须把任务拆细了喂给它，不能给整坨的，不过这样也好，保持了自己对整个代码的掌控感。

每次我想指责 Deepseek 的时候，看了它清一色的清北浙科南组成的开发团队名单，就讪讪地把话吞了回去，哈哈！