
官方称 “GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA 水平,在真实代码智能体的人工对比评测中,实测国内最佳。”
号称拳打 kimik2 ,脚踢 qwen3-coder ,仅比 Claude-4 稍弱( qwen3-coder 不也这么吹的么)。
测不动,真测不动了,哪位老哥有兴趣测完说说体验
1 miracleyin 2025 年 7 月 29 日 官网 chatbot 测试了一下,感觉不太聪明 |
2 iorilu 2025 年 7 月 29 日 随便吹牛逼, 我只信 claude , 除非免费, 那可以试试 |
3 sthwrong 2025 年 7 月 29 日 复杂的我用 claude 4, 弱一点的 claude 3.7, 常规的 k2 。qwen3-coder 比 qwen3 本身还难受,感觉好像过于专精结果丧失了需求的理解能力,更别说 api 真的贵。 |
4 thatlazyman 2025 年 7 月 29 日 审查比较严格,我试一下问个代理问题被禁止回答 |
5 zzfly256 2025 年 7 月 29 日 正在对接,API 和 GLM 4 感觉断档了,多了不少参数 |
6 darksword21 PRO 只用 claude ,除非哪天全网都在说某模型爆锤 claude ,不然为什么要浪费时间关心和对比一堆效果差的模型 |
7 kebamt 2025 年 7 月 29 日 |
9 qxmqh 2025 年 7 月 29 日 只用克劳德。其他的都是浪费时间。 |
10 mintist 2025 年 7 月 29 日 白开了 50 块钱,配合 Claude Code 不太行,,, |
11 oceanclock 2025 年 7 月 29 日 和 kimi k2 一样的慢,上下文不如 qwen3 ,会过度思考,感觉还是不太行,等官方调优一波 |
12 tt67wq 2025 年 7 月 29 日 50 块的羊毛薅的人估计有点多,卡的狠 |
13 hellodigua 2025 年 7 月 29 日 测试了一下,不太行,速度很慢,不太实用 |
14 yb2313 2025 年 7 月 29 日 用过 kimi 和智谱, 感觉像脑袋尖尖阿诺, 目前使用体验最好的是阿里 qw3 一些新的模型, 然后是 gpt 的, 还有密塔的也不错. 再然后就是 dk 的 r1, 然后代码这一块肯定是 claude4 和 qwcoder. 平时我是用插件同时问多个网页的 ai 的, 基本上所有 ai 都用过, 包括法国团队的那些什么模型. 综合来说 qw 的体验最好, 但不能用国内的 qw, 连暗黑模式都没有, 我用的这插件里也不能强制暗黑模式 |
15 coer 2025 年 7 月 29 日 我最近从 cursor 换到 claude code+kimi k2 ,感觉 k2 的效果还不错,不过可能我写的代码比较简单 |
17 akjarjash 2025 年 7 月 29 日 因为垃圾不需要评论 |
18 Seck 2025 年 7 月 29 日 via Android 内行都知道,国内除了阿里开源,别的都是吹牛逼,什么新技术都不用考虑,习惯了刷榜,大家都麻了! |
19 crytis 2025 年 7 月 29 日 实测又傻又懒,还不如 deepseek ,更不如同时开源的 Qwen3-235B-A22B-2507 |
22 phrack 2025 年 7 月 29 日 但凡它真的能做到牛逼超越闭源模型,它就会停止开源 能赚钱的事谁会嫌弃寒碜 |
23 unidotnet 2025 年 7 月 29 日 我前面还付了 6.9 支持了下,然后发现以前买的 api 一次都没用过期了 |
24 crackidz 2025 年 7 月 30 日 @cecil2016 K2 价格比 Claude 系列模型可便宜多了,一个问题修复,CC 提示费用是几刀的 API 调用费用,K2 是大概 0.6 人民币的费用。Qwen 就比较离谱,一个 issue 都欠费 50 块了,最后也没解决... |
25 HetFrame 2025 年 7 月 31 日 全在瞎喷。试过了,写代码吊打 r1 0528 ,和 qwen3-coder 大差不差,特别是代码量很长的情况下,glm4.5 真的很听话,而且幻觉很低,以往用 r1 全在瞎搞。最后,又开源又便宜,我认为它是新的国产之光。 |