吐槽下,感觉国产模型/Agent 不靠谱 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
asd999cxcx
V2EX    程序员

吐槽下,感觉国产模型/Agent 不靠谱

  asd999cxcx 2025 年 12 月 17 日 4164 次点击
这是一个创建于 74 天前的主题,其中的信息可能已经有所发展或是发生改变。
我们现在有一个 react 的原型( AI 生成的)想把它转成鸿蒙 APP(目标 API 14 以上),同样的提示词、同一个内容,gpt5.1 ,5.2 已经差不多 2~3 次就解决了编译错误,开始进行其他功能上的开发了。minimax-m2 、kimi 、doubao 还在那里来来回回改编译报错语法的问题,GLM4.6 甚至陷入循环。问题越来越多,本来一开始双方都只有 200+个 ERROR ,改到后面 kimi 、minimax-m2 已经到了 800+个 ERROR 了....
用的 trae 、roo code 、kilo code ,trae 一直这样,roo code 、kilo code 勉强好点,ERROR 数量在下降。
话说国产模型应该对鸿蒙一类的支持更好才对吧,为啥会这样?
23 条回复    2025-12-24 10:39:09 +08:00
kewang
    1
kewang  
   2025 年 12 月 17 日   1
感觉国产模型没有一个能打的
asd999cxcx
    2
asd999cxcx  
OP
   2025 年 12 月 17 日
@kewang 感觉不是很稳定,有时候正常主流开发任务没啥问题,有时候又感觉像突然降智一样,反复改东西也改不好
asd999cxcx
    3
asd999cxcx  
OP
   2025 年 12 月 17 日
最新进展:不知道是晚上用的人少了还是什么情况,使用 minimax-m2 修复了 4 次,完成全部错误修复,现在进行下一步开发,agent 为 roo code
w574495524
    4
w574495524  
   2025 年 12 月 17 日
幻觉太重了
1una0bserver
    5
1una0bserver  
   2025 年 12 月 17 日 via Android
想多了,如果你用过就知道,对鸿蒙支持最好的反而是 Claude ,其次是 GPT 和 Gemini ,国内的都基本没更新过鸿蒙的训练资料。而且你都用 react 了,不如直接迁移到 react native 。鸿蒙的生态基本没有,开发难度会很高,而且对于 ai 来说没有 react native 熟悉。
1una0bserver
    6
1una0bserver  
   2025 年 12 月 17 日 via Android
还有 trae 国内版明显存在降智,同样模型无论是响应速度还是质量都比其他 ide 的要差,更不如付费的国际版,怀疑拿其他模型以次充好。而且 trae 的提示词存在明显问题,用默认 solo 模式只能开发前端,一写其他方面的代码就非常差,哪怕是 Gemini 3 pro ,后来我自己定义 agent 用 spec coding 后,效果提升了非常多
nananqujava
    7
nananqujava  
   2025 年 12 月 17 日
@1una0bserver #6 怎么定义 agent 用 spec coding
nananqujava
    8
nananqujava  
   2025 年 12 月 17 日
国产模型变成就最新的 DeepSeek 还行, 其他都是垃圾, kimi 勉勉强强也看什么语言 ,GLM4.6 降智严重
defaw
    9
defaw  
   2025 年 12 月 17 日
模型没资料就得用 context7 mcp, 写 kotlin multiplatform 的经验之谈
jacketma
    10
jacketma  
   2025 年 12 月 17 日
大模型能力这种玄而又玄的问题,使用起来却是切实可见的差距。
都说全网的数据各家不是都搜集齐了吗?要么是算法上不行?还是老黄的卡真有魔力?
YanSeven
    11
YanSeven  
   2025 年 12 月 17 日
国产的卡在质量和规模上应该和老外的没法比。算法上到不觉得能差多少。纯直觉,无参考。
bbbblue
    12
bbbblue  
   2025 年 12 月 18 日
因为依赖抽卡的
抽卡第一梯队的可能抽的次数会少点 正确率高 但是差一点的模型正确率低要多抽
同一个问题同样的模型 也会有时候做不对有时候又能做对

用 cc 也是 他做不对了 就 git 滚回去 再开一次 有时候就能做对了
nosilence
    13
nosilence  
   2025 年 12 月 18 日
“话说国产模型应该对鸿蒙一类的支持更好才对吧,为啥会这样?”
你这个假设就是错误的,鸿蒙相关的根本没多少高质量的训练语料
yiqiao
    14
yiqiao  
   2025 年 12 月 18 日
还是模型对鸿蒙的资料太少了导致容易幻觉。
m1nm13
    15
m1nm13  
   2025 年 12 月 18 日
鸿蒙? 有训练数据吗就要改鸿蒙
tlerbao
    16
tlerbao  
   2025 年 12 月 18 日
把感觉去掉,国产=垃圾,浪费生命
asd999cxcx
    17
asd999cxcx  
OP
   2025 年 12 月 18 日
@1una0bserver gpt 感觉 plus 的订阅完全不够用...两天就只剩 20%了,用的 5.2 high ,我一点也没接触过 react,那个是技术领导自己用 youwave 生成的。如果转 rn 会有啥特别的坑吗? trae cn 的 agent 提示词我觉得根本没用,我新建了几个智能体,根本不按我的规定的角色走。
@nananqujava kimi 之前砍价开过会员,感觉不如 iflow 的 glm 开思考,同一个问题同一个提示词,iflow 一两次解决了,kimi 改了不下四五次还有问题。
@defaw 用了呀,我还特地强调,在编码前用 context7 mcp 服务查询确保代码准确性,但是还是一堆问题。
@jacketma 我感觉跟使用时间有关系,有的时间段某家人多就会导致智力跟不上
@YanSeven 现在国内的基本上国产卡了吗?我还以为还是老黄的卡用的多。
@bbbblue 不太了解这方面,我以为是几个卡组成算力池,就算卡差,算力总量在那儿结果也不会差。
@nosilence 我说的更好相对来说,因为个人柑橘鸿蒙开发还是国内为主,因此训练语料啥的会更多点
@m1nm13 只是普通搞个 APP ,提高门槛,国企嘛,你懂的
@yiqiao 我看了下他们的报错,基本上都是什么变量、组件定义的位置不对,用的方法调错位置啥的。头大
bbbblue
    18
bbbblue  
   2025 年 12 月 18 日
@asd999cxcx 不是 我说的抽卡 是指大模型结果随机 有时能不能做出题看脸 就像手游里抽卡一样
同一个题 第一梯队的模型更容易做对(但也可能做不对 有概率) 但是差点的模型多试几次也可能做对

不是说计算的卡
1una0bserver
    19
1una0bserver  
   2025 年 12 月 19 日 via Android
@asd999cxcx 首先不要用国内版,模型垃圾用什么也作用不大,只有 auto 模式还勉强可以( ps. auto 模式应该不是国内模型,同时含有中英文的请求回复时一般为英文,符合国外模型特点,代码风格也不一样,效果要好一点)
1una0bserver
    20
1una0bserver  
   2025 年 12 月 19 日 via Android
@nananqujava speckit 或者 openspec ,选他们教程,选最下面通用那个,然后把 agent.md 里的内容作为角色定义复制进对话框,注意不要用 ai 生成
hengxiangbianhua
    21
hengxiangbianhua  
   2025 年 12 月 19 日 via Android
相同的模型也是有时候聪明有时候愚蠢
wengjin456123
    22
wengjin456123  
   2025 年 12 月 19 日
我发现现在很多人都在说 GLM4.6 弱智,我本人用的 lite 套餐,基本你如果需要模型帮你理清楚逻辑,GLM4.6 会乱来,你必须说清楚你要什么,逻辑是什么,上下文是哪些,这样的 GLM4.6 执行力目前我用下来算是国产第一,和 claude sonnet 4.5 没区别,因为本人白天用 claude opus/sonnet 4.5 (外企单独的 api ,无限量) 给公司干活,下班了用 gemini3pro 和 自己分析需求解构需求后,给 GLM4.6 ,能省不少时间....,只能说 claude 在你说的不是很清楚的情况下也会乱来但是好很多,但是价格差太大了
lijianmin321
    23
lijianmin321  
   2025 年 12 月 24 日
国产主打性价比,然后拆解小任务做比较适合,鸿蒙没数据吧,难搞哦。当然实打实排名我还是忠实的 opus 用户,不过是接口 AI 的中转,Claude 这个封号太变态了
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     6253 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 46ms UTC 03:08 PVG 11:08 LAX 19:08 JFK 22:08
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86