跑测试用例目前哪个模型综合能力和费用下来最合适? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录

独立开发者节点

愿每一位独立开发者都能保持初心,获得一个好的结果.

mogutouer
V2EX    Vibe Coding

跑测试用例目前哪个模型综合能力和费用下来最合适?

  •  
  •   mogutouer 2 月 12 日 976 次点击
    前期功能规划架构设计,包括完成开发,用上 spec 和 superpowers 之类的插件,代码和功能开发都没什么问题。加上现在 agent teams 出来,开发起来飞快。

    后期的测试才是最烦人的,项目大部分时间都花在了测试和反馈然后跟 AI 反复对话,他修好之后再测试再反馈,总要来回的话很多轮。随着功能越来越多,流程越来越多,分支也越来越多,相信大家都体验过新功能做好了,旧功能又有小问题。

    为了解决这些测试问题,在开发的时候我就让 AI 在写功能的时候顺便写上测试用例,然后调用一个 agent 最后来统一跑这些测试用例,发现问题之后丢到一个统一的类似 issue 的地方,这里会触发 claude code 来进行修复,修复之后又让这个测试 agent 来测试。

    如上他们自己跑一天,基本大部分的问题都能自动化解决,最后再人工测试,工作量减轻了很多,并且如果在外面或者哪位同事发现问题,我可以直接发到 issue 上,AI 先跑一轮尝试修复,完美闭环。

    所以现在的问题是,这个测试用 opus 或者 sonnet 太奢侈了,大部分都是调用接口或者操作浏览器点按,比如注册登录账户下单什么的,想找一个便宜的,能力又还可以的模型来跑这个,核心代码开发和修复还是走 opus 。


    量比较大所以找有 coding plan 的,目前测试了 GLM4.7, kimi k2.5, minimax M2.1 ,今天 GLM 和 minimax 都发新版了还没测。

    测试下来 GLM 有点傻,因为不是多模态,无法对 css 布局这些浏览器结果截图进行分析。
    K2.5 很好,但他们家的套餐用量太少了,99 一个月的基本 1-2 个小时就干完 5 小时用量,周用量更加不够,目前他家还是搞活动目前是 3 倍用量,活动结束后就更不够用了,要想畅用就得买那个 699 的,699 那我不如走 sonnet 了还能一站式解决。
    minimax 跟 GLM 一样,但跑起来比较慢,对图片识别也不友好,并且他是按 promt 次数来计费,这种情境下用量也是很少。

    其实写到这里,也有答案了,最好的就是 K2.5 ,就是比较贵,新出的 GLM5 和 minimax M2.5 不知道能力如何。


    各位有什么好的方案建议?完成编码的最后一步:测试。

    5 条回复    2026-02-14 10:39:04 +08:00
    sillydaddy
        1
    sillydaddy  
       2 月 12 日
    同问。我也感觉现在自动化测试是 vibe coding 的核心关键,而限制自动化测试的就是成本。

    我感觉只能等 token 价格下降了。刚试了这个帖子( /t/1192001 )的图片,125KB 左右的一个 jpeg 文件,问里面有几个小人儿,花费了 1 万多的输入 token (这里不排除有系统提示词之类的,但大体是 1 万 token ),说明截图还是很费 token 的,Sonnet4.5 的话大概两三毛钱。

    有没有可能优化一下测试流程,尽量直接一步到位加载目标网页的数据,而不是逐步点击,也就是把测试也模块化,当然我没有做过测试,只是瞎猜。但 token 贵的话,只能人工优化测试流程了。
    whoosy
        2
    whoosy  
       2 月 12 日
    codex team 接近免费
    Tink
        3
    Tink  
    PRO
       2 月 12 日
    minimax 我试了一下,新版还是不太行,看着上下文多,实际多聊一会就炸了
    mogutouer
        4
    mogutouer  
    OP
       2 月 13 日
    试了一下豆包那个 火山 coding plan 可以,就用它默认的 Auto ,Doubao-Seed-Code 也是多模态的,200 那个套餐跑一天都都够
    timlong
        5
    timlong  
       2 月 14 日
    其实我觉得现阶段可能使用 LLM 来生成测试代码,然后执行分析失败导致更合适,因为测试过程实际是输入输出流程都是固定的,用代码就行了,没必要使用 LLM ;这样也更便宜。。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5895 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 01:47 PVG 09:47 LAX 17:47 JFK 20:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86