赛博斗蛐蛐 - 大模型写翻页时钟 - Opus-4.6/GPT-5.4/K2.5/MiMo-V2-Pro/GLM-5/Qwen3.5-Plus/某 2.7/某包 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
beimenjun
V2EX    分享发现

赛博斗蛐蛐 - 大模型写翻页时钟 - Opus-4.6/GPT-5.4/K2.5/MiMo-V2-Pro/GLM-5/Qwen3.5-Plus/某 2.7/某包

  •  
  •   beienjun
    PRO
    3 月 24 日 3903 次点击

    前情提要

    因为做了个「豆腐」 t/1199643 ,不可避免的需要做各个「主流」模型的适配。

    因此买了一堆 Coding Plan 的会员,以及给平台充了 Token 费用。

    友情提示

    本测评仅对「豆腐」 0.0.3 版本有效,不代表相关模型的实际表现。

    也不构成任何购买建议。

    本次模型以及购买渠道

    • Claude Opus 4.6 (Claude 官网 Max 订阅)
    • OpenAI GPT-5.4 ( OpenAI 官网 ChatGPT Plus 订阅)
    • Kimi K2.5 (月之暗面官网)
    • 小米 Mimo-V2-Pro (小米 MiMo 官网)
    • GLM-5 (z.ai Pro 订阅)
    • Qwen3.5-Plus-2026-02-15 (阿里云)
    • Minimax M2.7 Highspeed (Minimaxi Token Plan Max)
    • 豆包 doubao-seed-2.0-pro (火山引擎 Coding Plan Pro)

    测评流程

    1. 简单 prompt ,查看具体 Token 花费和实际成果
    2. 复杂 prompt 查看生成结果,并在实现的基础上,尽量一次说一个问题,看看能够调出基本实现功能的成品需要说多少次,花费如何

    第一项-简单 Prompt

    Prompt

    做一个翻页时钟 

    图像结果

    Token 和时间耗费

    1. Claude Opus 4.6:Token 58809+4089 ,时间 1 分 20 秒
    2. OpenAI GPT-5.4:Token 64142+11954 ,时间 4 分 08 秒
    3. Kimi K2.5:Token 31385+3877 ,时间 1 分 20 秒
    4. 小米 Mimo-V2-Pro:Token 96302+4137 ,时间 1 分 48 秒
    5. GLM-5:Token 61492+3687 ,时间 1 分 59 秒
    6. Qwen3.5-Plus-2026-02-15:Token 54114+4235 ,时间 1 分 04 秒
    7. Minimax M2.7 highspeed:Token 34379+4449 ,时间 1 分 06 秒
    8. 豆包 doubao-seed-2.0-pro:Token 56160+5562 ,时间 1 分 36 秒

    个人评价

    Opus 4.6 、GPT-5.4 、GLM-5 基本上完成了翻页时钟的时间显示,虽然动画更新上都有点小问题。就不排序了。

    豆包虽然看上去好像也完成了,但是有三个页板,动画也诡异。

    其他几家都属于做小孩那桌的水平。

    第二项-复杂 Prompt

    Prompt

    实现一个高质量的 Flip Clock (翻页时钟)页面。 翻页时钟由上下两页共同显示当前数字。 翻页机制: 上页沿着上页底边向前向下翻,最终覆盖下页,实现数字更新 目标: 实现一个具有真实机械翻页质感的数字时钟,支持 HH:MM:SS 实时显示,并在数字变化时执行平滑、稳定、逼真的翻页动画。 具体要求: 1. 使用原生 HTML + CSS + Javascript 实现。 2. 页面加载后自动读取本地系统时间,并持续更新。 3. 显示格式为 24 小时制:HH:MM:SS 。 4. 视觉风格要求极简、高级、现代,背景为深色。 5. 页面需水平垂直居中,并考虑手机横屏竖屏显示。 6. 代码需具备良好结构、注释清晰、便于维护。 

    Claude Opus 4.6

    修正次数 2

    耗时 66 秒+44 秒+93 秒 = 203 秒( 3 分 23 秒)

    总输入 Token 204,763

    总输出 Token 12,122

    评价:反应迅速,智商在线

    GPT-5.4

    修正次数 1

    耗时 5 分 08 秒+1 分 09 秒 = 6 分 17 秒

    总输入 Token 106,321

    总输出 Token 16,081

    评价:意外的精美,就是太慢了

    Kimi-K2.5

    修正次数 0

    耗时 2 分 41 秒

    总输入 Token 38,003

    总输出 Token 6,656

    评价:最开始我用 Kimi 和另外三家测试了多次翻页时钟,感觉 Kimi 表现一般,有点怀疑可能处罚到什么缓存机制,但是人家就是这一次就完成了所有需求。

    小米 Mimo-V2-Pro

    修正次数 8

    耗时 2 分 05 秒 + 1 分 47 秒 + 2 分 12 秒 + 1 分 11 秒 + 38 秒 + 1 分 16 秒 + 43 秒 + 49 秒 + 1 分 12 秒 = 11 分 53 秒

    总输入 Token 853,234 总输出 Token 30,413

    评价:次数不少,效果一般,但至少活是做完了,我其实测试前是比较期待的,因为此前前期测试的时候 GLM-5>MiMo-V2-Pro>Kimi K2.5 ,但是这次测试并没有延续表现。每次来回速度挺快,经常一分钟就给出结论,但是只是快,这样子是不够的。

    GLM-5

    修正次数 4

    耗时 3 分 21 秒 + 2 分 1 秒 + 2 分 17 秒 + 1 分 50 秒 + 1 分 2 秒 = 10 分 31 秒

    总输入 Token 321,948

    总输出 Token 19,853

    评价:可能是最像 Sonnet 的国产模型了,整体智商还算在线,就是有点慢

    Qwen3.5-Plus-2026-02-15

    修正次数 12

    耗时 1 分 34 秒 + 2 分 57 秒 + 2 分 16 秒 + 1 分 45 秒 + 31 秒 + 42 秒 + 20 秒 + 1 分 07 秒 + 22 秒 + 48 秒 + 1 分 20 秒 + 51 秒 + 46 秒 = 15 分 19 秒

    总输入 Token 1,174,338

    总输出 Token 70,181

    评价:其实很早就基本完成了,但是最后 8 次修正都是在调整横屏的文字大小,它设计了一套逻辑一直不能匹配“竖屏不裁剪,横屏显示适应宽度”的需求。聪明肯定是聪明,最后多次都调不清楚,也是实打实的,至少这一次测试中显得又聪明又傻。

    另外两个模型

    M2.7 是让我觉得孺子可教,结果越调越火大,可能是我驾驭不了。

    某包则属于,一开始就觉得可能没戏了,硬着头皮调,最后觉得还是放过自己。

    所以两个图不放出来了。

    最后的话

    这次基本都是原厂平台 + 「豆腐」进行的测试,可能会有一些地方做得不太好。

    但是这个本质上也只是一个特定领域的单次表现。一个小的切面,并不全面。

    就「豆腐」上的使用来说,GLM-5 是国产模型里感觉最稳定的,感觉是个能干活的模型。小米一度让我觉得可以摸到 GLM-5 了,但是很快它又显得有点傻傻的。千问则是一个又聪明又傻的波动状态。而 Kimi K2.5 多次测试后一次通过让我觉得有点诡异,Kimi 有点坑的地方是原来 Plan 并不提供 K2.5 使用吗?搞得我最后又去 moonshoot 官网充值,白亏一笔 99 。

    至于和 GPT-5.4 以及 Claude 的差距,只能说国产模型当自强,每个都有很多路要走。但是不少已经可以干一些活了,我还是很乐观未来的 Token 降价和模型能力提升的。

    大家对「豆腐」有什么意见和建议也请反馈。

    第 1 条附言    3 月 27 日
    GLM-5.1 t/1201720
    32 条回复    2026-04-10 10:35:16 +08:00
    rrubick
        1
    rrubick  
       3 月 24 日
    老哥 AI 付费这么多,app 不是开源就是免费,大善人啊。。。
    beimenjun
        2
    beimenjun  
    OP
    PRO
       3 月 24 日
    @rrubick 其实我多数 App 都是古法编程+聊天框形式弄的。让 AI 深入开发还是 3 月份才刚开始的。

    「豆腐」这玩意开发出来让别人消耗 Token 的,其实早该做各个官方平台的模型适配的,所以前两天开始买了一些会员做适配,也做一下测评。
    另外,如果大家有其他领域要看测评,我倒是这一个月可以抽时间做做,不然这些 Plan 放着也是浪费。
    iShao
        3
    iShao  
       3 月 24 日
    kimi code plan 使用 kimi-for-coding/k2p5 这个调用不了 2.5 吗?
    beimenjun
        4
    beimenjun  
    OP
    PRO
       3 月 24 日
    @iShao kimi-for-coding 不是模型名称吗?这玩意实际是 2.5 吗?
    iShao
        5
    iShao  
       3 月 24 日
    @beimenjun #4 之前把 kimi 的 code plan 放在 claude code 里用, 要配置模型的. 要么 thinking 要么 2.5, 不清楚你说的用不了 2.5 是啥情况, 我现在没有续费了
    codehz
        6
    codehz  
       3 月 24 日
    所以就直接跳过 sonnet 了吗,感觉这个才是 A\家比较实用的模型()
    idealhs
        7
    idealhs  
       3 月 24 日
    经典 GPT 非要带上标题,我都不知道 OpenAI 怎么写的预提示词
    beimenjun
        8
    beimenjun  
    OP
    PRO
       3 月 24 日   1
    @codehz 呼声高我就做一下 Sonnet ,确实是个挺好的参考,一开始只想着各家旗舰互相斗蛐蛐。
    soleils
        9
    soleils  
       3 月 24 日
    国产 GLM5 还是最稳的,GPT5.4 修 bug 是最强
    70nY
        10
    70nY  
       3 月 24 日   2
    https://clocks.brianmoore.com 可以看看这个网站也有画钟
    JYii
        11
    JYii  
       3 月 24 日
    @70nY #10 没看说明前,每分钟刷新吓我一跳,指针都飞了。

    OPUS 4.6 还是稳,稳得跟铁蛋似的。
    beimenjun
        12
    beimenjun  
    OP
    PRO
       3 月 24 日
    @70nY 这个网站有意思。
    banmuyutian
        13
    banmuyutian  
       3 月 24 日
    好玩
    Lanayaaa
        14
    Lanayaaa  
       3 月 24 日
    没有 gemini3.1pro 吗
    cskeleton
        15
    cskeleton  
       3 月 24 日   1
    原封不动的用了第二段 Prompt ,

    https://imgur.com/a/CLDVdDe
    上面这个是 Gemini 3.1 Pro High 在 Antigravity 中用 Plan Mode 实现的。卡片没有问题,动画很流程,但是两个:分隔符错位了。
    此外 Antigravity 在完成之后尝试开启一个 Chrome Agent 测试,但是开了 Chrome 不知道为何一直不能正确打开 HTML ,转头尝试打开 www.google.com 也失败,就无限循环卡死在测试了。

    https://imgur.com/a/rCX4ndd
    上面这个是用 Cursor Auto 在 Plan Mode 实现的,翻页动画僵硬,先播完动画,然后翻了半个卡片,再翻半个卡片。截图告诉它动画不对,改了一次还是这样。

    由于用了 Plan 模式,所以都不算快,token 用量什么的我就没关注了。
    milkleeeeee
        16
    milkleeeeee  
       3 月 25 日
    总结一下就是,opus 4.6 好用且快,但是贵; gpt 5.4 好用且便宜,但是慢;其余的便宜,但相比前两个不太好用
    JimmyTinsley
        17
    JimmyTinsley  
       3 月 25 日   1
    这种一次性的前端页面,gemini-3.1-pro 的实力还是挺强的,一次基本就完成得不错

    https://gemini.google.com/share/e93b66520a5d
    wwhc
        18
    wwhc  
       3 月 28 日   1
    本地开源模型的表现:用楼主的复杂提示词,gpt-oss-120b 一次就成功完成了. Qwen3-Coder-Next-MXFP4 用了 5 次才成功,Qwen3.5-397B-A17B-MXFP4 3 次成功完成.成品质量最好的是 Qwen3.5-397B ,gpt-oss-120b 也算可以,但确实翻页有点慢
    beimenjun
        19
    beimenjun  
    OP
    PRO
       3 月 28 日
    @wwhc 部署 397B 大概要什么硬件条件呢?
    onedge
        20
    onedge  
       3 月 28 日
    @beimenjun 是个不错的项目,可以有机会加入吗?
    onedge
        21
    onedge  
       3 月 28 日
    @JimmyTinsley 我 gemini cli pro 已经宕机 2 天了
    wwhc
        22
    wwhc  
       3 月 28 日   1
    经验是用一到两块高性能大显存卡如 3090/4090/5090 ,再加上若干便宜的中低端卡(8-16GB 显存),把所有层都放进显存(能容纳的上下文越多越好,256k 大概需要 60GB 显存以上),尽可能多的把专家权重放到显存,一般能实现 10-20t/s 或以上的速度,建议使用 llama.cpp 而不是 vllm ,以便于快速迭代及灵活的硬件搭配
    beimenjun
        23
    beimenjun  
    OP
    PRO
       3 月 28 日
    @onedge 这个是开源项目,你如果有啥想改的可以提 issue 。
    beimenjun
        24
    beimenjun  
    OP
    PRO
       3 月 28 日
    @wwhc 感觉电费成本也不算小啊。
    wwhc
        25
    wwhc  
       3 月 28 日
    Token 自由的感觉蛮不错
    SiWXie
        26
    SiWXie  
       3 月 28 日 via iPhone
    @beimenjun #4 实际上是 2.5 ,但是对代码任务进行了优化,Kimi code 理论上效果应该强于 2.5
    ZztGqk
        27
    ZztGqk  
       3 月 29 日 via iPhone
    这是开了 fast mode 的 5.4 high ?
    ZztGqk
        28
    ZztGqk  
       3 月 29 日 via iPhone
    opus 的 thinking level 是?
    beimenjun
        29
    beimenjun  
    OP
    PRO
       3 月 29 日
    @ZztGqk 没有什么 fast mode ,我是在我自己的「豆腐」 App 里做的,推理是高,对应是 high ,opus 的 thinking 是 enable 的,effort 估计是 high 吧,没有特地设置。
    ZztGqk
        30
    ZztGqk  
       3 月 29 日 via iPhone
    @beimenjun 好的 谢谢解答,看上去 fast mode 只能用 oauth 的模式启动
    frantic
        31
    frantic  
       3 月 30 日
    @beimenjun z.ai 订阅的 GLM 在国内高峰期(下午)会存在降智或者超时的问题吗
    crstudio
        32
    crstudio  
       11 小时 35 分钟前
    @wwhc 具体是什么技术,能给几个关键词吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2812 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 14:11 PVG 22:11 LAX 07:11 JFK 10:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86