V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

V2EX 分享发现

赛博斗蛐蛐 - 大模型写翻页时钟 - Opus-4.6/GPT-5.4/K2.5/MiMo-V2-Pro/GLM-5/Qwen3.5-Plus/某 2.7/某包

beienjun

PRO

3 月 24 日 3903 次点击

前情提要

因为做了个「豆腐」 t/1199643 ，不可避免的需要做各个「主流」模型的适配。

因此买了一堆 Coding Plan 的会员，以及给平台充了 Token 费用。

友情提示

本测评仅对「豆腐」 0.0.3 版本有效，不代表相关模型的实际表现。

也不构成任何购买建议。

本次模型以及购买渠道

Claude Opus 4.6 (Claude 官网 Max 订阅)
OpenAI GPT-5.4 （ OpenAI 官网 ChatGPT Plus 订阅）
Kimi K2.5 (月之暗面官网)
小米 Mimo-V2-Pro (小米 MiMo 官网)
GLM-5 (z.ai Pro 订阅)
Qwen3.5-Plus-2026-02-15 (阿里云)
Minimax M2.7 Highspeed (Minimaxi Token Plan Max)
豆包 doubao-seed-2.0-pro (火山引擎 Coding Plan Pro)

测评流程

简单 prompt ，查看具体 Token 花费和实际成果
复杂 prompt 查看生成结果，并在实现的基础上，尽量一次说一个问题，看看能够调出基本实现功能的成品需要说多少次，花费如何

第一项-简单 Prompt

Prompt

做一个翻页时钟

图像结果

Token 和时间耗费

Claude Opus 4.6：Token 58809+4089 ，时间 1 分 20 秒
OpenAI GPT-5.4：Token 64142+11954 ，时间 4 分 08 秒
Kimi K2.5：Token 31385+3877 ，时间 1 分 20 秒
小米 Mimo-V2-Pro：Token 96302+4137 ，时间 1 分 48 秒
GLM-5：Token 61492+3687 ，时间 1 分 59 秒
Qwen3.5-Plus-2026-02-15：Token 54114+4235 ，时间 1 分 04 秒
Minimax M2.7 highspeed：Token 34379+4449 ，时间 1 分 06 秒
豆包 doubao-seed-2.0-pro：Token 56160+5562 ，时间 1 分 36 秒

个人评价

Opus 4.6 、GPT-5.4 、GLM-5 基本上完成了翻页时钟的时间显示，虽然动画更新上都有点小问题。就不排序了。

豆包虽然看上去好像也完成了，但是有三个页板，动画也诡异。

其他几家都属于做小孩那桌的水平。

第二项-复杂 Prompt

Prompt

实现一个高质量的 Flip Clock （翻页时钟）页面。 翻页时钟由上下两页共同显示当前数字。 翻页机制： 上页沿着上页底边向前向下翻，最终覆盖下页，实现数字更新 目标： 实现一个具有真实机械翻页质感的数字时钟，支持 HH:MM:SS 实时显示，并在数字变化时执行平滑、稳定、逼真的翻页动画。 具体要求： 1. 使用原生 HTML + CSS + Javascript 实现。 2. 页面加载后自动读取本地系统时间，并持续更新。 3. 显示格式为 24 小时制：HH:MM:SS 。 4. 视觉风格要求极简、高级、现代，背景为深色。 5. 页面需水平垂直居中，并考虑手机横屏竖屏显示。 6. 代码需具备良好结构、注释清晰、便于维护。

Claude Opus 4.6

修正次数 2

耗时 66 秒+44 秒+93 秒 = 203 秒（ 3 分 23 秒）

总输入 Token 204,763

总输出 Token 12,122

评价：反应迅速，智商在线

GPT-5.4

修正次数 1

耗时 5 分 08 秒+1 分 09 秒 = 6 分 17 秒

总输入 Token 106,321

总输出 Token 16,081

评价：意外的精美，就是太慢了

Kimi-K2.5

修正次数 0

耗时 2 分 41 秒

总输入 Token 38,003

总输出 Token 6,656

评价：最开始我用 Kimi 和另外三家测试了多次翻页时钟，感觉 Kimi 表现一般，有点怀疑可能处罚到什么缓存机制，但是人家就是这一次就完成了所有需求。

小米 Mimo-V2-Pro

修正次数 8

耗时 2 分 05 秒 + 1 分 47 秒 + 2 分 12 秒 + 1 分 11 秒 + 38 秒 + 1 分 16 秒 + 43 秒 + 49 秒 + 1 分 12 秒 = 11 分 53 秒

总输入 Token 853,234 总输出 Token 30,413

评价：次数不少，效果一般，但至少活是做完了，我其实测试前是比较期待的，因为此前前期测试的时候 GLM-5>MiMo-V2-Pro>Kimi K2.5 ，但是这次测试并没有延续表现。每次来回速度挺快，经常一分钟就给出结论，但是只是快，这样子是不够的。

GLM-5

修正次数 4

耗时 3 分 21 秒 + 2 分 1 秒 + 2 分 17 秒 + 1 分 50 秒 + 1 分 2 秒 = 10 分 31 秒

总输入 Token 321,948

总输出 Token 19,853

评价：可能是最像 Sonnet 的国产模型了，整体智商还算在线，就是有点慢

Qwen3.5-Plus-2026-02-15

修正次数 12

耗时 1 分 34 秒 + 2 分 57 秒 + 2 分 16 秒 + 1 分 45 秒 + 31 秒 + 42 秒 + 20 秒 + 1 分 07 秒 + 22 秒 + 48 秒 + 1 分 20 秒 + 51 秒 + 46 秒 = 15 分 19 秒

总输入 Token 1,174,338

总输出 Token 70,181

评价：其实很早就基本完成了，但是最后 8 次修正都是在调整横屏的文字大小，它设计了一套逻辑一直不能匹配“竖屏不裁剪，横屏显示适应宽度”的需求。聪明肯定是聪明，最后多次都调不清楚，也是实打实的，至少这一次测试中显得又聪明又傻。

另外两个模型

M2.7 是让我觉得孺子可教，结果越调越火大，可能是我驾驭不了。

某包则属于，一开始就觉得可能没戏了，硬着头皮调，最后觉得还是放过自己。

所以两个图不放出来了。

最后的话

这次基本都是原厂平台 + 「豆腐」进行的测试，可能会有一些地方做得不太好。

但是这个本质上也只是一个特定领域的单次表现。一个小的切面，并不全面。

就「豆腐」上的使用来说，GLM-5 是国产模型里感觉最稳定的，感觉是个能干活的模型。小米一度让我觉得可以摸到 GLM-5 了，但是很快它又显得有点傻傻的。千问则是一个又聪明又傻的波动状态。而 Kimi K2.5 多次测试后一次通过让我觉得有点诡异，Kimi 有点坑的地方是原来 Plan 并不提供 K2.5 使用吗？搞得我最后又去 moonshoot 官网充值，白亏一笔 99 。

至于和 GPT-5.4 以及 Claude 的差距，只能说国产模型当自强，每个都有很多路要走。但是不少已经可以干一些活了，我还是很乐观未来的 Token 降价和模型能力提升的。

大家对「豆腐」有什么意见和建议也请反馈。

第 1 条附言 3 月 27 日

GLM-5.1 t/1201720

翻页时钟

模型评测

token消耗

32 条回复 2026-04-10 10:35:16 +08:00

rrubick

3 月 24 日

老哥 AI 付费这么多，app 不是开源就是免费，大善人啊。。。

beimenjun

PRO

3 月 24 日

@rrubick 其实我多数 App 都是古法编程+聊天框形式弄的。让 AI 深入开发还是 3 月份才刚开始的。

「豆腐」这玩意开发出来让别人消耗 Token 的，其实早该做各个官方平台的模型适配的，所以前两天开始买了一些会员做适配，也做一下测评。
另外，如果大家有其他领域要看测评，我倒是这一个月可以抽时间做做，不然这些 Plan 放着也是浪费。

iShao

3 月 24 日

kimi code plan 使用 kimi-for-coding/k2p5 这个调用不了 2.5 吗?

beimenjun

PRO

3 月 24 日

@iShao kimi-for-coding 不是模型名称吗？这玩意实际是 2.5 吗？

iShao

3 月 24 日

@beimenjun #4 之前把 kimi 的 code plan 放在 claude code 里用, 要配置模型的. 要么 thinking 要么 2.5, 不清楚你说的用不了 2.5 是啥情况, 我现在没有续费了

codehz

3 月 24 日

所以就直接跳过 sonnet 了吗，感觉这个才是 A\家比较实用的模型（）

idealhs

3 月 24 日

经典 GPT 非要带上标题，我都不知道 OpenAI 怎么写的预提示词

beimenjun

PRO

3 月 24 日

@codehz 呼声高我就做一下 Sonnet ，确实是个挺好的参考，一开始只想着各家旗舰互相斗蛐蛐。

soleils

3 月 24 日

国产 GLM5 还是最稳的，GPT5.4 修 bug 是最强

70nY

3 月 24 日

https://clocks.brianmoore.com 可以看看这个网站也有画钟

JYii

3 月 24 日

@70nY #10 没看说明前，每分钟刷新吓我一跳，指针都飞了。

OPUS 4.6 还是稳，稳得跟铁蛋似的。

beimenjun

PRO

3 月 24 日

@70nY 这个网站有意思。

banmuyutian

3 月 24 日

好玩

Lanayaaa

3 月 24 日

没有 gemini3.1pro 吗

cskeleton

3 月 24 日

原封不动的用了第二段 Prompt ，

https://imgur.com/a/CLDVdDe
上面这个是 Gemini 3.1 Pro High 在 Antigravity 中用 Plan Mode 实现的。卡片没有问题，动画很流程，但是两个：分隔符错位了。
此外 Antigravity 在完成之后尝试开启一个 Chrome Agent 测试，但是开了 Chrome 不知道为何一直不能正确打开 HTML ，转头尝试打开 www.google.com 也失败，就无限循环卡死在测试了。

https://imgur.com/a/rCX4ndd
上面这个是用 Cursor Auto 在 Plan Mode 实现的，翻页动画僵硬，先播完动画，然后翻了半个卡片，再翻半个卡片。截图告诉它动画不对，改了一次还是这样。

由于用了 Plan 模式，所以都不算快，token 用量什么的我就没关注了。

milkleeeeee

3 月 25 日

总结一下就是，opus 4.6 好用且快，但是贵； gpt 5.4 好用且便宜，但是慢；其余的便宜，但相比前两个不太好用

JimmyTinsley

3 月 25 日

这种一次性的前端页面，gemini-3.1-pro 的实力还是挺强的，一次基本就完成得不错

https://gemini.google.com/share/e93b66520a5d

wwhc

3 月 28 日

本地开源模型的表现：用楼主的复杂提示词，gpt-oss-120b 一次就成功完成了. Qwen3-Coder-Next-MXFP4 用了 5 次才成功,Qwen3.5-397B-A17B-MXFP4 3 次成功完成.成品质量最好的是 Qwen3.5-397B ，gpt-oss-120b 也算可以，但确实翻页有点慢

beimenjun

PRO

3 月 28 日

@wwhc 部署 397B 大概要什么硬件条件呢？

onedge

3 月 28 日

@beimenjun 是个不错的项目，可以有机会加入吗？

onedge

3 月 28 日

@JimmyTinsley 我 gemini cli pro 已经宕机 2 天了

wwhc

3 月 28 日

经验是用一到两块高性能大显存卡如 3090/4090/5090 ，再加上若干便宜的中低端卡(8-16GB 显存)，把所有层都放进显存（能容纳的上下文越多越好，256k 大概需要 60GB 显存以上），尽可能多的把专家权重放到显存，一般能实现 10-20t/s 或以上的速度，建议使用 llama.cpp 而不是 vllm ，以便于快速迭代及灵活的硬件搭配

beimenjun

PRO

3 月 28 日

@onedge 这个是开源项目，你如果有啥想改的可以提 issue 。

beimenjun

PRO

3 月 28 日

@wwhc 感觉电费成本也不算小啊。

wwhc

3 月 28 日

Token 自由的感觉蛮不错

SiWXie

3 月 28 日 via iPhone

@beimenjun #4 实际上是 2.5 ，但是对代码任务进行了优化，Kimi code 理论上效果应该强于 2.5

ZztGqk

3 月 29 日 via iPhone

这是开了 fast mode 的 5.4 high ？

ZztGqk

3 月 29 日 via iPhone

opus 的 thinking level 是？

beimenjun

PRO

3 月 29 日

@ZztGqk 没有什么 fast mode ，我是在我自己的「豆腐」 App 里做的，推理是高，对应是 high ，opus 的 thinking 是 enable 的，effort 估计是 high 吧，没有特地设置。

ZztGqk

3 月 29 日 via iPhone

@beimenjun 好的谢谢解答，看上去 fast mode 只能用 oauth 的模式启动

frantic

3 月 30 日

@beimenjun z.ai 订阅的 GLM 在国内高峰期（下午）会存在降智或者超时的问题吗

crstudio

11 小时 35 分钟前

@wwhc 具体是什么技术，能给几个关键词吗？