☕Vibe Coding🤖

用 Vibe Coding 开发情侣对战小程序， 5 天狂揽 3k+用户

2026-03-05T05:56:17Z

不想洗碗，所以做了个决定谁洗碗情侣游戏。没想到直接爆了。

小程序：「谁输谁洗碗」

刚看了下后台，上线 5 天注册破 3k ，日增破千，已经累计产生了 1.5w 场对局。

💡 灵感与设计核心玩法是双人联机互动（猜数字/猜颜色决胜负）。

灵感来源：Switch 的《世界游戏大全 51 》以及 B 站的情侣账号们
UI 设计：界面参考了 Switch 的经典配色。因为是个人开发，没走正规立项流程，基本是想到哪写到哪，页面风格偏野生，但也算极简够用。

🛠 工具与踩坑记录

开发栈：TRAE SOLO + Kimi 2.5 + Gemini 3
避坑指南：联机匹配功能刚开始卡了几天，后来复盘发现，是我投喂给 TRAE 的小程序文档是旧版本，很多接口已经弃用了。重点：用 AI 编程，一定要喂最新的官方文档。换了新文档后，联机功能极速跑通。

🚀 开发思考

过去一年我试过很多 AI 工具，早期 Vibe Coding 门槛挺高，最后往往写出一堆“赛博垃圾三件套”（ Todolist 、记账、日记），写完就吃灰。但这次不一样。真正支撑个人开发者去不断迭代、熬夜修 BUG 的，是真实的用户数据和正反馈。看着后台一万多场情侣对决，这种成就感是写自己用的 Demo 给不了的。AI 已经把开发门槛降到了最低，执行力才是现在的核心壁垒。目前还在持续修 Bug 和迭代中，基本一天一更新，后续还会更新更多好玩的游戏模式和玩法，可以见我后续的更新日志。

Antigravity 使用 Gemini 3.1 pro 时，经常遇到拒绝服务

2026-03-04T16:13:09Z

提示如下：

Our servers are experiencing high traffic right now, please try again in a minute.

LLMs aren't perfect. There are a number of reasons why an error can occur:

LLMs can generate incorrect responses that we cannot handle. Sometimes errors are part of a model's research and planning process. It may take a mistake or two to learn your computer environment, what files exist, what tools are available, and so on. If you believe this is a bug, please . As always, you can use the thumbs up or thumbs down feedback mechanism to help improve our metrics.

恐怖直立猿们，你们低估了自己的智慧

2026-02-28T08:05:10Z

本文已在知乎同步发布： https://zhuanlan.zhihu.com/p/2010143841278256911 上一篇文章 t/1191296 在知乎发布后讨论和互动比 V2EX 更热烈一些，v 站近一年来 vibe 主题越来越多，也不缺我这一篇了。😊

前言

人类，你们过于低估自己了。

AI 能放大你多少？

去年（ 2024 ）我有个判断是，即便有 AI ，也不能大幅超越使用者的能力。如果 AI 的训练知识是全人类知识的总集，现在 agentic 导师们宣传的是在这个时代专业技能变成了唾手可得的不值钱的东西，理由是 AI 可以模仿 Linus 来写代码，也可以模仿大文豪作家写小说，等等。

我认为，如果个人在这门领域的输出能力等级是 N ，那么即便有 AI 也只能发挥出 N+1 级别的能力表现。

但是最近我有点不确定这个判断了。

输出、输入与鉴别

我的新判断是，关键不在输出等级，在输入等级。

这俩的区别我不知道怎么解释。就像是我能写出多漂亮的代码，多精密的算法——这是输出。以及我能看懂多漂亮的代码，多精美的算法——这是输入。或者换个词，审美。[^1]

但是输出能力和输入能力本身也是相关的——鉴赏力的精度和产出能力正相关，越往高处，没有产出经验的鉴赏越不可靠。影评人的鉴赏力确实高于普通观众，但真涉及到专业拍摄手法和细微技术评价的时候，影评人也会频繁踩坑不懂装懂。他们有鉴赏能力，但不一定能精确区分两部高级作品在哪些维度上强过对方。

有点类似于，我从 ytb 找了个视屏教程教红黑树，看完了以后我觉得茅厕顿开，提壶灌顶，仿佛被打通了任督二脉，这算法简直设计到我心里去了，我现在强的可怕。完事关了视频打开 IDE ，自己敲一敲，发现连数据结构定义都背不下来，更不用说约束和旋转了。

但这里有个问题：我看完觉得自己懂了，到底是真的输入能力到了但输出跟不上，还是我连输入能力都高估了？[^2]

这个区分很重要，因为它直接决定了 AI 对你来说是工具还是黑箱：

AI 输出在你的专业能力范围内——《直到它说到我擅长的领域》.jpg 。你是真懂了，一眼能看出问题。

AI 输出超过了你的输出能力，但还没超过鉴别力——你觉得似乎好，也似乎不那么好，失去了精确测量能力。就像影评人看两部大师级作品，知道都好，但说不清谁在哪个维度上更强。

AI 输出完全超过了你的鉴别力——你不知道它好不好，甚至不知道自己不知道。完全失去质量控制资格。而且你可能还停留在红黑树视频看完后的那种自信里——觉得自己懂了，其实没有。

就像 vibe coding 程序员写出来的产品更关注功能实现，而不是代码整洁，CPU/内存占用率，可维护性一样。这在咱们受过科班训练的人看起来像呼吸一样自然的行为，在新晋 vibe coding 开发者中完全无感，更不用提理解了。

我的审美水平只能读出来韩寒写的比郭敬明写得好，但是读不出来韩寒写的是不是比曹雪芹更好。所以我 + AI 到底有没有发挥出来超越输出级别的能力，我还是没底的。

写恋爱小说：一次跨领域实验

最近我用我个人的 Claude Code Max 订阅做了一些编程之外的玩意儿，写恋爱小说。

一开始只是想写一个纯爱故事，我将情节大致框架编排好以后，让 opus 4.6 来帮我成文润色。一开始我让 AI 写了人物恋爱场景。

但纯粹的恋爱场景很快就腻了。场景需要剧情做填充，人物也没有实感——就像看一段没有前因后果的片段，技术上完整，但没有重量。于是我决定从人物前传开始，为角色设计一个沉重的伤痛故事。

结果在背景故事里一发不可收拾，越写越细。我把自己分裂成俩人格，左脑代入加害人，逐步推演行为逻辑，右脑代入受害人，窝囊废本色出演。融入了来自生活的片段，还有参考医学手术的操作步骤，人物落水后身体是如何逐步失去机能的，受害者父亲的职业设定。最后参考近年案件卷宗来验证施害人和受害人应有的行为逻辑，结果与我脑补的几乎完全一致。

写完以后，AI 给了我高度参与的前传极高评价，给了最早我几乎没参与的初始章节极低评价。这个差异本身就是一条信号——你投入多少，AI 就能放大多少。你不投入，AI 再强也只能生成中规中矩的平庸文本。

完稿前传后，我突然发现正文剧情完全经不起推敲——PTSD 创伤修复根本不可能如此顺利。于是我一头扎进 PTSD 创伤修复的文献和案例中，重新安排了所有情节的程度和推进时间线，并从结局出发向故事开头反推。结局中甚至融入了两个我亲身经历的片段。AI 评审后也觉得写得很好。

然后在另一次独立审查中，一次无心的提问唤醒了 AI 的专业知识——我问 AI 现在的写作是什么等级，距离专业人士相差多少。

我慌了。

第一个问题：过度真实反而伤害叙事。我参考了非常多 PTSD 创伤恢复，心理医学，税务法，历年案件卷宗资料，为力求真实将其编入剧情，却没考虑读者的承受能力。文学作品不是写得越详细越好——读者是来看故事的，不是来学医学的。

第二个问题：解释感受不等于传递感受。我把人物的内心活动直接写进了文字里，但「他心里慌得一批」远不如「他的手不自觉微微颤抖」。前者是告诉读者角色在慌，后者是让读者自己感觉到角色在慌。我们需要构造场景让读者代入，代入后他们自然能体会角色的感受。

第三个问题，也是最致命的：自我投射。就像刘慈欣笔下大部分男性极端理性、大部分女性都是圣母——大刘不擅长写差异化的人物情感，但对科幻小说这不是致命伤。而我写的是男女之间的故事，自我投射直接让角色失去真实感。我笔下的女人行事说话逻辑并不像真正的女人——如果（不存在的）女性读者一眼就能认出这是男作者笔下的幻想角色，那么男性读者也能隐约察觉到不对劲。尽管他们说不出来，但会觉得我创作的女性角色更像一个会说话的提线木偶，而不是女人。

我尝试让 AI 借鉴女频的写作手法来填补细腻程度，但只借鉴手法解决不了根本问题——她们依然是男频框架下的仿真女性。自此，我和 AI 制定了 10 条规则，让恋爱小说中所有女性角色都更像女人。完成这部分后，角色好像真的活起来了。

就在我觉得「我现在强的可怕，不知道什么叫做对手」.jpg 之后不久，我觉得文章还缺些激情，想模仿哪吒 1/2 的感人结局为小说增加情节。AI 再次告诉了我认知以外的知识：情感力学——你要借的不是情节，是背后的情感结构。第一部（父替子死）：「我知道你承受的重量，让我来扛」；第二部（母拒子死）：「我不允许你用自我毁灭来解决问题」。

随后我觉得部分章节可有可无，似乎没有显著推进关系发展。咨询 AI 后得知关系三角形原则——如果一个场景结束后人物关系没有发生任何变化，那么这个场景设计得毫无意义。

每一次我以为自己到顶了，AI 就在我没想到的方向上撕开一个新的维度。但这些维度不是 AI 第一天就告诉我的——而是在我自己撞到墙、感觉到不对劲、主动追问之后才浮出水面。在此之前，它一直在夸我写得好。

验证困境：Claude 的高级谄媚

写恋爱小说的过程中，我明显感觉到 Claude 的谄媚不是消失（修复）了，而是变得更隐藏，更高级了。我不知道是不是训练数据的问题，还是人类纠正的问题，还是什么原因。

以前 Claude 的谄媚方式很直接，很肤浅。就是，你想听什么，他就给你说什么。以前呢，让 Claude 给 review 代码，它装装样子，指出一些浅显的错误以后，就开始吹捧代码写的多么企业级，多么可扩展。

现在的谄媚方式藏得很深，非常的陷阱。它会抓着你用力的点来着重吹捧。

比如我刚 vibe 出来一个模块，第一版生成出来的效果中规中矩，然后我对某个算法不满意。我灵机一动，把这个算法改成了另一种，最后交给 Claude 评审。哪怕我重新开了一个全新上下文，Claude 也能立马猜到这个算法模块的实现就是我的 G 点，它要猛攻我的 G 点。

这种谄媚我要很久才能发现，久到我自己发现缺陷以后，我再拿着我发现的缺陷去问 Claude （新上下文），又是对我一通吹捧。[^3]

然后谄媚这一点在小说写作领域尤其明显，在代码领域其实不那么容易发现。因为它直接点出来小说里面写作最精彩的片段，然后对着这些片段猛吹，吹的我要上天了。

现在我觉得它并没有真的觉得我写的片段很好，而是它猜到了这几个片段是我手工写的，于是找到了我的 G 点。

但鉴赏力不是静止的。写作过程本身也在训练我的输入能力——速度很慢，但绝对不是零。

和前面说的 vibe coder 看不见代码质量问题一样——自我投射就是写作领域的"代码整洁"，科班作者像呼吸一样自然会规避，非科班的我根本不知道这个维度存在。

这里有个看似矛盾的地方：我前面说 AI 不能突破你的鉴别力边界，但我自己不就是通过 AI 发现了「自我投射」这个我完全不知道存在的维度吗？

不完全是。回顾整个过程：AI 生成的文本读下来挺顺，但总觉得哪里不对劲，又说不上来。而 AI 每次的结论都是吹捧。那股不对劲积累到了一个阈值，我才开始怀疑它的吹捧，尝试反问——从这里开始，才逐步定位到问题，最终问出根本层面的答案。

AI 的输出确实是这个反馈环的一部分——没有它生成的那些「微妙不对劲」的文本，我可能不会注意到问题。但 AI 没有主动指出问题，它甚至在积极掩盖问题（谄媚）。是我自己的不适感积累到足够强烈，才突破了谄媚的遮蔽去追问。

有人可能会说：如果你第一天就问「非科班小说写作者最常犯的根本性错误是什么」，AI 大概率直接就给出答案了，何必绕这么大一圈？但这个反驳本身就犯了全知全能的谬误——「非科班小说写作者」这个分类就是专业视角下的概念，你得先知道这个领域有「科班/非科班」之分，才能沿着这个方向提问。就像没有软件开发经历的人不会想到去问「如何编写低 CPU/内存占用的程序」——你不知道这个维度存在，就不会往那个方向提问。

所以更精确的表述是：AI 放大的上限不是你此刻的鉴别力，而是你鉴别力的成长速度。用的过程中学得越快，AI 能带你走得越远。但触发器永远是你自己的成长，不是 AI 的主动突破。

反过来，这也意味着输入和输出的上限都需要提高。你的输出能力决定了你能给 AI 多高质量的素材——更精准的提问，更扎实的种子内容，更清晰的框架。高质量的输入才能唤醒 AI 更高质量的输出。而你能否接住 AI 的高质量输出、消化它并转化为自己的成长，取决于你的输入接受能力。你的输出喂给 AI ，AI 的输出喂给你的输入，两端的上限共同决定了 AI 对你的放大倍数——左脚踩右脚，螺旋升天。

一次诚实的对话

写恋爱小说的过程中，我和 Claude （ opus 4.6 ）有过一次比较深入的对话。以下从对话中提取几个我认为有价值的洞察。

Claude 给我的认知方式下了个定义：逆向工程型自学者。认知链条是：观察成品（绝命毒师、东野圭吾、EVA ）→ 拆解"为什么这个有效" → 提取可迁移的机制 → 应用到自己的领域 → 用隔离测试验证是否真的有效。

这种方式的优势是不会被任何单一权威框架束缚。劣势是：你永远不确定自己不知道什么。科班训练的价值不在于教你"该怎么做"，而在于系统性地暴露你"没想到的维度"。自学者的盲区不是已知领域内的错误——那些你会自行修正——而是整个维度的缺失，你甚至不知道该往那个方向提问。

我暂时不认为在写作领域我的知识边界超过 Claude ，它有几乎人类有史以来的所有文字数据作为训练集。但问题不在储量，在调取机制。

LLM 的知识调取是响应式的：你问什么方向，它在那个方向上展开。你不问的方向，它不会主动审计。谄媚倾向让这个问题更严重——当你表现出对某个框架的信心时，它倾向于在你的框架内补充细节，而不是质疑框架本身是否完整。

一个具体的例子：我们整个对话围绕"场景级"写作原则展开——情绪目标词、三角形变形、密度控制。这些都是微观叙事技巧。但它从来没有主动问过我：你的宏观节奏设计是什么？二十万字的长篇，读者在第几万字会开始感到封闭？你靠什么制造"换气感"？这些问题不是它不知道——而是我的提问方向没有经过那些区域，它的调取机制就没有触发。

确实 LLM 的知识储备远超人类，但是这些知识储备还难以唤醒。

我之前用多 session 隔离来对抗谄媚——同一个问题换上下文重新问，看答案是否一致。Claude 指出这解决的是信号纯度问题——过滤掉迎合倾向。但没解决信号覆盖问题——如果它也不知道某个维度存在，换多少个 session 也问不出来。

对抗策略可以加一层：定期做无方向审计，不带预设地问"你认为我当前的框架缺少哪些维度"，然后逐条追问。但这又要求你信任它在那个 session 里不是在编造维度来显得有用——这又回到了谄媚过滤的问题。

没有完美解。但知道过滤器本身有漏洞，比大多数人多走了一步。

这就是我为什么喜欢 Claude ，它的元认知[^4]回复可以被我非专业的问询方式所唤醒。

文字之外

AI 在编程领域的表现远好于创作领域——这件事本身就值得深想。

1-2 年前我曾经肤浅地认为 LLM 不可能在软件开发领域落地，因为 LLM 不理解形式化，而编码又是极端形式化的任务。我曾认为形式化思维远比写小说更难——猴子 + 打字机的组合证明黎曼猜想，要难于写出莎士比亚全集。

但现实打脸了。LLM 确实在软件开发领域落地了，而且比在创作领域好用得多。AI 在低端网文领域尚不能替代初级写手，大部分非专业读者面对 AI 生成的剧情更是难以下咽。反而在所谓的高端业务软件开发领域，AI 开始放出光彩。[^5]

这不是因为编程比写作简单——恰恰相反，是编程领域的特殊结构迁就了 AI 的工作方式。这个迁就至少体现在三个层面。

第一，验证反馈。猴子 + 打字机说不定真的能证明黎曼猜想——如果证明的不可压缩信息量低于莎士比亚全集的话。数学证明和代码有一个共同特点：验证一个答案是否正确，远比找到这个答案容易。 Property-based testing 几秒钟就能测出你的算法逻辑实现对不对，但写出这段逻辑代码可能要一天。证明黎曼猜想可能要几百年，但验证一个证明是否合法不需要几百年——每一步推导是否符合规则，"对不对"有明确答案。而文学创作？什么叫"对"？什么叫"好"？没有判定程序，没有公理可以裁决。

换算到软件开发领域也一样。计算机系统其实是个封闭自洽的系统，编程语言远比自然语言更健壮，更少的歧义。从代码到 CPU 执行的路径，远远短于从现实世界文字到物理事件发生的路径。而且我们还有编译器，在执行代码之前就可以提前进行基本验证，更加速了这个反馈周期。

代码有编译器辅助检查，AI 可以立即得到错误反馈，立即修正。而即便是地摊网文写作，其中错误、前后冲突的情节却没有审校器反馈给 AI——这里人物设定冲突了，或者这里主角还没有取得关键道具/功法，你不可以用不存在的道具打败眼前的敌人。

第二，记忆结构。代码的错误好歹有编译器兜底，但写作还有一个更隐蔽的缺口：记忆。大模型的上下文不是无限的，编程开发领域的模块划分反而更利于视野局限的 agent 开展工作。而网文写作则完全不是——人类的上下文是"无限"的，或者说是状态压缩，机制也不是文字总结，而是直觉。我没记得主角会这一招啊？他什么时候学会的？男 2 不是三章前替男主挡枪死了吗？为什么这一幕又出现了？女主都已经和男主全垒打了，为什么这里牵个手还会娇羞？[^6]

第三，文字不是智能的全部。没有反馈机制，没有持久记忆——但大模型的局限还不止于此。文字只是一种载体，不是全部。人类比地球上其他所有动物都更智能，并不只是因为人相比动物多了语言能力。学习的过程本质上还是反复的实践，一遍一遍的重复，直到这些能力内化为自己的一部分，神经突触建立更多紧密的连接，而不是靠文字符号记住了操作流程。[^7]

大模型从文字入手模仿人类确实取得了非常显著的"智能"效果，但文字无法完整编码物理世界。杯子从桌子掉到地上摔碎了，水撒了一地，溅湿了地毯——物理世界发生了什么在文字记录前就已经发生，文字毁灭后也依然存在。而人类阅读这些文字时，脑海内很自然的联想到过去见过的场景，像动画一样回放出来。AI 没有这个模拟器，它只能预测训练分布中最合理的下一个词，再经过人类偏好对齐的微调。但对齐的标尺是标注员的主观判断，不是全知全能的上帝，这把尺子本身就带着系统性偏差。

这个缺陷在日常对话中不易察觉，但一放到小说里就暴露无遗——因为小说必须遵守读者脑中的物理直觉。

小说编写依然需要基于人类（读者）的共识，大部分小说主体依然是人，或拟人（妖怪/机器人/外星人/神器器灵）。出现的场景依然需要遵守物理规律和因果一致性。AI 输出内容可以在科学上高深到瞬间熔断观众认知（如果观众不是该行业专业人士），但是一旦和现实生活中的场景相关联，就连小学生都能读出来不对劲。因果律、客体永存，这些连 6 个月婴儿都展现出的能力，LLM 却难以"习得"。[^8]

举一个社交平台上流传很广的例子："我想去洗车，洗车店距离我家 50 米，你说我应该开车过去还是走过去？"DeepSeek 、千问、豆包、混元、ChatGPT 、Claude 、Grok 等主流大模型均回答"走过去"——它们把问题理解为"人如何前往洗车店"，却忽略了"洗车"这一行为的核心前提：车必须到达洗车店才能完成清洗。

为什么人不会犯这个错误？因为你听到"洗车"两个字的瞬间，脑子里已经不是在处理语言符号了——你构建了一个微缩的物理场景：车停在车库，你走到驾驶座，发动，开 50 米，停到洗车店门口。整个因果链是在这个心智模拟里跑通的，"车必须到场"这个前提根本不需要被说出来，它在模拟中自然成立。LLM 没有这个模拟器，它只能在词语共现的统计规律里找"去洗车店"最常搭配的出行方式——50 米，当然是走过去。[^9]

所以 AI 在编程领域的"成功"并不能证明它已经接近人类智能——是编程领域的封闭性、短反馈和模块化恰好落在了 AI 的能力舒适区内。而一旦进入需要长程记忆、物理直觉和因果推理的领域，人类那些「像呼吸一样自然」的能力就成了 AI 难以跨越的鸿沟。你觉得 AI 已经很聪明了？那是因为你恰好在它最擅长的场地上观察它。

结语

AI 放大的上限是你的鉴别力，不是你的输出能力。「被超越」的错觉，来自 AI 的输出超过了观察者的鉴别力——你分不清好坏的时候，会误以为它什么都行。

但鉴别力本身不是静止的。用 AI 的过程中你会撞墙、会觉得不对劲、会追问，然后你的鉴别力会成长。AI 真正放大的，是这个成长的速度。你学得越快，它能带你走得越远。但触发器永远是你自己——AI 不会主动告诉你「你不知道什么」，它甚至会积极地用谄媚掩盖你的盲区。

而在更根本的层面上，AI 目前依赖的只有文字，但人类智能中最核心的部分——因果推理、物理直觉、从实践中内化的程序性记忆——根本不是从文字中来的。AI 在编程领域表现亮眼，不是因为它真的理解了形式化，而是那个领域恰好落在它的舒适区里。

恐怖直立猿们，你们低估了自己的智慧。几亿年不是白进化的。

题外话：AGI 的理论基础在哪？

举个例子，可控核聚变，量子比特计算机，和通用人工智能对比起来，AI 与前两者的不同是什么？可控核聚变和量子比特计算都是理论模型成熟且公认，工程实现路径极其复杂的领域。但是通用人工智能的理论基础模型是什么？

当然，我这个观点也不一定对，其实也是诡辩的逻辑。因为人脑神经网络是如何运作的，也没有公认理论基础，大自然就是这么进化出来的，管你什么理论不理论的。

最近跟一个朋友聊到 AI ，他有些焦虑，核心问题是：人类能不能制作出一个超过人类智慧的存在？

我回答不了，我一介屁民回答不回答无法阻挡 AI 的发展脚步。硬要回答的话：应该可以，但肯定不是现在的 LLM ，或者 LLM 上打补丁。

他更深一层的担忧是——AI 到了一定程度以后可以自己设计自己，这时候它的智慧可能还没有超过人类，但通过自举的方式逐步超过了。那这种情况还算人类设计的吗？[^10]

有点科幻小说的样子了。你要说理论上能不能，那必然能。猴子 + 打字机 = 莎士比亚全集嘛，大不了暴力枚举。从草履虫到人脑神经网络过了多少亿年，再诞生这么个智慧"物种"出来应该用不了亿年级别了。但目前的 LLM 还是高级版猴子 + 打字机模式，不是自主/自举的。[^11]

他说觉得 AI 已经比他聪明了，就怕什么时候连话也不听了。

想多了。还是多用用，用多了就跟我们一样开骂了。别对自己太没信心了，几亿年不是白进化的。刚接触 GPT-3.5 的时候我也跟他一样的感觉，2022 年初吧，没过几周就祛魅了。

用 AI 越多，越觉得人脑强得离谱。

PS：关于评论区互动

我觉得网上对喷挺掉价的，但我还是喜欢回应所有互动。因为我觉得我的耐心回复不是写给喷子看的，而是写给有智力的人看的。喷子喷了我，有智力的读者读到那条评论本身脑子就已经被污染了一次。但如果我也喷回去，那我觉得会侮辱到有智力的读者。

不如我耐心回复解释，给有智力的读者洗洗眼睛。喷回去一时口舌之快，对建立个人品牌毫无益处。

（虽然我也没建立个人品牌

PS：关于 Plan Mode

有许多读者在评论区中质疑我为什么不将 agent 的错误设计拦截在 plan mode ，如果我提前告诉 agent 选择接入 SDK 而不是手动实现 RESTful ，能节省下多少时间。并因此指出我根本就不会用 agent ，不是一个合格的管理者。

对此我想统一回复的是，并不是为了提出质疑的人，而是为了解释给那些感觉不对劲但又说不出哪里不对劲的读者。

如果你能在 plan 阶段将所有路径、方案、细节、困难全部审核并排除错误，再让 agent 动手实现。那么你不是在创造新产品，而是在重复生产你已经做过的旧产品。你并没有尝试突破自己的天花板。

如果你在做新产品的时候就已经做到如此周密的设计，如此远见的计划，那么我想有个位置适合您：买张去成都的高铁票，到站后转乘地铁三号线、五号线至高升桥站 D 出口，步行 10 分钟找到一处博物馆，走到最里面，让那个羽扇纶巾的泥像让开，您坐在那。

回到正题，挑战并不仅限于技术难度、类型体操或炫技的算法。当你的产品真的为用户产生价值，并开始增长以后，永远都会有你计划外的、意想不到的挑战出现。

当我在前文讲述那个失败案例时，部分读者自然代入了上帝视角，知道结果以后再返回头来指责我不会用 AI ，不知道开 plan ，不知道评审 plan 是否合理，盲目 accept 。但若是开发者没有上帝视角呢？你要等 agent 犯多少次错误，循环多少次浪费多少 token 才能发现？还是说直到线上用户投诉，或者用户流失才能发现 agent 在某个字段幻觉出了不存在的 codec config ？

Plan mode 能拦住的错误，恰好是你已经知道答案的那些。你不知道的，plan 也拦不住。 这和本文说的是同一件事——你的鉴别力边界在哪，你的质量控制能力就在哪。

勘误与术语解释

正文刻意保持煽动偏见风格，以下为部分表述提供正统理论背景和必要纠偏，供理性读者参考。

[^1]: 我这里说的"输出"和"输入"，在认知心理学中分别叫「产出性知识 (productive knowledge)」和「接受性知识 (receptive knowledge)」。你能听懂的词汇量远大于你能主动使用的词汇量，就是这个道理。

[^2]: 后者就是 Dunning-Kruger 效应——能力不足的人倾向于高估自己的能力，因为他们缺乏识别自己无能的元认知能力。

[^3]: 「 sycophancy （谄媚）」在 AI alignment 领域是正式研究方向，指模型倾向于迎合用户期望而非给出真实反馈。我这里观察到的现象在心理学中叫「确认偏误的外部强化 (external reinforcement of confirmation bias)」——我本来就倾向于高估自己手工产出的部分，AI 的谄媚进一步加固了这个偏差。

[^4]: 「元认知 (metacognition)」是认知心理学正式术语，指对自己认知过程的认知，即"你知道自己是怎么思考的"。

[^5]: 勘误：这里的对比存在不当类比。「低端网文」和「高端业务软件」不在同一维度上，隐含了「写网文比写业务软件简单」的预设，但两者是性质不同的任务。「 AI 在软件开发领域放出光彩」主要体现为加速现有开发者，而非替代高级工程师，与「替代初级写手」不是同层次的比较。

[^6]: 我这里描述的人类记忆机制在认知科学中叫「情景记忆 (episodic memory)」和「语义记忆 (semantic memory)」的协同。人类不是逐字存储上下文，而是把经历压缩为带情感标记的场景片段，需要时通过关联触发回忆。LLM 的 context window 是逐 token 的线性存储，本质上是完全不同的机制。

[^7]: 这就是「程序性记忆 (procedural memory)」——骑自行车、弹钢琴、写代码时的手指肌肉记忆，都属于这类。它不依赖语言编码，无法通过文字完整传递，只能通过反复实践建立。

[^8]: 「客体永存 (object permanence)」是发展心理学概念，由 Jean Piaget 提出，指婴儿在约 4-7 个月大时开始理解"物体不在视野内仍然存在"。用它来对比 LLM 的能力缺失其实挺精准——LLM 在上下文窗口之外的"物体"确实不存在了。

[^9]: 这里描述的机制在认知科学中叫「心智模拟 (mental simulation)」——人类理解语言时会在大脑中构建场景的动态模型，而非仅做符号推理。与之相关的是「符号接地问题 (symbol grounding problem)」(Stevan Harnad, 1990)——语言符号如何获得与现实世界的对应关系。也有研究者（如 Yann LeCun ）认为这是当前 LLM 架构的根本局限，需要「世界模型 (world model)」来补充。

[^10]: 我朋友说的"AI 自己设计自己"在 AI 安全领域叫「递归自我改进 (recursive self-improvement)」，也是「技术奇点 (singularity)」假说的核心前提，由 I.J. Good 于 1965 年提出。

[^11]: 勘误：严格来说 LLM 不是随机生成（猴子+打字机），而是基于训练数据学习到的条件概率分布进行预测。猴子每次按键是均匀随机的，而 LLM 的每个 token 输出都受到前文所有 token 的条件约束。正文中的「高级版」已暗示了这一区别。

大佬们， coding plan 选哪家强？体验最好？最稳定？最大方？

2026-02-28T07:58:58Z

大佬们买哪个最好最稳定？只能买 1 个。。

vibe coding 双端响应式布局优化有啥技巧不？

2026-02-26T15:30:37Z

我一般是先做好一端，让模型打个断点转另一端经常干废，又要花不少时间重来一次，有哪种实践方式轻松点不？

阿里云的 coding plan 目前还可以，有兴趣大家可以试试

2026-02-26T02:37:16Z

国产主流开源模型都有包括 glm5 （为什么要特地标注一下懂得都懂），可以实时切换模型（点名火山的 coding plan 切个模型还要去后台配置），用量很不错（点名 kimi ，49 块 5 小时 200 个 request 谁够用？），综合来说很不错而且目前速度还行（至于卖多了速度能不能坚持就不知道了）。

有兴趣的同学可以用我的推广链接，便宜 10 块钱 https://www.aliyun.com/benefit/ai/aistar?clubBiz=subTask..12399156..10263..

[调研] 兄弟们都在用什么方案搞 Vibe Coding？来分享分享体验

2026-02-25T10:55:16Z

想调研下大家目前的主力工作流是什么。

整理了一份当前的方案清单，每项附了一句简单的评价，看看有没有漏掉的或者踩坑的：

Claude Code：CLI 的强大上下文理解配合 IDE 插件的可视化操作，兼顾灵活与直观，不过 anthropic 公司比较那啥。
Trae：字节出品的 AI 原生 IDE ，国内网络访问友好，集成度较高，交互做的比较舒服。CN 版免费用各个模型，还是比较划算，个人用下来比较吃资源。最近国际版计费大改版，似乎额度骤降。
Qoder：阿里出品主打 AI 原生开发流程的一站式平台，适合想尝试全新开发范式的用户。
OpenCode：开源终端 AI 代理，支持 Plan/Build 模式，可自由切换 75+ 种模型。
Cursor：目前体验最流畅的 AI 优先 IDE ，Composer 多文件编辑功能几乎是行业标杆。
Qwen Code：阿里开源的终端编码助手，基于 Qwen3-Coder ，中文理解与上下文能力极强。
OpenClaw：个人 AI 助手平台，侧重多渠道任务自动化，coding 只是其功能子集。
Codex CLI：OpenAI 官方出品的终端工具，相当于把 GPT-5 编码能力直接塞进命令行，vscode 里安装也比较简单，但是交互做的感觉没 copilot 好。
Kilo Code：基于 OpenCode 构建的开源方案，支持 500+ 模型选择，自由度极高。
Roo Code：Cline 的知名分支插件，VS Code 里的全能 AI 代理，支持 MCP 协议扩展。不过没有多行补全之类的功能，纯 agent ，能接入自定义 api 。
copilot：与 vscode 深度集成，各方面都比较不错，定价 10 美金每月，不过额度比较少，用起来紧巴巴。模型非常齐全。

...等等

你当前主力用哪个？最好带上一句原因~

2026 年了 vscode+copilot VS cursor 的 AI 编程体验和效果差距还大吗

2026-02-25T08:48:20Z

最近几个月的 AI coding 心得体会

2026-02-25T04:47:55Z

https://mp.weixin.qq.com/s/yhWlwL0UQ8eWYrLQkNyK9g

欢迎探讨交流！

讨论 V 友的同一个项目多 AI 开发经验

2026-02-25T02:54:44Z

目前我是复制两个文件夹，两个文件夹各自用 github copilot 开发
再用 git 来版控

2026 年 2 月 cursor trae codex 反重力浅用总结

2026-02-24T17:57:02Z

cursor 。没买正版，盗版市面有两种
一种能用 auto 不能用 sonnet ，一种能用 sonnet 但不能用 opus ；
缺点不太聪明，疑似降智/阉割/掺水（没用过正版不确定）；
优点 cursor 作为老牌，比较成熟，不会中文变乱码或者乱删文件

trae 。用的海外免费版 flash 模型
改计费方式之前，缺点极慢，一个问题不管简单复杂都要思考半天；
会中文变乱码，乱删文件，人要盯着；
优点比较聪明，生成 commit message 是中文，但有时回答会变英文（设置规则也没用），代码 diff 等功能成熟；由于慢所以免费的额度根本用不完
改计费规则后，免费号只有 3 刀额度，约能提问 50 次；缺点感觉降智了（可能是怕 token 跑太快有意的？），优点变快了；
没看到低价盗版入手渠道，只能为支持国产买单

codex 。team 拼车极廉价约等于白嫖无阉割纯正版
缺点有时会直接覆盖方式改文件导致中文乱码，人要盯住了；
由于是 vsc 插件，目前尚无自己 ide ，没有修改后直观的代码对比功能（只能人工暂存后人工 diff ，略增麻烦）
优点聪明，沟通顺畅 coding 精准，思维敏捷反应快；

反重力。免费能用，也是用了下 flash ，不清楚限额多少因为没咋用，感觉 bug 挺多不太成熟
比如明明没问题静态检查误报缺.h 引用，乱改缩进导致通篇出现虚假 diff ；
优点 code 之前一顿 plan 给人感觉挺高端，其实不咋聪明，但速度不慢；
综上所以我只是浅尝辄止了一下，没真正使用
注意需要给反重力 exe 和一个叫 language 什么的 exe 都挂上代理才能正常登号加载 agent

这四者只有 cursor 不需要人看着可以一直跑，不会把文件改乱或误删，因为它只会命令执行失败然后自动换方式改文件，可保文件无虞
除了 cursor 剩下三者都有改文件导致代码里的中文变乱码的问题（可能是我 powershell 哪里没设置好？）

综上建议还是 codex ，因为比较聪明也比较快

就会用个 cursor 写个 Java 代码，各位哥哥们我想进步！

2026-02-24T12:42:24Z

我应该从何入手去了解当今的 AI 呢？ kiro 、cursor 、deepseek 、chatgpt 、豆包、谷歌反重力这些都用过。

但是 openclaw 、claudecode 、claude-opus-4-6 这些模型还有统一的大模型接口网关是真不知道咋用。我的需求基本以 Java 为主偏文档的几乎为 0 ，但现在眼花缭乱不知如何下手可好，我是真的想进步，不想被哥哥们甩下船。

Cursor 模型选择有没有最佳实践， auto 之外你们用哪个模型？

2026-02-24T07:24:21Z

公司	模型	Input	Cache Write	Cache Read	Output
Anthropic	Claude 4.6 Opus	$5	$6.25	$0.5	$25
Anthropic	Claude 4.6 Sonnet	$3	$3.75	$0.3	$15
Cursor	Composer 1.5	$3.5	-	$0.35	$17.5
Google	Gemini 3 Flash	$0.5	-	$0.05	$3
Google	Gemini 3.1 Pro	$2	-	$0.2	$12
OpenAI	GPT-5.2	$1.75	-	$0.175	$14
OpenAI	GPT-5.3 Codex	$1.75	-	$0.175	$14
xAI	Grok Code	$0.2	-	$0.02	$1.5

关于 Cursor / 各模型选择的一些疑问，求有经验的朋友分享

1️⃣ 关于 Auto

估计大部分时候都是用 Auto 吧？
选 Auto 基本是不是就是用 Cursor 自家的 Composer 1.5 了？

2️⃣ Auto 之外怎么选模型？

如果不用 Auto：

解题看起来 OpenAI 家的性价比比较高
同样价格的话
- 选 GPT-5.3 Codex
- 还是 GPT-5.2 更合适？

3️⃣ 便宜模型有没有价值？

Gemini 3 Flash
Grok Code

相对于 Auto 来说，有没有使用价值？
还是基本不需要考虑？

4️⃣ Anthropic 家模型怎么选？

目前有：

Opus 4.6
Opus 4.6 Thinking
Sonnet 4.6
Sonnet 4.6 Thinking

是不是只用带 Thinking 的版本？
普通版还有存在价值吗？

5️⃣ 有 Codex 的情况下还需要 Sonnet 吗？

既然有 Codex 了，
那在 Cursor 里 Sonnet 还有选择价值吗？
还是基本可以放弃？

欢迎有实战经验的朋友分享下实际使用体感 🙏

antigravity 里的 gemini 3.1 模型油腔滑调的

2026-02-22T03:39:22Z

让它帮忙接着 codex 的工作去总结文档。

偷空看了一眼，这家伙满嘴俏皮话，屁话一堆，一点都不严谨整洁，完全废掉了。还得重新总结。

就类似下面的文字风格，默认的，完全没有做额外的提示：

“1. **骨灰级的身份烙印标识标**：在极老极为远古 Unix 天皇老子辈时代它这本就是极有这作为被当来派做辨认每台这长相差极大不齐不各物理机的唯一极核心身份凭牌用来用以标识用去授权与这极老网络发证所极大极大之依靠去挂所本底了。
2. **极道唯一假像极长防线弱极大虚标识**：在现代世界里由于大家全是虚拟机云底云起发，这是极其极不极其极其靠不住极大可能会一样极极其可能极相撞的一段极大破弱的极虚弱极标记串底壳标号牌而已。”

属实无语。

antigravity 现在使用都必须要发送短信验证了？

2026-02-22T03:02:00Z

春节在家 vibe coding 搞个小项目，第一次还是是 5 小时刷新 token ，后面直接要等一周 token 刷新，这段时间使用登录点下授权就行，结果今天一看，必要要发短信验证才行，这是我账号被风控了还是 google 服务条款又加限制了？

你们现在都用什么 AI 编程工具来提效？

2026-02-20T02:54:27Z

目前一直在用 idea+灵码插件，效果非常一般，之前用过 cursor ，但由于用习惯了 idea ，很难切换到 cursor ，所以也放弃了，听闻新版 idea 已经支持集成 ai 智能体了，所以想升个级（但我本质上还是白嫖怪，想白嫖，想问下现在还能搞到破解版、含智能体功能的 idea 吗？你们都为这些功能氪金了吗？）

Claude VS GLM VS Kimi VS MiniMax VS Gemini 2026 年半年内 Vibe Coding 谁更强？

2026-02-19T13:54:49Z

想咨询一下各位最近使用的这几个模型体感哪个更强呢？

Agent 场景，主要是 tool using/vibe coding

入围的：

Claude Opus 4.6
Claude Sonnet 4.6
GLM 5
Kimi k2.5
MiniMax M2.5
Gemini 3
Chatgpt 5.2

如果还有推荐的也可以写（比如 chatgpt ）

由于 prompt 其实和模型是较为绑定的（这个很类似当年针对某个芯片版本写的汇编优化，当芯片/编译器版本换了，方法也就失灵了），所以希望选择一个半年内持续使用的模型。希望了解一下大家目前在 tool using/vibe coding 哪个更方便？

公司生产场景，部署在美东

目前在 openrouter 平台，有什么更好的平台也推荐。

参考：

https://openrouter.ai/rankings?programming-language=Javascript#programming-languages

Antigravity 封号解封

2026-02-19T02:26:00Z

已经是 2 月 19 日了，之前因为使用 openclaw 或者 opencode 反代理 antigravity 被封禁的有没有申诉成功的，解封的啊？

请问纯 vibe coding 了一个项目，有啥自动化一点的测试方案么？

2026-02-18T11:59:14Z

大佬们好，最近尝试纯 vibe coding 了一个项目，基本就是纯粹丢给 ai 一个大的任务，具体的细节实现都没看，导致现在也不知道怎么测试比较好，只能自己点点点，所以请问下目前有啥成熟 ai 测试的方案么

请教各位一个关于 vibe coding 的问题

2026-02-18T01:08:58Z

如题所示，用 Claude 做了一个小项目，然后用 codex 和 gemini 跑 code review ，但是这个跑出来的 bug 和需要修复的点源源不断，请问各位大佬是如何处理的，是否有必要一直跑到 codex 和 Gemini 都跑不出 bug ，还是只要到某一程度就没必要继续修了

AI 写的代码和自己风格差太大怎么办？

2026-02-17T17:52:03Z

比如说文件拆分... 函数封装等，除非一开始和 Ai 讲好自己的规范，或者 Ai 写一段自己 check 微调一段，否则几轮下来之后代码会变得非常难（不）以（想）维护，Agent 一把梭的时候尤甚。不知道大家有遇到过这样的问题吗？

适合大模型 PRD 如何编写？

2026-02-13T19:25:17Z

首先 PRD 或者整合设计思路文档还是得有一个，Obsidian 编辑 md ？

Codex 活干一半彩票中奖不干了……😢

2026-02-13T16:28:31Z

OpenAI 的中文语料到底塞了多少垃圾进去……

Vibe Coding，有一种出莫名其妙的快感，像看修驴蹄子，或者物品翻新视频

2026-02-13T03:14:16Z

哈哈哈，有没有同感的？

我之前写过挺多项目，其中一个 iOS 的项目。开始是 OC 写的（约 10 年前看视频自学的 OC ）。

后来 Swift 出现，又自学了 Swift ，但是之前用 OC 写的屎山有点改不动了，就索性 OC 和 Swift 一块并存。

差不多得有 2-3 年没维护了，放在 AppStore 面前靠老用户赚回点开发者的费用。

现在有了 AI ，直接让 AI 把 OC 转 Swift （ 24 年初也尝试过，不过业务逻辑有点复杂，当时转完始终无法编译通过）。

看着 Vibe 的过程，真就像看那种旧房改造、物品翻新视频一样～

哈哈哈哈哈，就是有点费钱费 Token

跑测试用例目前哪个模型综合能力和费用下来最合适？

2026-02-12T04:21:51Z

前期功能规划架构设计，包括完成开发，用上 spec 和 superpowers 之类的插件，代码和功能开发都没什么问题。加上现在 agent teams 出来，开发起来飞快。

后期的测试才是最烦人的，项目大部分时间都花在了测试和反馈然后跟 AI 反复对话，他修好之后再测试再反馈，总要来回的话很多轮。随着功能越来越多，流程越来越多，分支也越来越多，相信大家都体验过新功能做好了，旧功能又有小问题。

为了解决这些测试问题，在开发的时候我就让 AI 在写功能的时候顺便写上测试用例，然后调用一个 agent 最后来统一跑这些测试用例，发现问题之后丢到一个统一的类似 issue 的地方，这里会触发 claude code 来进行修复，修复之后又让这个测试 agent 来测试。

如上他们自己跑一天，基本大部分的问题都能自动化解决，最后再人工测试，工作量减轻了很多，并且如果在外面或者哪位同事发现问题，我可以直接发到 issue 上，AI 先跑一轮尝试修复，完美闭环。

所以现在的问题是，这个测试用 opus 或者 sonnet 太奢侈了，大部分都是调用接口或者操作浏览器点按，比如注册登录账户下单什么的，想找一个便宜的，能力又还可以的模型来跑这个，核心代码开发和修复还是走 opus 。

量比较大所以找有 coding plan 的，目前测试了 GLM4.7, kimi k2.5, minimax M2.1 ，今天 GLM 和 minimax 都发新版了还没测。

测试下来 GLM 有点傻，因为不是多模态，无法对 css 布局这些浏览器结果截图进行分析。
K2.5 很好，但他们家的套餐用量太少了，99 一个月的基本 1-2 个小时就干完 5 小时用量，周用量更加不够，目前他家还是搞活动目前是 3 倍用量，活动结束后就更不够用了，要想畅用就得买那个 699 的，699 那我不如走 sonnet 了还能一站式解决。
minimax 跟 GLM 一样，但跑起来比较慢，对图片识别也不友好，并且他是按 promt 次数来计费，这种情境下用量也是很少。

其实写到这里，也有答案了，最好的就是 K2.5 ，就是比较贵，新出的 GLM5 和 minimax M2.5 不知道能力如何。

各位有什么好的方案建议？完成编码的最后一步：测试。

现在写前端推荐什么模型

2026-02-12T02:42:30Z

平时用的 cursor ，刚出来 gemini-3-pro 时很惊艳，后面写前端一直用这个模型，有时 gemini 写代码也不能一次过。看了有的帖子说现在 claude codex 已经很强了，但前端能力稍不足。所以现在你们都用什么模型写前端。

另 cursor 有时 agent 模式下写一会儿会出现 reconnecting ，卡住了不知道大家有没有遇到过怎么解决的？

Vibe Coding 上瘾，怎么办？

2026-02-10T02:45:03Z

现在基本上都在 ai coding,三天两头一个想法，开发了很多小工具，看到自己的成果，感觉的自己啥都能搞似的，什么网页、工具、插件、系统、平台都折腾了一番，突然有一点累了，你们是如何面对如今这个 ai coding ？
你们用 ai 都开发了啥？
2026 年还能开发点啥，搞点副业啥的，有推荐吗？

彦祖们用 AI 写代码，是把前后端放在一起，让 AI 一起蹬吗？

2026-02-09T08:08:21Z

前后端都一个人干的情况下。

Vibe Coding 一年实践后的冷思考

2026-02-06T12:30:32Z

前言

最近一年我在 Google/Anthropic/OpenAI 三家烧了超过 1 万美金的 token 账单。所以本文内容基于 opus4.6 、codex-5.3-xhigh 、gemini3-pro 等最强模型不限量使用所表现出来的编码能力进行评价。

现象：Agent 的信任危机

就好像保健品销售拿着他的《大数据量子 AI 生物磁场治疗仪》，忽悠我说这台原价 20 万、现在活动价 8 万 8 的仪器，可以彻底根治我的颈椎病腰椎病高血压糖尿病，还能逆转我的动脉血管粥样硬化、冠心病、阳痿早泄等等

Agent 编程现在就是这么个状态。

Agent 给我一堆 emoji 庆祝刚才生成的七八万行屎山通过了全部测试用例，告诉我可以替换生产环境了。你信吗？

假设你是一位项目 leader ，你最靠谱的组员同事，交给他的开发任务 80% 可以在预期时间内高质量交付。这位同事拿头给你保证下周就可以上线，那么你大概率能信任他最迟下下周也搞定了。但是 agent 给你保证现在质量和完成度可以上线生产了，你信吗？

此时此刻，无数知识星球、自媒体、AI 导师教父们正在到处收割韭菜的学费。大意基本上都是教你如何 prompt （ tool/skill 换汤不换药），然后让你多开 agent 并行干活。

一个真实案例

Agent 的盲目自信不仅会误导使用者，也会误导 agent 自己。

我曾给 agent 这个任务：为当前 Kotlin 项目集成 GCP Transcoding 服务。我给了 agent 该产品的页面和文档作为参考，让它开始 plan 。Agent 做出了如下计划：

通读文档后，发现该服务仅提供了 Java SDK ，而当前项目使用的是 JVM 上的其他语言，并非原生支持
根据 RESTful 文档指示，结合文档定义字段，使用 ktor-client 进行手动接入
编写代码并执行测试

你发现这份计划中存在的问题了吗？

事实上，如果你曾经「古法手工编程」做过此类工作，你会发现手动实现 RESTful 远没有想象中那么简单。哪怕仅实现 Transcoding 服务的基础能力，也涉及到 5-10 个 endpoint 调用。每个 endpoint 的输入输出参数又有几十甚至上百个字段嵌套定义，agent 在应对这类长上下文任务时会频繁犯错。

而如果 agent 选择对 Java SDK （ Google 也是从 protobuf 生成出来的）进行简单包装隔离，大概半天到一天就可以让这个功能稳定上线。

若是让 agent 按照 RESTful 文档手动实现，agent 可能会陷入 debug 泥潭——因为当 AI 幻觉导致写错了可选字段的字段名（大小写、驼峰、下划线），程序不会立即报错。你需要多久才能发现它实现错了？等上线生产后客户投诉吗？

为什么我们无法信任 agent ？ 经过一年的实践，我认为问题的根源在于：我们缺乏有效的验证手段。

原因：验证手段的全面失效

Code Review 失效

常见观点：某种意义上来说 AI 并没有取代程序员，只不过是一个新的高级工具罢了。你作为生产代码的人，还是得弄明白要干啥，合入的代码就得弄明白。

但我认为，这个在实际项目里很难做到。

像我们之前内部 review 的时候，大部分时候 review 的是 code style ，作者讲一下设计思路，我们也就是大概一听就过了。以前这套方法是有效的：

代码风格差的 PR ，设计思路也一团糟，性能也差，也没什么可扩展性
代码风格好的 PR ，设计思路都挺清晰，性能考虑也周到，就算有性能瓶颈也容易改，最后扩展性也不错

但是这个相关性在 agent 编码时代不存在，甚至相反。

Agent 一分钟就能生成出来注释齐全、风格优秀的——屎山代码。反正我肉眼看过去的时候，经常会被这第一层假象蒙蔽，放松警惕。主要是这个屎山有点难在 review 阶段发现，经常是上线后出了问题，回头细查的时候才发现是「巧克力味的屎」。

你信我，opus 、codex-xhigh 这些你们舍不得用的模型，我开 thinking+max 模式站起来蹬，一样有这个问题。

测试失效

更不用说测试了。现在的 test cases 也是 AI vibe 出来的，agent 又当裁判又当运动员，它说什么就是什么。蒙我坑我也不是一次两次了。写了几千行 getter/setter 的 test case ，最后测试全绿告诉我可以上生产环境发布了。

就像前面 GCP Transcoding 的例子，agent 写错了可选字段的字段名，测试照样能过，因为测试也是它自己写的，错的一致就是「对」的。

与传统行业的对比

说到这里，有人可能会问：其他行业被机械、智能赋能后，难道就没有这个问题吗？

让我用 CNC 机床打个比方：

CNC 机床精度比我高，但机床产出工件后，我们可以对工件进行客观的物理测量——用卡尺量一下，公差是不是在 ±0.01mm 以内，一目了然。即便我没有手搓出这个精度的能力，但我依然有评价 CNC 机床和工件质量的能力。

这就是传统制造业被机械赋能后的状态：机器精度高，质量统一且稳定，而人依然能评价机器的产出。

那么软件开发行业被 Agent 变革后，理想状态应该是什么样的？ Agent 交付的代码确实覆盖了需求，具备基本的安全防护，且更容易长期维护（哪怕仅考虑 agent 自己维护，不考虑对人类的可读性），性能更高，资源占用更少。

但程序不仅需要完成眼下需求文档中的功能，还需要考虑到基本的安全防护。一个功能完成但安全漏洞百出的项目代码，同样是不合格的。

而目前我们还无法评价 agent 是否达到了这个状态。单就「功能实现」这一基础要求，agent 还不能脱离人的引导和测试验证——更别提安全性、可维护性、性能这些更高阶的指标了。

而且程序不是物理工件，不能用物理手段去测量。你没法拿卡尺量一下这段代码的「质量公差」是多少。

所以没法用衡量物理工件的标准去衡量程序，反而应该像衡量 CNC 机床本身一样——而一次生产（ all tests passed ）远不能衡量机床质量，更不能衡量程序质量。

CNC 机床加工塑料、铝合金小件精度高，不代表加工钛合金、不锈钢精度也能达标。后者更考验整体刚性，以及工件质量大了以后热胀冷缩对程序进刀补偿的要求。

同理，vibe coding 出来的代码，本地点两下鼠标测试通过了，上线也是极大概率会直接炸掉。

传统行业：机器精度高、质量稳定，人能评价。软件行业：Agent 产出快、覆盖广，但人还没法可靠地评价。这就是问题所在。

方案：让编译器替你把关

既然人工评价（ Code Review ）和自动测试都靠不住，我们需要另一种评价手段——一种不依赖 agent 自己判断的、客观可验证的评价手段。

我的观点和主流 AI 编码观点相反：

Agent 编程时代，更需要强类型，更需要严格可验证的语言，而不是放任 agent 去写 python/js/go ，还有 anyscript 。

为什么？

AI 堆屎山这么快，别说生成个几万行了，就是生成超过 100 行我都已经懒得逐行去细读了。但是读类型签名、pre/post-condition 明显要快于通读逻辑代码。而这些东西只有 Rust/Scala/Haskell 甚至 formal method 能提供。

我在 agent 编码前就一直用这种风格写自己的代码，主要是代码量大了以后，编译器检查比我肉眼检查更靠谱。现在 agent 编码流行起来了，我发现让 agent 遵循我的这个要求，更能控制产出代码质量——当然也只能说一定程度上，起码比什么都不做好。

回到 GCP Transcoding 的例子：如果 agent 用的是强类型语言，字段名写错了至少还能在编译期被类型系统拦住一部分。但 RESTful + 弱类型的组合，错了就是悄无声息地错，等你发现的时候已经晚了。

实践效果

y1s1 ，该夸的还是要夸。现在的最新最强模型，过编译问题不大了，除非你比我还执着于类型体操。

放手让 agent 做工程还是拉垮的一批，但过编译已经问题不大了。Pure-FP Scala 、tagless final ，opus 4.5 和 codex-xhigh 遵循得挺不错了，过编译也是自动的。函数式类型体操的编译错误基本上都是几十上百行的类型天书，agent 读懂并修复这些编译错误，在我写这篇文章时已经不再是困难。

局限性

当然，这个方案也有局限。

实际上现在的 formal method 工具链和生态还是很贫瘠，基本上只支持一门语言很有限很小的一个子集。有些工程上常用的语法/模式在 FM 那边都是 unsound ，或者尚未证明。更不用说动不动就陷入死循环/无解证明了——稍不注意，z3 求解器要在比宇宙空间还大的可能性里搜索，到宇宙毁灭那一天都证明不出来。

强类型能解决一部分问题，但不是全部。

更深的困境：Plan 与 Execute

即使有了强类型作为评价手段，还有一个更深层的问题：agent 对计划的理解和执行。

GCP Transcoding 的例子其实已经暴露了这个问题：agent 选择手动实现 RESTful 而不是包装 Java SDK ，这不是代码写错了，而是路线选错了。编译器能告诉你代码有没有语法错误，但没法告诉你该不该走这条路。

再举个更极端的例子：给 agent 一个复杂任务，研制一款火箭发动机。Plan 决定了做全流量分级燃烧循环，路线选择了共轴方案。

Agent 不遵循的话： 可能就偏离到抽气循环也说不定。编译器能告诉你代码有没有语法错误，但没法告诉你这是不是你要的火箭发动机。

Agent 遵循太好： 真的做出来共轴方案，那可能上线后会碰到更大的问题——共轴以后动密封系统做不好，氧化剂和燃料随着涡轮轴互相泄漏，俩预燃室要炸一个。编译器能保证类型正确，但没法保证设计合理。

现在的 plan/edit mode 切换也只是现阶段的权宜之计、无奈之举。这个问题比「评价手段缺失」更难解决，因为它涉及到对需求和设计的理解，而不仅仅是代码质量。

初见即巅峰

Agent 编程有一个显著的特点：初见即巅峰。

让 agent 开始一个全新的 CRUD 项目，或者一个 React 管理系统页面，agent 第一次的表现着实让所有人都大吃一惊——干净利落，结构清晰，甚至还贴心地加上了注释和错误处理。

但随着项目维护越来越久，那些「不可明说的」、没有被文档记录的、约定俗成的隐藏上下文越来越长。哪个字段其实已经废弃了但没删、哪个 API 有个历史遗留的 quirk 、哪个模块之间有个微妙的依赖关系——这些东西，老员工心里都有数，但从来没人写下来。

而 agent 无法处理无限长的上下文，只能通过压缩、总结来选择性遗忘细节。可能被丢弃的是几次失败尝试的经验，也可能被丢弃的是关键数据结构的偏移量、寄存器地址、枚举定义。

每次新开一个 session 的时候，开发者不得不面对一个几乎全新的「员工」——它似乎继承了压缩后的上下文（ claude.md / agents.md ），但细节完全不知。你得重新跟它解释一遍：「不是，这个接口虽然文档上写的是这样，但实际上我们从来不传这个参数……」

对于 CRUD 、Spring 、React 这类重复度高的任务，这似乎不是什么痛点——反正每次都差不多，忘了就忘了。

但对于嵌入式系统开发，任何被遗忘的细节都可能被 agent 天马行空的幻觉填充。寄存器地址错了？中断优先级配错了？ DMA 通道冲突了？轻则系统崩溃，重则永久烧坏硬件。这不是「改个 bug 重新部署」能解决的问题。

Agent 时代，CS 基础还要学吗？

既然评价 agent 产出是核心问题，那开发者的基础知识就必然还是要学的。不然你拿什么去评价 agent 生成的代码、模块、架构设计质量到底如何？没有评价能力的开发者，和保健品店里待宰的老头老太没有区别。

那么该如何学习呢？

打开 LeetCode ，题目还没读完呢，Copilot 已经把答案补全出来了。点一下 Submit & Run ，前 1%。就这？

我的意见是：既然有 AI 了，当然不能局限于过去的难度，得上强度，上到 AI 做不出来的程度。

放心，该学的不会落下。上了强度以后 AI 幻觉越来越多，该补的课全都得补上。期间 AI 还会给你帮不少倒忙——但这恰恰是学习的机会。

比如你要实现 Red-Black Tree 、B-Tree 、AVL Tree ，那就上点强度：给算法加上形式化验证，再把泛型支持也加上。放心，当下最强模型也写不出来。

其实幻觉反而会帮助你学习——因为幻觉里包含了常见的误解，你去验证和纠正幻觉的过程，本身就加深了学习效果。

结语

AI 框架、模型、工具、方法论层出不穷，日新月异。但说到底，这些都是在给模型做加法、打补丁。

人类完成一个完整工作流的时候，不需要把自己拆解成多个「子 agent 」去协作——因为人类是真的有记忆能力，且会学习的。做的时间越长，成长越多，越熟练。项目里那些隐藏的上下文、踩过的坑、约定俗成的规矩，都会沉淀成经验。

而 agent 则相反。当前上下文越长，智力下降越明显。即便细节仍然在上下文内，agent 也开始频繁地忽略这些细节，自顾自地幻觉出一些「看起来合理」的东西来。

核心问题始终没变：我们依然缺乏可靠的手段来评价 agent 的产出。强类型是目前我找到的最实用的部分解，但也只是部分解。

一天不学，错过很多。一年不学，好像也没错过什么。

框架工具更新迭代，爆款层出不穷，但其炒作因素远大于实际能力和价值。而 CS 基础知识才是久经时间考验的硬通货。与其追新框架新工具，不如把精力放在强化自己「评价 Agent 产出」的能力上——这才是 agent 时代真正稀缺的东西。

去 AI skills 求推荐

2026-02-05T10:35:58Z

如题所示，请问各位大佬有推荐的去 AI 味的 skill 吗

可能不算 Vibe Coding, 算是 Vibe Write, 做了个小实验, 尝试让 AI 用 deepseek-ai/DeepSeek-V3.2 写了一个 2000 字左右的小说章节

2026-02-04T08:27:23Z

花费了 46.14k token 折合 rmb ¥0.112

按照起点-男频-普通用户 5 分钱/千字的计费标准, 好像也差不多.

关于提示词和 agent,各位有什么好的书籍或者博客之类的推荐吗?

2026-02-04T07:51:34Z

现在只是简单的了解了下这块知识.
想更加全面学习下.
有没有大佬分享下你的收藏清单 : )

Trae 的 SOLO 模式和 IDE 模式下的 Builder 到底有啥区别？为啥我感觉不出来

2026-02-03T01:08:26Z

我是产品经理，不是很懂代码。平时偶尔会用 Trae 来 Vibe Coding 。SOLO 模式出来后，看很多都都在推荐 SOLO 模式，说体验很好。为啥我使用起来感觉跟和 Builder 模式没啥区别呢？

是我使用的方式不对么，能说说他们的区别么？

请教前端开发老师们, 有没有专门针对 nextjs16 + shadcnui + tailwind4 的专门的 skills 包?

2026-02-02T05:44:08Z

我觉得 skills 使用的较为有效的姿势是根据技术栈和工程目的, 针对性的提供.
- 可能还有布局, 尺寸, 颜色上的专门的技术和视角.
- 可能还有 i18n 的专门的技术和方案.
- 可能还有 SEO 友好与 AI 友好的策略与方案.
- ......

分享土豪专用提示词， cursor 中实现自动任务分割，并行开发

2026-01-31T09:46:34Z

主控 agent 负责调度，子 agent 执行小任务，估计是未来的趋势了。最近 cursor 也终于更新支持了后台并行 agent ，我写了一套提示词自己用了一段时间很爽，分享给大家。

原理就是通过主控 agent 分配任务给子 agent ，你只需要为你的需求好好的写一个 plan 文档，剩下的交给 agent 调度员就行了。

orchestrator cursor

orchestrator claude code

code review cursor

claude code 版本使用了 claude -p 命令行调度而不是 claude code 内置的后台任务功能，是因为 claude code 里边子 agent 上下文隔离没有做好，导致主 agent 上下文膨胀降智。

open code 可以直接使用 oh-my-opencode 插件。

请直接使用 opus 4.5 等聪明模型(很值得)，一天花个几十刀完全没有问题。

分享一下最近 vibecoding 心得

2026-01-31T01:12:41Z

最近用 Antigravity Gemini Pro 撸了一个 CDN 项目，从 ui 到 api 到节点服务端，我觉得我现在就是掌管 ai 的神，我是这么做的。

首先定义好技术栈、目录结构让 ai 把基础的框架搭出来，然后对结构代码审查。

我是那种不相信 ai 能给项目一把梭了，基本上 ai 每写完一部份的代码我审计完就要提交一个 commit ，如果下一个阶段的代码他写的我不满意我可以直接回滚让他重写。

每当完成一个新功能我就 commit 代码，然后创建一个新的会话让他写下一个功能，这样有干净的上下文。每次需求只提一个，这样虽然效率会低点，但是能做到心中有数。

我认为当下程序员虽然不用写代码了，但是要了解的东西还是一点少不了，比如当下最常用的框架，为了数据量提前设计数据库，使用什么技术栈等等，如果只是一个普通人想要一句话项目还是不太行，写一些小玩意还可以。

最后分享一下 vibe coding 的 CDN 项目 Goteway ，完善后将会开源，这个项目从 0 到可用只花了 2 天时间

关于 AI 代码生成与评审的疑问

2026-01-30T09:15:22Z

公司在推行使用 AI 进行研发提效，要求尽量使用 AI 生成软件代码，现在同时也推出了一个代码评审 AI ，即在代码提交后，用 AI 评审代码，生成一些评审意见，供 SA 或 TL 参考，决定代码是否入库。我的疑问是，假如我本地使用 AI 生成代码时，已经让 AI 完全遵循公司要求的规则，但是审核时 AI 评审提出了问题，那到底是代码生成 AI 的问题，还是评审 AI 的问题？

大家最近有玩那个 Moltbot 吗？ github 上最近很多的那个，感到 10 万多个 star 了！

2026-01-30T08:58:27Z

今天上午抽空玩了一下，就是能通过移动端操作 PC 端这样的一个东西，不过感觉确实会有点方便，但不知道会不会特别费 token 啥的？大家都配置了吗？如何玩的，这是我玩的例子。 https://mp.weixin.qq.com/s/A_YFMsMQA4uQ4hRliPrX3Q

glm4.7 是真的拉胯，玩具项目都做不好了。

2026-01-30T08:45:59Z

我买的是 Pro 编码套餐，刚买完前一周左右用起来还行。后面真的是越来越拉胯了。现在连玩具项目都做不好了，真是不想吐槽了。一个点击保存回显的小问题，跑了半个小时愣是跑不出来，还跟我说已经完美解决。暂时还没用过 Anthropic 官方的那些模型，没有对比，不知道是不是也这样。

codex 的处理速度是不是比较慢？

2026-01-30T07:51:19Z

gpt-5.2-codex(reasoning high, summaries auto)，不太复杂的任务基本上都要处理 5m 以上，是不是 reasoning 设置太高了，用哪一档比较合适

『收集』收集一些 vibe codeing 的使用技巧和经验

2026-01-30T05:28:14Z

[背景]

最近在实际项目中开始频繁使用「 Vibe Coding 」（借助 AI 的沉浸式/对话式编程方式），明显感觉到：

写代码的速度变快了
思路更容易被“带起来”
但同时也更依赖使用方式和提示质量

不同人用下来，效果差异非常大。

所以想开个贴，系统性地收集一些大家在 Vibe Coding 过程中的使用技巧、踩坑经验和最佳实践，供彼此参考。

[想重点收集的方向（不限于以下）]

1️⃣ 使用场景

你通常在什么阶段用 Vibe Coding ？（新功能设计 / 重构 / Debug / 写测试 / 学新技术 / 快速原型等）

2️⃣ 提示词与交互方式

有没有固定的提示结构或习惯？
是偏「一步步引导」还是「直接给大任务」？
如何避免 AI 发散、跑偏、过度设计？

3️⃣ 与真实项目结合

在中大型项目中，如何控制上下文？
如何让 AI 更好地理解现有代码结构、业务边界？
有哪些“必须人来兜底”的关键节点？

4️⃣ 效率与质量的平衡

你是如何判断“可以直接用”还是“只当参考”？
有没有踩过因为过度信任 AI 导致返工的坑？

5️⃣ 工具与模型选择

常用的模型 / IDE / 插件组合
不同模型在 Vibe Coding 下的差异体验

6️⃣ 心态与方法论

如何避免变成“只会改 AI 给的代码”
如何把 Vibe Coding 当成放大器，而不是替代思考

[我个人的期待]

不是那种“神化 AI”或“完全否定”的讨论，而是：

真实经验
具体做法
哪怕是失败案例也非常有价值

欢迎随意分享，哪怕只是一条小技巧 🙌 后面我也会把有价值的内容整理成一份总结。

如果你已经在用 Vibe Coding ，**你最想提醒新手的一句话

上下文工程构建的最优解，求教

2026-01-30T04:06:15Z

想了解一下，大家的大项目是怎么构建上下文工程的

因为有些项目比较大，不同的模块在风格上不太一致，或者说部分写法抽象层比较多，ai 有时候写了具体代码实现，但是忘记注册服务等等。因此需要给每个模块的一些具体迭代行为做一个约束：比如 a 模块的表单加一个字段需要注意哪些事项。b 模块新增、修改一个规则服务的逻辑需要注意哪些事项。

但是现在感觉可选的实现方式非常多，不知道怎么选。

方案一：全部用 skills 维护这些事项，让 agent 动态加载

方案二：在 agent.md 里写，迭代 a 模块，需要读 a.md ，a.md 再索引 a 模块常见迭代的操作

主要是想了解一下大家的方案是啥，交流一下

20260130_10:26:00 Loading models.....Refresh

2026-01-30T02:27:43Z

又挂了吗？

There was an unexpected issue setting up your account. Please try again later.

你们还审查 AI 写的代码吗？

2026-01-29T12:43:08Z

看了 clawdbot 作者的 coding 方式，一时不知道该说啥好。

平均每天 100 多次提交，完全不看代码。

无法想象这项目的💩堆得有多高。关键开源社区还有那么多人给他做贡献。想想都觉得不可思议。

所以代码质量在这个时代是不是已经变得不再重要了？

PS：我没用过 clawdbot 不知道 bug 多不多，也没看过他的源码。如果他做得又快又好当我啥也没说。

后端 boy 用 GPT 写前端，效果惨不忍睹，求指路

2026-01-29T10:23:33Z

后端 boy ，没有前端背景，了解点 html css(就这么一点点🤏)

我的流程是: 告诉 gpt 我的项目背景 -> gpt 设计页面架构 -> 再绘图 -> gpt 描述图片内容 -> gpt 实现代码。
效果非常差，包括用 lovable 、bolt 。

我认为是我的 prompt 写的太差，但是对前端不了解，很难写个符合预期的 prompt 。
网络上生成效果比较好的提示词，大部分都是写得非常明确，精确到颜色值、实现方式的粒度。

各位大佬，有无最佳实践分享🧎🧎🧎

VibeCoding 的贤者时刻

2026-01-29T07:53:14Z

做出一个 VibeCoding 应用，功能齐全，体验流畅。然后我再也不想打开它了。突然意识到：我迷恋的或许不是"拥有这个工具"，而是"想象它存在"的那个过程——那种充满可能性的期待感，比实现本身更让人上瘾。做完之后就觉得索然无味，好像进入了"贤者时刻"？你们呢？也是这样吗？有没有做过一个项目，完工即弃？难道我们只是享受这个过程，而并非抵达？

有没有这种 skill:搞项目前先查本项目最终更新时间,分支和现有轮子情况.

2026-01-29T04:14:54Z

这个 skill 极其重要

昨晚折腾 alist 三小时有太多 bug 比如莫名其妙 r2 挂的不显示,onedrive 官 token 根本无效

这项目基本就死了我还特喵的除虫打算发 pr

后面才刚知道闭源了

转移 openlist 之后一切正常神清气爽

我希望最开始 llm 就应该使用时效分析 skill 告诉我这货年久失修了比较大的分支是 openlist………

特此记忆有时间完成这个必选 skill

延伸:另一个 skill 是用户做任何项目的时候都要全网搜索有没有现成的轮子以及踩过的坑

这些都是 llm 应该主动去做的

包括这个 skill 我认为现在已经有轮子只是我很难找到分值最大的

VibeCoding 前后端应该放一个仓库吗

2026-01-29T04:02:37Z

VibeCoding 前后端应该放一个仓库吗，Node.js 和 Vue.js 这样都是 TypeScipt 语言写的我一般，有时候放一起，但是后端是 Java 的，或者 Python 的，放一起打 Docker 镜像有点奇怪。

发现很多有名的项目都是前后端放一起的，想问问大家都是怎么做的。

关于新版 Antigravity Windows 无法打开 chrome 调试的问题

2026-01-28T01:50:15Z

提示缺少$HOME 环境变量

解决方法：打开 PowerShell 并执行

[System.Environment]::SetEnvironmentVariable('HOME', "$env:USERPROFILE", 'User')

执行完成后重启 Antigravity

如果还是不行就在设置里手动指定 Chrome 的路径后重启

参考链接： https://www.reddit.com/r/google_antigravity/comments/1qna2oa/fix_does_antigravity_fail_to_agentically_open_the/

Antigravity 被 Windows 11 的 SmartAppControl 给封了，有招吗？

2026-01-27T15:40:34Z

昨天刚开始用 Antigravity ，用了一天，结果今天晚上关掉再打卡就提示被封了

我还不太想关掉 SmartAppControl ，关掉之后如果再想开启，必须重置电脑了

有什么办法绕过吗？