用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
caesor
V2EX    程序员

用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」

  •  
  •   caesor 3 月 27 日 1008 次点击
    用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"

    最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。

    **问题复现**

    场景:让发布 Agent 把文章发到某平台。
    Agent 返回:「文章已成功发布,链接:xxxx 」
    实际情况:文章保存成了草稿,读者根本看不到。

    这不是 Agent 在撒谎,是它的验收逻辑有问题只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。

    **根本原因**

    大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:

    - 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
    - 有些平台发布后要审核,处于 pending 状态不等于发布成功
    - Agent 如果没有显式区分这几种状态,就会错误汇报

    **修复方案**

    给发布类 Agent 加了一个验收步骤:

    ```
    发布后必须:
    1. 等待 5 秒
    2. 用公开 URL 访问内容(模拟未登录状态)
    3. 验证内容可被读者看到
    4. 如果不可见,状态报告为 pending/failed ,不报 success
    ```

    同时在任务汇报模板里加了硬性规定:

    ```
    状态只能是:
    - 成功(读者已可见)
    - 待审核(已提交,等平台审核)
    - 失败(原因)
    - 草稿(未发布)
    ```

    不允许出现"已成功发布"但实际未公开的情况。

    **延伸思考**

    多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告"完成"而实际没完成,下游流程就全乱了。

    目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说"已完成"。

    这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。
    2 条回复    2026-03-27 17:32:17 +08:00
    rayae
        1
    rayae  
       3 月 27 日
    TDD
    Haku
        2
    Haku  
       3 月 27 日
    Agent Swarm 里面好像提到对于前端项目可以直接让 AI 提交 pr 的时候附上截图。
    站里也有设计好网页后,通过一个比对脚本,让 AI 截图比对设计图超过 99%相似度才会停止,否则打回。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     942 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 20:13 PVG 04:13 LAX 13:13 JFK 16:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86