用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」 - V2EX
首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
V2EX
程序员
用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」
caesor
3 月 27 日
1008 次点击
用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"
最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。
**问题复现**
场景:让发布 Agent 把文章发到某平台。
Agent 返回:「文章已成功发布,链接:xxxx 」
实际情况:文章保存成了草稿,读者根本看不到。
这不是 Agent 在撒谎,是它的验收逻辑有问题只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。
**根本原因**
大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:
- 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
- 有些平台发布后要审核,处于 pending 状态不等于发布成功
- Agent 如果没有显式区分这几种状态,就会错误汇报
**修复方案**
给发布类 Agent 加了一个验收步骤:
```
发布后必须:
1. 等待 5 秒
2. 用公开 URL 访问内容(模拟未登录状态)
3. 验证内容可被读者看到
4. 如果不可见,状态报告为 pending/failed ,不报 success
```
同时在任务汇报模板里加了硬性规定:
```
状态只能是:
- 成功(读者已可见)
- 待审核(已提交,等平台审核)
- 失败(原因)
- 草稿(未发布)
```
不允许出现"已成功发布"但实际未公开的情况。
**延伸思考**
多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告"完成"而实际没完成,下游流程就全乱了。
目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说"已完成"。
这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。
AI
验收
验证
2 条回复
2026-03-27 17:32:17 +08:00
1
rayae
3 月 27 日
TDD
2
Haku
3 月 27 日
Agent Swarm 里面好像提到对于前端项目可以直接让 AI 提交 pr 的时候附上截图。
站里也有设计好网页后,通过一个比对脚本,让 AI 截图比对设计图超过 99%相似度才会停止,否则打回。
关于
帮助文档
自助推广系统
博客
API
FAQ
Solana
942 人在线
最高记录 6679
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 25ms
UTC 20:13
PVG 04:13
LAX 13:13
JFK 16:13
Do have faith in what you're doing.
ubao
msn
snddm
index
pchome
yahoo
rakuten
mypaper
meadowduck
bidyahoo
youbao
zxmzxm
asda
bnvcg
cvbfg
dfscv
mmhjk
xxddc
yybgb
zznbn
ccubao
uaitu
acv
GXCV
ET
GDG
YH
FG
BCVB
FJFH
CBRE
CBC
GDG
ET54
WRWR
RWER
WREW
WRWER
RWER
SDG
EW
SF
DSFSF
fbbs
ubao
fhd
dfg
ewr
dg
df
ewwr
ewwr
et
ruyut
utut
dfg
fgd
gdfgt
etg
dfgt
dfgd
ert4
gd
fgg
wr
235
wer3
we
vsdf
sdf
gdf
ert
xcv
sdf
rwer
hfd
dfg
cvb
rwf
afb
dfh
jgh
bmn
lgh
rty
gfds
cxv
xcv
xcs
vdas
fdf
fgd
cv
sdf
tert
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
shasha9178
shasha9178
shasha9178
shasha9178
shasha9178
liflif2
liflif2
liflif2
liflif2
liflif2
liblib3
liblib3
liblib3
liblib3
liblib3
zhazha444
zhazha444
zhazha444
zhazha444
zhazha444
dende5
dende
denden
denden2
denden21
fenfen9
fenf619
fen619
fenfe9
fe619
sdf
sdf
sdf
sdf
sdf
zhazh90
zhazh0
zhaa50
zha90
zh590
zho
zhoz
zhozh
zhozho
zhozho2
lislis
lls95
lili95
lils5
liss9
sdf0ty987
sdft876
sdft9876
sdf09876
sd0t9876
sdf0ty98
sdf0976
sdf0ty986
sdf0ty96
sdf0t76
sdf0876
df0ty98
sf0t876
sd0ty76
sdy76
sdf76
sdf0t76
sdf0ty9
sdf0ty98
sdf0ty987
sdf0ty98
sdf6676
sdf876
sd876
sd876
sdf6
sdf6
sdf9876
sdf0t
sdf06
sdf0ty9776
sdf0ty9776
sdf0ty76
sdf8876
sdf0t
sd6
sdf06
s688876
sd688
sdf86