Autonomous AI agents 离实用有多远? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
stevenlu137
V2EX    程序员

Autonomous AI agents 离实用有多远?

  •  
  •   stevenlu137 2024 年 8 月 30 日 2342 次点击
    这是一个创建于 507 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是 AIlice 近期发布的几个演示视频,展示了 agent 自动学习安装 huggingface 上的模型并使用,自动克隆 github 库并配置环境编译的能力.

    自主通用 AI agent 实战: 从文本到万物 https://youtu.be/N7egHboVf94?si=C6XgOriZ_HlRb8xd

    [懒人福音: 用 AI agent 自动寻找/克隆/配置/编译 c++库!] https://www.bilibili.com/video/BV116HjeKEkt/?share_source=copy_web&vd_source=add80800d19f5cef4b731a87c5fad2fa

    10 条回复    2025-03-07 09:33:40 +08:00
    GrayXu
        1
    GrayXu  
       2024 年 8 月 31 日
    agents 的多步的错误率放大问题?
    stevenlu137
        2
    stevenlu137  
    OP
       2024 年 8 月 31 日
    @GrayXu 好问题.AIlice 大概是业界第一个采用交互式代理调用树架构来解决这个问题的 agent.简单说,agents 之间是类似函数调用树的结构,但被调者和调用者之间是对话关系而非单向调用关系.对话带来了容错能力,另外调用树结构使得下属的错误可能由上级纠正,再不行还有更上一级的 agent 去纠正.总体上,纠错能力上升到了很多复杂任务都能顺利完成的程度.
    另外,AIlice 大概是第一个引入用户在任意时刻介入这种交互方式的 agent.在 agent 陷入错误方向时,用户可以随时介入把它拯救出来.
    matrix1010
        3
    matrix1010  
       2024 年 8 月 31 日
    看上去类似于 Devin? 但"安装 huggingface 上的模型并编译"从能力角度来说似乎还是远低于 Devin 的"自动写代码调试并跑起来". 另外 Devin 应该也可以用户在任意时刻介入吧,包括开源的类 Devin 产品估计也能
    stevenlu137
        4
    stevenlu137  
    OP
       2024 年 8 月 31 日
    @matrix1010 AIlice 是个通用 agent,不是 Devin 那种面向编程的.这意味着你可以用来做很多杂七杂八的事情,调查,读文献,数据分析,写代码,解决系统环境问题,用自然语言代替命令行等.另外它的架构更适合处理复杂问题,所以实际上,你不仅仅可以编译,比如拉下 github 后就让它给添加一个录像功能,这都是可以的.

    AIlice 去年十一月就开源了,也可以在开源模型上本地跑.Devin 是比较晚近推出的闭源商业产品.
    matrix1010
        5
    matrix1010  
       2024 年 8 月 31 日
    @matrix1010 我觉得不应该狭隘的理解为 Devin 只能写代码,Devin 自称是 software engineer ,一个 software engineer 应当也可以做各种通用的事情。当然我没用过 Devin ,但既然 Devin 开放申请你可以申请体验一下
    stevenlu137
        6
    stevenlu137  
    OP
       2024 年 8 月 31 日
    @matrix1010 我不知道有多少人真的申请到过.事实上 devin 几个月钱就被一位 youtuber 扒皮视频造假(
    ),所以炒作随之而息,这个新闻当初还是很轰动的.我相信 devin 具有一定的软件能力,但远不到它所声称的"软件工程师"的地步.

    现在的很多 agents 都能很好的写一些小程序并跑起来,困难的地方在于大软件项目的构建和修改,因为这考验 AI 的长期记忆和理解能力,而 LLM 有 context window 的限制,即便 claude 能给你 200k 的 context window,你还是没法解决推理的成本问题.AIlice 的调用树结构可以很大程度缓解这个问题,但也没有彻底解决.

    AIlice 放出来的视频都是从头到尾的录屏,没放过任何一个细节,所以任何人都可以去视频里找问题.同时 AIlice 是开源的,一行 pip 就可以装上检验效果.
    matrix1010
        7
    matrix1010  
       2024 年 8 月 31 日
    @stevenlu137 我认为"扒皮视频造假"这种用词有待商榷。Cognition 官方的宣传还是比较客观的,从没提过 Devin 取代程序员这类话题。宣传视频的 description 用词不当,但也没说 make money 成功,我认为只是稍微夸张了点的宣传而已。只是由于华人,金牌得主,AI ,程序员这些叠在一起自带流量导致很多自媒体往上蹭,造成了大量的炒作。

    作为程序员我认为应该从实践出发而不是相信任何自媒体的论断。我没用过 Devin 也没用过 AIlice ,我只是猜测 AIlice 能做到的 Devin 也全部能做到,所以不能说 AIlice 的通用型比 Devin 更强。
    stevenlu137
        8
    stevenlu137  
    OP
       2024 年 8 月 31 日
    @matrix1010 我没用过 devin,也没说 AIlice 比他强,我的观点是二者没有可比性.一个针对开发者,推出几个月仍然需要申请才有可能用一会儿的东西,和基于 MIT 协议,基于本机 LLM 就可以运行的面向普通用户的 AI 助手怎么比呢?有的任务你强些有的任务我强些能说明什么呢?

    这里是目前 AIlice 放出的一些视频

    https://www.youtube.com/@stevenlu-zh6ds

    有兴趣的同学可以看看.AIlice 只是在一个视频里展示了它可以直接编程应用 huggingface 上的模型,编译 cpp 项目,但不意味着它只做这些.
    chairuosen
        9
    chairuosen  
       2024 年 12 月 27 日
    非常棒的想法。我下面的理解对不对?一个动态的包工头,接收未知任务,脑子里有个初步解决步骤,拆一下派下一级 agent 做,一级一级的拆到只处理原子粒度的简单问题(基础能力)。像递归分治解决复杂问题一样?
    stevenlu137
        10
    stevenlu137  
    OP
       2025 年 3 月 7 日
    @chairuosen 是的,就是这样.关键在于,AI agent 可能会出错,所以传统的递归分治在这里容错性非常差,Ailice 这里被调用者和调用方是互相对话的,所以引入了容错能力.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3907 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 00:57 PVG 08:57 LAX 16:57 JFK 19:57
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86