Autonomous AI agents 离实用有多远?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 507 天前的主题，其中的信息可能已经有所发展或是发生改变。

这是 AIlice 近期发布的几个演示视频,展示了 agent 自动学习安装 huggingface 上的模型并使用,自动克隆 github 库并配置环境编译的能力.

自主通用 AI agent 实战: 从文本到万物 https://youtu.be/N7egHboVf94?si=C6XgOriZ_HlRb8xd

[懒人福音: 用 AI agent 自动寻找/克隆/配置/编译 c++库!] https://www.bilibili.com/video/BV116HjeKEkt/?share_source=copy_web&vd_source=add80800d19f5cef4b731a87c5fad2fa

agent

自动

10 条回复 2025-03-07 09:33:40 +08:00

GrayXu

2024 年 8 月 31 日

agents 的多步的错误率放大问题？

stevenlu137

2024 年 8 月 31 日

@GrayXu 好问题.AIlice 大概是业界第一个采用交互式代理调用树架构来解决这个问题的 agent.简单说,agents 之间是类似函数调用树的结构,但被调者和调用者之间是对话关系而非单向调用关系.对话带来了容错能力,另外调用树结构使得下属的错误可能由上级纠正,再不行还有更上一级的 agent 去纠正.总体上,纠错能力上升到了很多复杂任务都能顺利完成的程度.
另外,AIlice 大概是第一个引入用户在任意时刻介入这种交互方式的 agent.在 agent 陷入错误方向时,用户可以随时介入把它拯救出来.

matrix1010

2024 年 8 月 31 日

看上去类似于 Devin? 但"安装 huggingface 上的模型并编译"从能力角度来说似乎还是远低于 Devin 的"自动写代码调试并跑起来". 另外 Devin 应该也可以用户在任意时刻介入吧，包括开源的类 Devin 产品估计也能

stevenlu137

2024 年 8 月 31 日

@matrix1010 AIlice 是个通用 agent,不是 Devin 那种面向编程的.这意味着你可以用来做很多杂七杂八的事情,调查,读文献,数据分析,写代码,解决系统环境问题,用自然语言代替命令行等.另外它的架构更适合处理复杂问题,所以实际上,你不仅仅可以编译,比如拉下 github 后就让它给添加一个录像功能,这都是可以的.

AIlice 去年十一月就开源了,也可以在开源模型上本地跑.Devin 是比较晚近推出的闭源商业产品.

matrix1010

2024 年 8 月 31 日

@matrix1010 我觉得不应该狭隘的理解为 Devin 只能写代码，Devin 自称是 software engineer ，一个 software engineer 应当也可以做各种通用的事情。当然我没用过 Devin ，但既然 Devin 开放申请你可以申请体验一下

stevenlu137

2024 年 8 月 31 日

@matrix1010 我不知道有多少人真的申请到过.事实上 devin 几个月钱就被一位 youtuber 扒皮视频造假(

),所以炒作随之而息,这个新闻当初还是很轰动的.我相信 devin 具有一定的软件能力,但远不到它所声称的"软件工程师"的地步.

现在的很多 agents 都能很好的写一些小程序并跑起来,困难的地方在于大软件项目的构建和修改,因为这考验 AI 的长期记忆和理解能力,而 LLM 有 context window 的限制,即便 claude 能给你 200k 的 context window,你还是没法解决推理的成本问题.AIlice 的调用树结构可以很大程度缓解这个问题,但也没有彻底解决.

AIlice 放出来的视频都是从头到尾的录屏,没放过任何一个细节,所以任何人都可以去视频里找问题.同时 AIlice 是开源的,一行 pip 就可以装上检验效果.

matrix1010

2024 年 8 月 31 日

@stevenlu137 我认为"扒皮视频造假"这种用词有待商榷。Cognition 官方的宣传还是比较客观的，从没提过 Devin 取代程序员这类话题。宣传视频的 description 用词不当，但也没说 make money 成功，我认为只是稍微夸张了点的宣传而已。只是由于华人，金牌得主，AI ，程序员这些叠在一起自带流量导致很多自媒体往上蹭，造成了大量的炒作。

作为程序员我认为应该从实践出发而不是相信任何自媒体的论断。我没用过 Devin 也没用过 AIlice ，我只是猜测 AIlice 能做到的 Devin 也全部能做到，所以不能说 AIlice 的通用型比 Devin 更强。

stevenlu137

2024 年 8 月 31 日

@matrix1010 我没用过 devin,也没说 AIlice 比他强,我的观点是二者没有可比性.一个针对开发者,推出几个月仍然需要申请才有可能用一会儿的东西,和基于 MIT 协议,基于本机 LLM 就可以运行的面向普通用户的 AI 助手怎么比呢?有的任务你强些有的任务我强些能说明什么呢?

这里是目前 AIlice 放出的一些视频

https://www.youtube.com/@stevenlu-zh6ds

有兴趣的同学可以看看.AIlice 只是在一个视频里展示了它可以直接编程应用 huggingface 上的模型,编译 cpp 项目,但不意味着它只做这些.

chairuosen

2024 年 12 月 27 日

非常棒的想法。我下面的理解对不对？一个动态的包工头，接收未知任务，脑子里有个初步解决步骤，拆一下派下一级 agent 做，一级一级的拆到只处理原子粒度的简单问题(基础能力)。像递归分治解决复杂问题一样？

stevenlu137

2025 年 3 月 7 日

@chairuosen 是的,就是这样.关键在于,AI agent 可能会出错,所以传统的递归分治在这里容错性非常差,Ailice 这里被调用者和调用方是互相对话的,所以引入了容错能力.