一个来自中国创业者 L5 自主编程能力的探索 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yafeilee
V2EX    分享创造

一个来自中国创业者 L5 自主编程能力的探索

  •  2
     
  •   yafeilee
    windy 2024-03-15 18:53:00 +08:00 9504 次点击
    这是一个创建于 576 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好,我是 ShowMeBug 的创始人亚飞,全栈工程师,连续创业者。今天非常高兴跟大家介绍一下,我们自主研发的、带有 L5 自主编程能力的 1024Code 云端开发平台和进展情况,目前我们已经启动了公测邀请。

    1024Code 云端开发平台介绍视频: https://www.bilibili.com/video/BV1YF4m1c7rH/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

    1024Code 的核心能力

    1024Code 是采用 1024PaaS (全栈自研的云端编程环境)为核心,通用大模型为基座,花费了 10 多个月构建一套自主决策链 AI Agent (目前称为 AI 导师),提供了编程环境感知,代码编辑,Shell 、Console 的自阅读,运行与自主 Debug 。

    简单来说,就是将 AI Agent 安装了手与脚,让其自主完成需求分析到编码调试的过程。

    AgentINIDE

    1024Code 尝试定义 AI 与人类编程交互的新方式

    在当前阶段,1024Code 更相信人类的代码,所以 AI 在修改人类代码时需要人类确认,AI 在修改自己的代码时可以立刻生效。

    得益于我们全栈自研的技术,我们的团队能够深度定义编辑器的内核,实现快编辑的能力,能够准确区分代码是来自 AI 生成还是人类编写。

    AgentINIDE

    具体能力介绍

    从零开发一个小项目

    1024Code 可以根据你的需求介绍,进行 MVP (最小可行版本)拆解需求,然后实现第一版 MVP 。它可以实现一个小型项目(至多不超过 10 个)多个文件的生成和编辑。

    AgentINIDE

    解决一个小的需求

    你提出需求,1024Code 的 AI 导师会首先自行感悟编程环境(例如是哪个语言哪个框架),然后分析需求(如遇需求不清楚时会自行跟你互动),构建代码语义树,确定需要创建新的文件或者修改哪些文件,生成对应代码,利用 1024PaaS 提供的更新代码块能力进行逐字处理。最后尝试运行代码并检查控制台输出,完成本次需求实现。

    自动 Debug 错误

    发现控制台的错误时,它会自行开始 Debug 调试错误。读取报错信息并决定如何修复,然后读取对应代码进行修改。

    与人类在代码归属上创新互动

    AI 导师可以直接修改它自己之前完成的代码,修改人类代码需要一个确认与 diff 比较的过程。

    1024Code 中 AI 导师的能力限制

    AI 导师在 1024Code 中是一个完全拟人的存在,它有自己独立的交互界面,甚至人类可以直接观察它的每一步操作。由于当前大模型的智能还不足够,我们看一下能力上的限制。

    AgentINIDE

    决策能力上的限制

    目前超出 10 个文件的较大项目表现会出现成功率大幅下降的情况。

    在网页项目、命令行项目、Python 游戏外的项目,目前没有针对优化。

    浏览器眼睛视觉还未添加

    在更理想的情况下,AI 导师应该能主动识别浏览器网页上的界面错误,并进行修复,但这个依赖于现有大模型的多模态能力与 Token 成本,目前还未实现相关能力。

    未来的展望

    未来的编程世界将发生重大范式变化,云端编程+原生 AI 编程将彻底改变传统本地开发方式,就如同文档在线化置于本地编辑,Figma 置于 PS ,网盘置于本地 USB 存储。80% 的代码由 AI 完成,人类完成剩下的架构工作是接下来 AI 时代相当长时间持续的一种新的编程常态。

    具体案例

    同事跑了几个项目,大家可以点击视频链接了解:

    1. 尝试使用 1024Code 的 Agent 智能体功能修复 Chart.js 里一个 Bughttps://www.bilibili.com/video/BV1Lj421f7UK/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

    2. 使用 Agent 智能体功能补全&迭代音乐播放器项目代码https://www.bilibili.com/video/BV1uK421v74Z/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

    3. 国内也有 Devin 了?一句话需求生成 2048 游戏!https://www.bilibili.com/video/BV1m2421N7eN/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

    我们已经发布邀请码公测

    1024Code 目前已经启动了邀请码公测,大家可以通过朋友或者主动申请获取邀请码来体验和使用产品,目前整个产品完全免费,AI Agent 的体验使用是积分消耗模式。

    AgentINIDE

    如果你在商业、投资或大模型能力上想与 1024Code 合作可以直接加创始人微信号:lyfi2003

    让我们一起打造下一代全新 L5 全自主编程新范式吧!

    34 条回复    2024-03-20 22:20:54 +08:00
    kkk9
        1
    kkk9  
       2024-03-15 19:14:19 +08:00   1
    李宏 2.0
    rina
        2
    rina  
       2024-03-15 19:49:16 +08:00
    赞一个
    qsgy123456
        3
    qsgy123456  
       2024-03-15 19:50:46 +08:00
    AI 做自动化软件测试效果会不会更好一点?我写了代码,但是不知道哪里有问题,AI 自己搞测试案例,自动测试,或者使用软件测试。
    单元测试让 AI 来做,感觉有戏。
    amon
        4
    amon  
       2024-03-15 20:02:35 +08:00
    很好的尝试,看了音乐播放器和修改 Chartjs issue 的视频,感觉交互上挺完善。
    不过目前还是偏玩具性质,距离工业级应用不知道有多远。
    Rrrrrr
        5
    Rrrrrr  
       2024-03-15 20:13:00 +08:00
    自主模型?
    yafeilee
        6
    yafeilee  
    OP
       2024-03-15 20:27:52 +08:00 via Android
    @Rrrrrr 用的通用大模型底座,上面自己研发的决策链 agent
    yafeilee
        7
    yafeilee  
    OP
       2024-03-15 20:31:44 +08:00 via Android
    @kkk9 ,不管怎么样,李彦宏还是更有成就。希望他少吹点
    matrix1010
        8
    matrix1010  
       2024-03-15 20:38:30 +08:00
    Devin 我估计不太可能被墙,就看他们想不想做国内。如果到时候发布而且国内能用的话 op 这个就比较危险了,很有可能被 ioi 金牌团队降维打击
    paopjian
        9
    paopjian  
       2024-03-15 20:49:40 +08:00   1
    用你们的能力评测已经怀疑人生了
    yafeilee
        10
    yafeilee  
    OP
       2024-03-15 21:09:54 +08:00 via Android
    @paopjian 抱歉有啥问题可以反馈给我们客户成功那边会帮你修复
    pixelbook
        11
    pixelbook  
       2024-03-15 21:55:02 +08:00
    未来不需要像李彦宏一样的人类 CEO ,决策层最容易被 AI 替代
    Xs0ul
        12
    Xs0ul  
       2024-03-15 22:51:20 +08:00
    code llama?
    alexhx
        13
    alexhx  
       2024-03-15 23:28:06 +08:00
    这类产品,定位角色应该是助手吧,导师什么的,一听就像是来骗钱的~
    不过感觉主要面向的用户是学生或者刚入门的初学者,导师倒是比较让人容易有信赖感
    要在程序员里推,怎么也得把 VSCode 和 JetBrain 插件版配上啊,不然怎么推广的开
    keepRun
        14
    keepRun  
       2024-03-16 02:54:49 +08:00 via Android
    很有意思,思路跟一般的辅助编程产品思路不一样,不过我提出几个问题:
    1. 如何更好的整合到 ide 中?通义灵码这种产品已经可以在 IDEA 和 vs code 中使用,如果你的产品只有网页端无论是从推广还是使用体验上都不够好
    2. 到时候如何付费? copilot 像是陪伴程序员,可以按月付费,可是你的产品似乎用于 mvp 阶段,用不了多少次,如果没有其它功能刺激用户一直使用,那就难以持续
    zsmer
        15
    zsmer  
       2024-03-16 08:29:21 +08:00
    我们公司之前找人体验过这款产品准备用在面试上,两点体验:
    一是对小屏用户不太友好,UI 还有改进设计的空间,多文件不能同时展示得来回切
    二是代码提示不够快
    locoz
        16
    locoz  
       2024-03-16 10:02:44 +08:00
    决策能力方面看起来是模型的问题,可以试试在用 Claude 3 的情况下能达到什么程度,我现在让 AI 改代码、加功能都是几个文件直接丢过去了,可工作的上下文长度长带来的效果极其明显。
    locoz
        17
    locoz  
       2024-03-16 10:04:23 +08:00
    @matrix1010 #8 不至于的,都是依赖别人的模型实现的效果,在用的模型一致的情况下做不到多大的能力差距。
    有些类型的问题,当下的语言模型搞不定就是搞不定,哪怕是人专门去精选输入内容和调整 prompt 都很难搞定,这是模型基本能力的问题,再优化也解决不了。
    locoz
        18
    locoz  
       2024-03-16 10:11:16 +08:00
    @pixelbook #11 在决策层被 AI 取代之前,底下干活的早就被取代完了。决策层最核心的能力之一就是想法要具有前瞻性、能看透一个甚至多个行业找到最合适的路线,指望靠着以大众发布的内容为主的数据去训练出一个能站在更高的角度看问题的 AI ,在当下属于是做梦。当下这种训练方式能做到的 AI 仅限于把客观的信息概括出来,在没有人去引导的情况下是完全做不到跨多行业“思考”出能称得上是“决策”的东西的。
    matrix1010
        19
    matrix1010  
       2024-03-16 11:14:10 +08:00 via iPhone
    @locoz devin 到底依赖的是什么似乎没公布。但效果可以跑 swe bench 对比
    locoz
        20
    locoz  
       2024-03-16 12:03:30 +08:00
    @matrix1010 #19 小公司没有任何 [自己训练一个能跟 GPT4 之类头部级别的模型 PK 的模型] 的可能性,所以为了效果好只能是基于 GPT4 或者 Claude2/3 这种头部的大模型来实现,否则模型的基础能力差会导致很多问题完全解决不了。

    另外,新智元 介绍 Devin 的文章最后有提到:“CEO Wu 并没有详细说明他们的智能体背后使用的 AI 技术,只是笼统地解释说,团队找到了将大语言模型(例如 OpenAI 的 GPT-4 )与强化学习技术相结合的独特方法。”,很显然也只能是行业头部的大模型了。

    效果方面我觉得没什么好对比的,根据官方的说法和演示视频中的效果来看,大概率是加了个提取关键信息的模型,代替了人提取关键信息给 AI 的步骤,做到在使用尽可能压缩上下文的情况下丰富信息量,自动化地让 AI 在输入信息密度极高的情况下输出东西,这效果当然会比上下文长度受限、可输入信息不全的情况下只能直接丢问题给 AI 的情况要好。

    但其实随着像 Claude 3 这种支持更长上下文的模型进一步发展,未来完全可以在不需要那么精细地提取关键信息的情况下让 AI 得到所需的所有信息,哪些文件相关那就直接把文件都丢给 AI 就行了。在这个前提下,Devin 做的这种优化其实优势是会越来越小的。
    xiaoyoumaojun
        21
    xiaoyoumaojun  
       2024-03-16 12:50:36 +08:00
    体验了一下,感觉确实不错,非常看好! 这款产品非常适合开发爱好者,不管是小白还是资深开发者,都非常的实用且友好~
    matrix1010
        22
    matrix1010  
       2024-03-16 13:51:49 +08:00
    @locoz 把代码丢给 AI 改这个是 L1 或者 L2 级别,L5 级别是完全自主决策(开发->测试->部署),通俗来说就是不要程序员了。我觉得 L1/L2 级别 op 这样没什么 AI 背景的公司可以做,就相当于强化版 GPT 套壳,但 L5 级可能真的要 cognition 这样精英 AI 团队来完成。如果你仔细看一遍 devin 的视频,devin 会自主打开浏览器查询信息,程序无法运行时会自主添加 print 代码并根据 print 自动 debug 。

    BTW ShowMeBug 是一个面试程序员的产品,op 现在却要做一个 L5 编程替代程序员的产品,挺耐人寻味。
    locoz
        23
    locoz  
       2024-03-16 14:11:51 +08:00
    @matrix1010 #22 你把事情想复杂了,自己去搜索、根据搜索到的页面内容进行归纳总结和找到需要的信息、自己添加日志进行 debug 、自动调用命令行、自动通过特定方式部署程序等模拟人机交互的事情,都是只需要做好操作接口,并且在 prompt 中告诉语言模型可以这么做,就能轻松做到的事情,这方面反而是这整个产品中最简单、最没有门槛的。

    因为做到这些事情的核心在于决策能力,而决策能力来源于语言模型,像 GPT4 、Claude2 这种头部级别的大语言模型本身就具备做出这种决策的能力,并且之前出现过的很多让 AI 进行自动化操作的产品都是这么做的,包括 ChatGPT 上的插件功能本质上也就是这么做的。
    matrix1010
        24
    matrix1010  
       2024-03-16 14:21:19 +08:00
    @locoz 我们一年后看吧。你说很简单,我觉得没那么简单,那就只能等一等,看看同类型产品是层出不穷还是 devin 一枝独秀。
    duron600
        25
    duron600  
       2024-03-16 16:46:12 +08:00
    L5 是啥
    xieren58
        26
    xieren58  
       2024-03-16 16:46:18 +08:00
    ShowMeBug 是不是要完蛋了???
    yafeilee
        27
    yafeilee  
    OP
       2024-03-16 17:06:42 +08:00 via Android
    @xieren58 我们使命是帮助程序员的工程能力评估成长和工程效率提升,是我们 showmebug 产品新的衍生和对方向的把握的探索,更多会助力中国技术人才的发展而不是取代,不知道你如何下此判断。
    yafeilee
        28
    yafeilee  
    OP
       2024-03-16 17:08:26 +08:00 via Android
    @duron600 全自主的意思,google 有对 agi 的定义,区别于现有的 L3 左右的 ai 助手式的交互
    vultr
        29
    vultr  
       2024-03-16 18:20:18 +08:00
    @yafeilee 这是一个生成前端代码的工具吗?后端代码能不能干?
    qgy18
        30
    qgy18  
       2024-03-16 20:45:46 +08:00
    这个必须支持
    yafeilee
        31
    yafeilee  
    OP
       2024-03-17 23:26:43 +08:00 via Android
    @vultr 目前 python 游戏,python 命令,网页表现还可以,其他没有特别优化。还需要更强的大模型底座。
    buchikoma
        32
    buchikoma  
       2024-03-18 20:35:10 +08:00
    感觉这种产品的最大受益者是大学生,完美应付各种作业和课设
    w4ngzhen
        33
    w4ngzhen  
       2024-03-19 09:13:35 +08:00
    看到了你们发的截图,是如何评判命令行工具复杂度算是 level1 ?就因为没有 UI 么?
    yafeilee
        34
    yafeilee  
    OP
       2024-03-20 22:20:54 +08:00 via Android
    @w4ngzhen 主要还是测试结果 ai 理解需求很轻松 正确率超过了 50%
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1064 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 23:18 PVG 07:18 LAX 16:18 JFK 19:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86