来聊聊智驾的路线和方法论的思考吧 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
wisej
V2EX    奇思妙想

来聊聊智驾的路线和方法论的思考吧

  •  
  •   wisej 1 天前 909 次点击

    最近了解了下智驾技术的演变发展,在这写下总结与思考。

    端到端的“问题”

    现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢?我看到的一种也比较认可的说法是:直接将环境信息数据(摄像头、lidar 等等)映射到轨迹规控(或者更低维的油门刹车方向盘控制指令),模型本身只是在做根据 2D 画面进行模仿学习,它不知道驾驶员这么做的深层逻辑---也就是知其然,不知其所以然。这也就导致泛化能力很差,当出现长尾/难 case 时,模型完全是“懵逼”的。

    VLA 的意义

    起初,我觉得从第一性原理出发(就实现自动驾驶而言),VLA 中的 L 作为要素加入模型没啥逻辑吧?就为了车机屏幕显示 COT 思考和语音控车? 直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ,放进模型训练,那不就可以让模型学会"逻辑推理"了? 这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力(注意我说的是功能性),本质上也是它的训练数据里有很多逻辑推理的语言 pattern

    WEWA--本质还是端到端?

    从 WEWA 有限的资料来看,我觉得它范式还是端到端那套。只是通过 WE (世界引擎),在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论,无所谓所以然,只要数据够多,当模仿到极致,然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么?

    我的思考

    我觉得上面两个路线都有可能实现 L3/L4 ,无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说,VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的,这套弄通了到时候迁移到诸如机器人上面会很顺畅。

    另外从上限来说,我很久前在知乎上看到过一个回答关于自动驾驶能力限制的:对于伦理问题,比如电车难题,智驾怎么办?它超脱了对错的维度,更像是基于三观的一个选择。而 VLA 模型的 L ,就像一个窗口可以注入 owner 的价值观,让其做出的行为与你的意志匹配。

    综上,是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~

    15 条回复    2025-11-16 14:40:14 +08:00
    longzhou6431
        1
    longzhou6431  
       23 小时 57 分钟前
    从标题开始,我就没有兴趣了。明明是辅助驾驶,为什么冠以智驾的标签。很多无知的黄毛,听到智驾就真的会认为无需人工参与驾驶,最后发生事故,害人害己。
    Tink
        2
    Tink  
    PRO
       21 小时 18 分钟前   1
    - 语言即逻辑

    并不是,其实大多数驾驶员,最终驾驶都是肌肉记忆而已。也就是看到右前方有车,下意识方向盘就会向左
    wilddog
        3
    wilddog  
       20 小时 0 分钟前
    比较认可,说白了从模型的角度都离不开 V L A ,各家的路线无非是采用的具体方案落地时,对这三个环节各自进行自认为合适的处理方式罢了。

    毕竟车载硬件能采集的信息也就那些。
    stinkytofux
        4
    stinkytofux  
       19 小时 9 分钟前
    你们平时真的敢用智驾开车吗? 我真不敢, 一次都没用过.
    frankies
        5
    frankies  
       18 小时 39 分钟前
    摄像头并不是 2D 画面啊。建议进一步学习了解 CV 中的双目视觉(视差)、占用网络、NeRF 或 SFM 快速 3D 重建等基础前置知识,纯视觉方案是完全可以实时构建 3D 立体场景且目前普遍使用的方案,所谓的 VLA 、世界模型并不是一条新的更有优势的路线,而是各有优劣的,需要 trade off 的。
    cynics
        6
    cynics/strong>  
       18 小时 0 分钟前
    有机会试试 Tesla 最新的 FSD 就知道了,我现在只要开家里的 model3 出门,都会用 FSD ,尤其晚上,比我自己看得更清楚
    metalvest
        7
    metalvest  
       11 小时 22 分钟前 via Android
    人驾车并不是基于逻辑的,而是基于预测的,只不过这个预测很大程度是符合逻辑的
    wisej
        8
    wisej  
    OP
       10 小时 20 分钟前
    @Tink 这句话我本身也不认可(本末倒置了)。但是语言可以是逻辑推理的表征毫无疑问。

    "肌肉记忆"我认为是千万次重复后,人体系统演化而来的能效优化的结果。它的底层依然是神经元连接,只是不需要人脑中的高级部分再参与了(所以能耗、延迟都更低)。端到端其实就很适配开车中“肌肉记忆”的场景(所以高速表现挺好的)。

    而且开车场景不全是肌肉记忆,有~5%的场景是需要逻辑思考的。拿掉头来说,我的思考 path 可能是:1.有没有掉头专用灯 2.有没有双黄线,怎样的形态 3.左转灯状态。对于我来说,它不是“肌肉记忆”,需要逻辑思考。你说有没有人能把它做成肌肉记忆,我觉得可以,只要他重复千万次或许能做到看一眼就知道怎么开的“肌肉记忆”---但那本质不也是训练后内化的神经网络权重参数么
    wisej
        9
    wisej  
    OP
       10 小时 6 分钟前
    @stinkytofux 就第一次会有些忐忑,后面还好~ 而且我只在高快上用,城区不用。我觉得高快场景很简单了,现在辅助驾驶能很好 cover ,能节省非常多精力。但是确实需要知道能力的边界,保持专注
    bkmi
        10
    bkmi  
       9 小时 59 分钟前 via Android
    @metalvest 没错,这个预测的行为包含了很大一部分赌的成分,现阶段的智驾基本到了跟前才有决策,体验很差
    wisej
        11
    wisej  
    OP
       8 小时 17 分钟前
    @frankies 确实很多领域内名词,需要学习=.=

    VLA 我还是觉得上限更高,但是对算力要求也更高(目前车端的算力不太够?)。至于世界模型仿真 RL ,VLA 也能做不冲突。可以具体说说各自的优劣嘛?
    wisej
        12
    wisej  
    OP
       8 小时 14 分钟前
    @cynics 我没试过 FSD 。但是国内 FSD 版本似乎测评里表现一般(当然跟 tesla 训练国内数据限制有关)
    wisej
        13
    wisej  
    OP
       8 小时 7 分钟前
    @metalvest 认同。所以我了解现在有了 4D ,随时间变化的 3D 空间的仿真训练。应该就是为了学习这种预测能力
    songco
        14
    songco  
       7 小时 35 分钟前 via Android
    我比较看好特斯拉这种,大力出奇迹,哈哈
    Tink
        15
    Tink  
    PRO
       7 小时 3 分钟前
    @wisej 是这样的,但是仔细想一想,端到端不就是让模型形成肌肉记忆吗,学会了,自然就知道怎么处理了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2784 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 20ms UTC 13:43 PVG 21:43 LAX 05:43 JFK 08:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86