2026 大模型部署框架终极选型指南 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
suke119
0D
V2EX    程序员

2026 大模型部署框架终极选型指南

  •  
  •   suke119
    wangsrGit119 7 小时 36 分钟前 959 次点击
    懒人看板:

    总结:
    云端高性能选 TensorRT-LLM ,云端灵活性选 vLLM ,Agent 场景选 SGLang ,Mac 用户闭眼选 oMLX ,本地试错选 Ollama ,手机端选 MLC LLM ,国产算力选 LMDeploy 。
    9 条回复    2026-04-10 15:15:42 +08:00
    Curtion
        1
    Curtion  
       7 小时 26 分钟前
    这是哪个 ai 总结的哦,把 Ollama 放进去了,但既没有 LM Studio 也没有 llama.cpp, 到底按什么分类算的。
    jetsung
        2
    jetsung  
       7 小时 23 分钟前
    llama.cpp 呢?
    jimrok
        3
    jimrok  
       5 小时 58 分钟前
    有没有适合端侧的框架,可以处理个人的知识库数据,深度信息还可以从云端更新知识库。
    suke119
        4
    suke119  
    OP
       5 小时 47 分钟前
    @Curtion @jetsung 没放 llama cpp 以及 lm studio 是出于 大众的常识和方便程度而言,对于普通真实想要使用的人而言 要么快速上手 要么极致性能生产使用。如果换个角度 比如 测试模型或者 调试啥的 在 iot 设备等上 那最方便的还是 llama cpp.
    suke119
        5
    suke119  
    OP
       5 小时 45 分钟前
    @jimrok 端侧一般说的是边缘设备,但是你的想法应该是个人私有本地使用,这种其实 ollama+graphrag 是最佳的,因为我们自己用最重要的是 准确,性能其实没必要多好的
    jetsung
        6
    jetsung  
       5 小时 39 分钟前
    @suke119 ...不是。LLAMA.CPP 怎么也说不得不能快速上手吧?

    sudo -i
    V=b7885
    curl -LO https://github.com/ggml-org/llama.cpp/releases/download/$V/llama-$V-bin-ubuntu-x64.tar.gz
    rm -rf /usr/local/llama
    tar -zxvf llama-$V-bin-ubuntu-x64.tar.gz
    mv llama-$V /usr/local/llama
    rm -rf llama-$V-bin-ubuntu-x64.tar.gz

    ln -sf /usr/local/llama/* /usr/local/bin/
    ExplodingDragon
        7
    ExplodingDragon  
       5 小时 35 分钟前
    ollama / LM Studio 本质还是 llama.cpp ,而且你这个不是框架/引擎对比吗,没太大参考价值
    ExplodingDragon
        8
    ExplodingDragon  
       5 小时 31 分钟前
    回复快了 ( ollama 不适合,自从搞了所谓的 cloud 后新模型适配很慢了,还有 lm studio 是闭源的并且也是 llama.cpp ,不如直接用 llama.cpp ; 至于说使用复杂度,你都提到了 vllm 了,llama.cpp 那不是更简单,现在 llama.cpp 也可以去拉 hf 的模型了
    suke119
        9
    suke119  
    OP
       5 小时 7 分钟前
    @jetsung @ExplodingDragon 你把角度放到专业和非专业上,专业的人员对于配置 vllm 或者 llama cpp 而言没什么区别,但是 考虑到部署是绝不会用 llama cpp 的,然后再回到非专业人员上,命令行都不懂,直接下载个 exe 安装多方便
    关于     帮文档     自助推广系统     博客     API     FAQ     Solana     2825 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 12:23 PVG 20:23 LAX 05:23 JFK 08:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86