私有化部署 LLM 及 LVM 选型方案意见收集 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sh1xin
V2EX    Local LLM

私有化部署 LLM 及 LVM 选型方案意见收集

  •  
  •   Sh1xin 5 天前 1304 次点击
    兄弟们,我们公司买了 4 张 A100.现在准备部署一个 LLM 和一个 LVM 。
    目前考虑
    LLM:qwen3 30B ;
    LVM:qwen3-vl-32B-Instruct

    不知道大伙们有没有更好的建议

    需求:主要还是做知识库,智能客服问答,以及 OCR 的功能
    23 条回复    2025-11-12 13:27:53 +08:00
    bluryar
        1
    bluryar  
       5 天前
    LVM 为什么和 LLM 是排他的,这个配置:QuantTrio/Qwen3-VL-235B-A22B-Thinking-AWQ 洒洒水
    Sh1xin
        2
    Sh1xin  
    OP
       5 天前
    @bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足
    bluryar
        3
    bluryar  
       5 天前
    1. AWQ ,最低的硬件要求除个 4 即可
    2. 4 张卡都用来跑 LLM 的话,其他小模型跑在哪?
    cbythe434
        4
    cbythe434  
       5 天前
    单卡跑小模型,另外三张自己玩
    orzsome
        5
    orzsome  
       5 天前
    借个楼问一下,如果就一张 A100 ,想要部署嵌入跟重排序,加上 LLM/LVM ,可以部署多大参数量的?如果都是 qwen3 ,是不是最多嵌入跟重排序是 0.6B ,LLM/LVM 最多是 30B int8 就是极限了,其他的显存留给并发的上下文什么的?我没有这方面的经验,请各位大佬能给一点建议
    Sh1xin
        6
    Sh1xin  
    OP
       5 天前
    @bluryar 其他的目前只有用到一个向量模型,其他暂时没需求,一般小模型的企业内部有啥需求场景嘛,我们目前还没找到,所以没有这方面的考虑
    Sh1xin
        7
    Sh1xin  
    OP
       5 天前
    @cbythe434 别闹哥,公司干活用的
        8
    bluryar  
       5 天前
    @Sh1xin 没场景就随便部署一个交差
    kinkin666
        9
    kinkin666  
       5 天前
    我是
    docker 的 xinference 跑 0.6B ,用 CPU 跑,搞意图识别词嵌入重排序够了,不能让 gpu 跑个半死 cpu 搁那抖腿
    docker 的 vllm 跑大的,编程接口一致点方便些
    Sh1xin
        10
    Sh1xin  
    OP
       5 天前
    @bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR
    zsj1029
        11
    zsj1029  
       5 天前 via iPhone
    GPT oss 非常好,知识库吊打 ds ,20b 的就够用
    wangmn
        12
    wangmn  
       5 天前
    现在 A100 80G 啥价格
    Sh1xin
        13
    Sh1xin  
    OP
       5 天前
    @wangmn 公司买的,10W
    coefu
        14
    coefu  
       5 天前
    会不会 不叫 LVM ,而是叫 VLM ?
    coefu
        15
    coefu  
       5 天前
    @Sh1xin #2 unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF,Q8_0-250 GB,Q8_K_XL-265 GB 。 肯定够的。
    bluryar
        16
    bluryar  
       4 天前
    @Sh1xin 4 张卡是全用于部署 LLM 还是需要部署包括 LLM\Embedding\Reranker 在内的所有模型?工作流复杂的情况下,你还有可能需要部署小参数的 LLM 。OCR 不知道部啥,就跑一个 MinerU 吧。

    您的应用还没搭建起来其实也说不清楚需要什么样的模型。作为网友当然是建议参数越大越好。
    mx2dream
        17
    mx2dream  
       4 天前
    ①知识库②智能客服问答③OCR 这些需求使用 30B 左右的参数有点浪费了。优先考虑总参数 100B 激活参数 10B 左右的稀疏模型高精度版,或 32B 尽量往上的稠密模型。这四张 A100 ,2 张主力跑 LLM 模型和框架,1 张用于 OCR 和向量检索嵌入,推荐先用传统 OCR 处理(比如 PaddleOCR 之类的),不推荐直接用 VLM 模型进行识别,总之尽量不要在第一步就引入 LLM 的幻觉),再搭配内外部知识库的 RAG 进行修正和降低幻觉,另外 1 张留给 KV 缓存和上下文,FlashAttention 建议打开,这东西在长上下文里对显存吞吐都有不少提升。另外,235B 有点太大了,没有多少冗余了。

    你要是还有精力,还可以根据你们公司内部的专门需求折腾下 Agent 。
    开始搭建好环境和框架之后,先搞几个 10B 左右的小模型测试一下,然后再换主力模型,这样稳一点。
    chspy
        18
    chspy  
       2 天前
    你可以先去提供这种服务的网站去咨询一下,比如 PPIO ,还能顺便把报价了解了。
    Sh1xin
        19
    Sh1xin  
    OP
       2 天前
    @mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛?

    目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

    当前正在测试机上测试,感谢提供指导
    estrusoon
        20
    estrusoon  
       18 小时 50 分钟前 via iPhone
    可以考虑一下 mistral
    mx2dream
        21
    mx2dream  
       6 小时 5 分钟前
    @Sh1xin 试图用自动化解决绝大部分问题我认为也是一种幻觉,有些识别问题技术解决不了的就通过管理来解决。比如上传资料时按类别、清晰度、重要性和保密性等等打标签进行分级,如果资料级别达到比较高的程度,就在流程上专门引入人工校对或给相应权限的人复核就行了(否则全部自动化了还要人干什么),如果资料没那么重要,就不用太苛求太高的识别正确率了。
    Sh1xin
        22
    Sh1xin  
    OP
       5 小时 1 分钟前
    @mx2dream 资料是客户提供的所需生产信息。涉及到生产数量,价格等内容,很重要。但是小客户太多了,提供的内容格式五花八门,并且也没有资格去约束客户强制统一模板。当前就是人工获取 PDF 等信息,手动复制出来,确认开单。但是这样又会导致校验的人员在一些场景下给客户额外承诺,另外开单,导致库存累加,占用
    mx2dream
        23
    mx2dream  
       1 小时 42 分钟前
    @Sh1xin 这么看,你说的这些场景有点复杂了,不是单纯的技术问题了。从输入源就有问题,还涉及多部门,估计这个你一时很难解决,如果公司内部某些部门没有动力推进解决这些,问题会一直存在。对外部的小客户给一点优惠利益,你们再搞个统一的业务填报的入口,让他们往你们提供的入口迁移啊。不过这些事想想就很麻烦,就看你们自己的决策了。
    还有个想法,反正识别表单类的场景一般涉及的上下文和缓存也不大,就不用专门留太多冗余了,如果你多跑几个 VLM ,比对之后达到一定标准就往下个流程走呢,或者买点专门提供这块方案的供应商谈谈。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5310 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 07:10 PVG 15:10 LAX 23:10 JFK 02:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86