LLM 私有化部署 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX    Local LLM

LLM 私有化部署

  •  
  •   mingtdlb 246 天前 2213 次点击
    这是一个创建于 246 天前的主题,其中的信息可能已经有所发展或是发生改变。

    过年 deepseek 火了一把,成本、性能都有不错的优势

    小弟不是相关从业人员,对这方面不是很了解,一直停留在 QA 上。

    刚开始对大模型私有化部署有点惊讶,还能私有化部署,,他不应该是个很庞大的东西吗,,不应该是一个需要庞大计算资源才能运行起来,正常使用的吗 等等...

    既然能私有化部署,是不是 llm 训练好之后,就是一个 AI 了?如果再加上推理用的显卡,使用效果是不是就能和官方相当?还有 中小厂把 ds 的模型私有化部署一下,加上自己的数据稍加训练也能拥有一个 AI ?

    10 条回复    2025-02-12 14:31:26 +08:00
    TimePPT
        1
    TimePPT  
    PRO
       246 天前
    模型的私有化部署一直有。

    前 GPT 时代,模型参数都没那么大( BERT 这种),基本上企业自部署的比较多。
    GPT 时代,一般私有化部署的都是 100B 参数以下的模型。
    一般本地台式机 or 笔记本的本地部署,参数量级在几十 B 以下( 10B 以下极轻量级最常见),适当做些量化处理,基本上都能跑。

    现在营销号推的 DeepSeek 本地部署的,绝大部分其实指的是蒸馏过的小模型。
    Shaaaadow
        2
    Shaaaadow  
       246 天前
    可以去 ollama 看看,上面有标每个模型的大小: https://ollama.com/

    像 DeepSeek-R1 ,671b 的版本才是真正使用了 deepseek2 架构的模型,可以认为这是 R1 的完全体,但是也需要巨大的显存才能跑起来,单机部署的话是不可能的

    营销号说的很容易本地部署的应该是 7b 8b 的蒸馏版本,这种都是用 llama 或者 qwen 的架构从完全体蒸馏出的小模型,可以很轻松地本地跑,但是有点笨笨的。32b 和 70b 会聪明很多,但是得需要比较高端的显卡或者比较大规格的 Mac 才能带得动
    mingtdlb
        3
    mingtdlb  
    OP
       246 天前
    @Shaaaadow ollama 跟官方的有区别么? 671b 看着要 404G 的显存,但不是所有企业都要这个级别的,整个 14B 32B 的应该就够了吧

    硅基流动这种平台是不是就是干这事的,把开源的模型拿来部署起来,再加上自己整一些 feature ,卖服务?
    kiseopt
        4
    kiseopt  
       246 天前
    区别很大,如果你要在线的质量那就只能完整版,普通的 14B 32B 的本地版本其实远不如各家的在线版,这个的意义更多的是说我们可以这样,然后还有你拿来微调做专精特化的 LLM
    zhongdenny
        5
    zhongdenny  
       246 天前
    @mingtdlb ollama 的默认 671b ,400G 大小,好像写着是 4 比特量化版本。官方版本 163 个 4G 的文件,合计大概 700G 。
    Shaaaadow
        6
    Shaaaadow  
       245 天前
    @mingtdlb 网上测评说有点区别?不过我没有具体对比过,我实际体验下来感受就是,ollama 的 671b 比官方的少一些功能,比如审查+撤回(
    tycholiu     7
    tycholiu  
       243 天前
    还是得要稳定,不稳定就用得恼火,最近发现这家 https://ppinfra.com 还不错,可以试一下。
    mingtdlb
        8
    mingtdlb  
    OP
       241 天前
    mingtdlb
        9
    mingtdlb  
    OP
       241 天前
    Livid
        10
    Livid  
    MOD
    PRO
       241 天前
    @mingtdlb 7 楼那个在回复里刷屏的账号已经被彻底 ban 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2391 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 01:16 PVG 09:16 LAX 18:16 JFK 21:16
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86