Deepseek R1 671B 本地部署方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mcsddjyd
V2EX    Local LLM

Deepseek R1 671B 本地部署方案

  •  
  •   mcsddjyd 252 天前 2643 次点击
    这是一个创建于 252 天前的主题,其中的信息可能已经有所发展或是发生改变。
    公司让部署满血的 Deepseek R1 671B 目前机器有四台 每台机器八张 4090 每张显卡 24G 有大佬能推荐一下部署方案嘛
    15 条回复    2025-04-27 15:32:49 +08:00
    Marshaii
        1
    Marshaii  
       252 天前 via iPhone
    mcsddjyd
        2
    mcsddjyd  
    OP
       252 天前
    @Marshaii 感谢 我先看看
    mcsddjyd
        3
    mcsddjyd  
    OP
       252 天前
    @Marshaii 这个好像是 cpu 的部署方案
    Marshaii
        4
    Marshaii  
       252 天前 via iPhone
    @mcsddjyd sorry ,在地铁上刷到直接收藏还没来得及看。无视我吧,Orz
    waityan
        5
    waityan  
       252 天前
    别想了,这最大只能部署 1.58 -bit 的版本吧,用处不大。不如直接用 QWQ-32B 吧
    mcsddjyd
        6
    mcsddjyd  
    OP
       252 天前
    @waityan 老板要求部署 我也没法 现在就卡在 四台机器上的 4090 加载模型的时候无法通信 使用的是 ray+vllm
    pkoukk
        7
    pkoukk  
       252 天前
    @mcsddjyd #6 一般的以太网承载不了显卡间通信的带宽吧,多卡机器通信要用 InfiniBand 或者 ROCE 吧
    ychost
        8
    ychost  
       252 天前
    建议 QWQ 吧,你这个部署低级量化版本效果不理想
    Chihaya0824
        9
    Chihaya0824  
    PRO
       252 天前
    4*8*24=768G
    这显存应该够,为啥只能部署低精度的...
    神奇,ray+vllm 不能用,ray list nodes 正常吗?
    那要不试一下 llama.cpp rpc mode?
    https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md
    Clannad0708
        10
    Clannad0708  
       252 天前
    ollama 吧看看,网上不是很多方案吗
    dayanshenjun
        11
    dayanshenjun  
       252 天前
    @mcsddjyd #6 7 楼老哥说的是对的,但是 RoCE 的话带宽估计也不行,我们也在研究,想要部署 671B FP8 版本的话,单台八卡至少是 H20 96G 的,集群的话,供应商推荐至少是 400G 的 IB 网卡起步,初步算至少 200W 吧
    SeaRecluse
        12
    SeaRecluse  
       252 天前
    没有 NVLink 还想部署,老老实实换 X100 系列
    kd9yYw2RyhQwAwzn
        13
    kd9yYw2RyhQwAwzn  
       252 天前
    单纯跑起来的话 sglang 或者 ray cluster 就行
    Zaden
        14
    Zaden  
       252 天前
    4090 没法做服务器之间集群的,普通的 pcie 连接带宽不够,需要 nvlink 、hccs 之类专用总线
    /tr>
    businessch
        15
    businessch  
       213 天前 via iPhone
    大哥,能分享下你的硬件配置方案吗。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2273 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 16:07 PVG 00:07 LAX 08:07 JFK 11:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86