目前部署 deepseek r1 671b 有生产力的性价比方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
whyorwhynot
V2EX    程序员

目前部署 deepseek r1 671b 有生产力的性价比方案

  •  
  •   whyorwhynot 220 天前 771 次点击
    这是一个创建于 220 天前的主题,其中的信息可能已经有所发展或是发生改变。

    业余大模型选手,最近在折腾 deepseek r1 671b 的性价比部署,目标是部署官方满血 fp8 版本( A100 、3090 等不支持 fp8 的老架构就不考虑了),目前调研出的一些方案如下:

    • 1 、纯 CPU 部署方案,基本是 epyc 搭配高频内存,不过性能可能不符合生产力需求
    • 2 、清华的 ktransformers ,大体看了下,貌似推的是 4bit 量化版本的,看有些评论其性能也不是想象中那么高,有不少限制,专家数是否和官方的一致,并发推理问题,没有深入了解,4bit 量化不符合我们的目标了
    • 3 、L40S 48GB/4090 48GB/ RTX 5880 Ada 48GB 搞分布式部署,2 台 8 卡机器共 16 卡 ,768GB 显存,貌似支持满血的部署,就是不知道性能如何,4090 48GB 的确便宜但是据说稳定性一般般?
    • 4 、4090 24GB 搞 32 卡,4 机分布式部署,性能还是不清楚,不会只有 5token/s 吧,对太多机器的分布式方案性能有顾虑。
    • 5 、amd 的 mi300x 192GB ,显存挺大,貌似 4 卡就可以推理,但是是 rocm ,还是有所顾忌。
    • 6 、H20 96GB (141GB) 搞单机 8 卡,96GB 100 万出头就可以解决,貌似是 deepseek 推理的主流方案?
    • 7 、H100 、H200 、H800 等,太贵了,100 万左右最好
    • 8 、其它国产计算卡,没有深入了解,但是一般不考虑

    因为各种限制,目前倾向于 RTX 5880 Ada 搞双机 8 卡推理,这个方案有问题吗?还有什么别的方案吗?

    BobMaster
        1
    BobMaster  
       219 天前 via Android
    今天看到 Intel 的某方案

    DeepSeek-R1-671B-Q4_K_M with 1 or 2 Arc A770 on Xeon

    https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md
    whyorwhynot
        2
    whyorwhynot  
    OP
       219 天前
    刚刚发现 M3 Ultra 512GB 推出了,两台跑 int8 算是最性价比的方案了,可惜就是不支持 fp8
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2579 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 04:53 PVG 12:53 LAX 21:53 JFK 00:53
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86