
1 Marshaii 252 天前 via iPhone |
5 waityan 252 天前 别想了,这最大只能部署 1.58 -bit 的版本吧,用处不大。不如直接用 QWQ-32B 吧 |
8 ychost 252 天前 建议 QWQ 吧,你这个部署低级量化版本效果不理想 |
9 Chihaya0824 PRO 4*8*24=768G 这显存应该够,为啥只能部署低精度的... 神奇,ray+vllm 不能用,ray list nodes 正常吗? 那要不试一下 llama.cpp rpc mode? https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md |
10 Clannad0708 252 天前 ollama 吧看看,网上不是很多方案吗 |
11 dayanshenjun 252 天前 @mcsddjyd #6 7 楼老哥说的是对的,但是 RoCE 的话带宽估计也不行,我们也在研究,想要部署 671B FP8 版本的话,单台八卡至少是 H20 96G 的,集群的话,供应商推荐至少是 400G 的 IB 网卡起步,初步算至少 200W 吧 |
12 SeaRecluse 252 天前 没有 NVLink 还想部署,老老实实换 X100 系列 |
13 kd9yYw2RyhQwAwzn 252 天前 单纯跑起来的话 sglang 或者 ray cluster 就行 |
14 Zaden 252 天前 4090 没法做服务器之间集群的,普通的 pcie 连接带宽不够,需要 nvlink 、hccs 之类专用总线 |
15 businessch 213 天前 via iPhone 大哥,能分享下你的硬件配置方案吗。 | /tr>