1 dayeye2006199 239 天前 ![]() sglang |
2 raycool 238 天前 是 404G 大小的模型文件吗? 这个 8 卡可以部署成功? |
4 zhyim OP @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf |
5 JackyTsang 237 天前 SGLang 部署。 |
6 haimianbihdata 223 天前 @JackyTsang 这个支持并发怎样 |
![]() | 7 weiming 223 天前 vllm + awq 量化 |
![]() | 9 weiming 222 天前 @zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ |
11 volvo007 222 天前 请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下 |
![]() | 14 weiming 222 天前 @zhyim vllm 0.7.2 awq Parallel request Token per second ( Total ) Token per second(per request) 1 30 30 10 81 10 30 144 6.2 50 180 5 |
![]() | 15 weiming 222 天前 4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。 |