设备配置
- 显卡:8x4090 ,单张 24564MIB--约 24G 显存(单张可用 60%左右)
- CentOS 7.6 ,已有 cuda 、python 、docker 环境
需求
- 暂时采用量化模型,Qwen2.5 32B q6 或者 q8 ( q4km 效果太差了)
- 多卡部署,想充分利用多卡 gpu
- 简易离线部署(优先级小于多卡部署),最好类似 docker 镜像直接保存的方式,也可以使用 python 离线依赖安装的方式,主打一个一次导入,导入太麻烦了。
- 最终需要一个类似
open_webui的 web 方案
方案
- 当前单卡
ollama+open_webui效果差,想堪比 gpt 4o (当然没必要太强)能用的程度。 - llama.cpp 多卡好像支持不太好?
- vllm 多卡部署好像不支持量化模型,不是很满足需求。
- TGI 好像可以( Int4 、Int8 、AWQ )但是不太了解。
- 官方还提供 SkyPilot 、OpenLLM 但都不太了解
有没有一种好的方式快速部署
