小白想问问在的模型一般都是怎么部署的?直接用 python 的框架部署上去吗?还是导出给 c++部署?看到好像 onnx 部署的文章好像很稀少,大伙都是直接用 python 部署的吗?
1 Hans999632 285 天前 我是用 vllms ,或者 ollama ,不过 ollama 慢,实在不行直接用本地模型 |
![]() | 2 anivie OP @Hans999632 本地模型?这不都是本地的吗 |
3 qiniu2025 285 天前 用 flashai.com.cn 下载整合包,win 或者 mac 无需任何安装配置,下载解压运行,开箱即用, 内置聊天+知识库+翻译应用 |
![]() | 6 neteroster 285 天前 个人简单用用 llama.cpp 就行,要生产环境或者有高并发 / 高性能要求的推荐 sglang ,会比 vllm 快。 |
![]() | 7 kiritoxkiriko PRO 生产级别的主流开源推理框架有 tgi vllm sglang tensorrt-llm lmdeploy ,这些框架都支持直接启动 openai compatible 的 http server ,后面可以接 rag 或者那种 chatbot gui 来调 api ,性能和兼容性略有不同 vllm 支持的模型应该是最多,trt-llm/sglang 性能更好 自己部署着玩可以用 ollama |
![]() | 9 kiritoxkiriko PRO @anivie #8 可以看下 bentoml ,这个项目允许你在现有的推理代码上简单包一层就可以部署生产级别的服务 |