
1 bluryar 5 天前 LVM 为什么和 LLM 是排他的,这个配置:QuantTrio/Qwen3-VL-235B-A22B-Thinking-AWQ 洒洒水 |
2 Sh1xin OP @bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足 |
3 bluryar 5 天前 1. AWQ ,最低的硬件要求除个 4 即可 2. 4 张卡都用来跑 LLM 的话,其他小模型跑在哪? |
4 cbythe434 5 天前 单卡跑小模型,另外三张自己玩 |
5 orzsome 5 天前 借个楼问一下,如果就一张 A100 ,想要部署嵌入跟重排序,加上 LLM/LVM ,可以部署多大参数量的?如果都是 qwen3 ,是不是最多嵌入跟重排序是 0.6B ,LLM/LVM 最多是 30B int8 就是极限了,其他的显存留给并发的上下文什么的?我没有这方面的经验,请各位大佬能给一点建议 |
9 kinkin666 5 天前 我是 docker 的 xinference 跑 0.6B ,用 CPU 跑,搞意图识别词嵌入重排序够了,不能让 gpu 跑个半死 cpu 搁那抖腿 docker 的 vllm 跑大的,编程接口一致点方便些 |
11 zsj1029 5 天前 via iPhone GPT oss 非常好,知识库吊打 ds ,20b 的就够用 |
12 wangmn 5 天前 现在 A100 80G 啥价格 |
14 coefu 5 天前 会不会 不叫 LVM ,而是叫 VLM ? |
15 coefu 5 天前 @Sh1xin #2 unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF,Q8_0-250 GB,Q8_K_XL-265 GB 。 肯定够的。 |
16 bluryar 4 天前 @Sh1xin 4 张卡是全用于部署 LLM 还是需要部署包括 LLM\Embedding\Reranker 在内的所有模型?工作流复杂的情况下,你还有可能需要部署小参数的 LLM 。OCR 不知道部啥,就跑一个 MinerU 吧。 您的应用还没搭建起来其实也说不清楚需要什么样的模型。作为网友当然是建议参数越大越好。 |
17 mx2dream 4 天前 ①知识库②智能客服问答③OCR 这些需求使用 30B 左右的参数有点浪费了。优先考虑总参数 100B 激活参数 10B 左右的稀疏模型高精度版,或 32B 尽量往上的稠密模型。这四张 A100 ,2 张主力跑 LLM 模型和框架,1 张用于 OCR 和向量检索嵌入,推荐先用传统 OCR 处理(比如 PaddleOCR 之类的),不推荐直接用 VLM 模型进行识别,总之尽量不要在第一步就引入 LLM 的幻觉),再搭配内外部知识库的 RAG 进行修正和降低幻觉,另外 1 张留给 KV 缓存和上下文,FlashAttention 建议打开,这东西在长上下文里对显存吞吐都有不少提升。另外,235B 有点太大了,没有多少冗余了。 你要是还有精力,还可以根据你们公司内部的专门需求折腾下 Agent 。 开始搭建好环境和框架之后,先搞几个 10B 左右的小模型测试一下,然后再换主力模型,这样稳一点。 |
18 chspy 2 天前 你可以先去提供这种服务的网站去咨询一下,比如 PPIO ,还能顺便把报价了解了。 |
19 Sh1xin OP @mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛? 目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。 当前正在测试机上测试,感谢提供指导 |
20 estrusoon 18 小时 50 分钟前 via iPhone 可以考虑一下 mistral |
21 mx2dream 6 小时 5 分钟前 @Sh1xin 试图用自动化解决绝大部分问题我认为也是一种幻觉,有些识别问题技术解决不了的就通过管理来解决。比如上传资料时按类别、清晰度、重要性和保密性等等打标签进行分级,如果资料级别达到比较高的程度,就在流程上专门引入人工校对或给相应权限的人复核就行了(否则全部自动化了还要人干什么),如果资料没那么重要,就不用太苛求太高的识别正确率了。 |