在 2c2g 的服务器上部署了个 gemma:2b ,响应太慢了,如果用家用台式机带 GPU 跑这个模型,什么样的配置才能流畅的进行问题交流?

在 2c2g 的服务器上部署了个 gemma:2b ,响应太慢了,如果用家用台式机带 GPU 跑这个模型,什么样的配置才能流畅的进行问题交流?
1 13240284671 Mar 1, 2024 2b 要求很低的,有个 6g 显卡就可以了 |
2 crackidz Mar 1, 2024 2B 模型 CPU 跑就行... |
3 shinyzhu Mar 1, 2024 我的 M2 ,24G 非常流畅。 |
4 coinbase Mar 1, 2024 m1 pro 16g ,gemma:7b 也可以跑 |
5 noahlias Mar 1, 2024 |
6 vvhy Mar 1, 2024 1660s ,75 tokens/s |
8 noahlias Mar 1, 2024 @yankebupt 中文你用 qwen 模型吧 那个效果好,instruct 在一些问题回答上会更好啊 当然也是答辩 想看比较,自己去 llm leaderboard 看吧 , https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard |
9 gongquanlin Mar 1, 2024 2b 的模型能干什么工作呀?感觉有点太笨了用起来 |
10 hutng Mar 1, 2024 ollama 普通 cpu 也能跑 7b ,但是感觉好垃圾呀,和 chatgpt 差十万八千里,类似于小爱同学这样的,也不知道是不是我用的姿势不对。 |
11 Fish1024 Mar 1, 2024 内存大点就行,13b 也能跑,就是慢点,能用。 |
12 abcfreedom OP @crackidz 有点慢呀感觉 |
13 abcfreedom OP @shinyzhu 太强了 |
14 abcfreedom OP @coinbase 正好我也有太 m1pro ,回头试试 |
15 abcfreedom OP @noahlias 话说 amd 的卡能跑吗,手上有张 amd6900xt |
16 abcfreedom OP @vvhy 收到 |
17 abcfreedom OP @noahlias 如果用作中英文翻译,哪个模型比较合适呢 |
18 abcfreedom OP @gongquanlin 其实我也不太清楚,只知道这个模型对资源要求比较低,所以想着部署着玩一下 |
19 abcfreedom OP @Fish1024 好嘞收到 |
20 noahlias Mar 2, 2024 @abcfreedom 应该是可以的 ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案 或者你用 llama.cpp https://github.com/ggerganov/llama.cpp readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas |
21 gongquanlin Mar 2, 2024 @abcfreedom #18 跑了一下 miniCPM-2b ,翻译、总结效果还不错,就是部分回答有点让人捉急哈哈~ |
22 smalltong02 Mar 2, 2024 那是因为 ollama 加载的是 gguf 的量化模型。 |
23 unclemcz Mar 2, 2024 via Android @gongquanlin miniCPM 这个模型我在 ollama 官网搜索不到,有具体链接提供吗? 我最近给自己的一个翻译软件增加 ollama 支持,测试用 qwen-4b ,效果很一般,想再找一个翻译效果好一点的。 |
24 abcfreedom OP @gongquanlin 强 回头我也试试 |
25 gongquanlin Mar 3, 2024 |
26 shinyzhu Mar 6, 2024 哦哦。原来用 verbose 就可以看到速度了啊。我的 MacBook Pro ( M2 ,8Core+10GPU ,24G 内存): ``` ~ % ollama run gemma:2b --verbose total duration: 6.300357083s load duration: 896.708s prompt eval count: 13 token(s) prompt eval duration: 201.698ms prompt eval rate: 64.45 tokens/s eval count: 284 token(s) eval duration: 6.096544s eval rate: 46.58 tokens/s ``` |
27 crackidz Mar 7, 2024 @unclemcz https://ollama.com/roger/minicpm @abcfreedom 要看你的具体的配置,比如内存,CPU 。AMD 的支持很快会发 pre-release 了,速度据说比 NV 慢一点但是比 CPU 还是快多了 |
28 unclemcz Mar 7, 2024 via Android @crackidz 我现在是 8g 的内存,3550h ,跑 qwen:7b ,短句的翻译需要 30s 左右。 @abcfreedom qwen:4b 的速度快很多,但质量差 7b 太多。如果只是翻译,可以接各大翻译接口,百度腾讯华为都有,也都有免费额度。 |
29 unclemcz Mar 7, 2024 via Android @abcfreedom 上楼再补充一下,翻译接口最大的问题是会吃单词,百度腾讯网易都有这个问题,所以如果有合适翻译的大模型,确实是优选。 |
30 abcfreedom OP @unclemcz 我找了个 openai 中转的 api ,拿来对接了翻译,感觉还可以 |