https://zhuanlan.zhihu.com/p/657550065
看了下,它用的应该是个 kde 的 linux ,比如 kubuntu ,竟然 跑起来了 13b
![]() | 1 ElsaGranger 2024-01-23 01:16:31 +08:00 via iPhone 不想量化可以试试 powerinfer |
2 zhlenmao OP @ElsaGranger 谢谢~~~ |
3 zhlenmao OP 已经试成了。用的 linux mint ,就是不能问太长,长了就直接 cuda 溢出报错。然后换成了 int4 量化版,这样输入就能长的多了。至于"ElsaGranger "说的方法还没空试 |
![]() | 4 shm7 2024-02-27 17:20:11 +08:00 显存太小,随便 2k 可能都爆了,都是无效尝试。 |
![]() | 5 smalltong02 2024-05-01 11:51:35 +08:00 在 windows 平台下可以,前提是内存够大,不怕推理慢。 |