如题。
纯推理,主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。
1 justFxxk2060 2024-06-28 11:51:21 +08:00 2080ti 魔改 |
![]() | 2 13240284671 2024-06-28 11:52:40 +08:00 3060ti 16g |
![]() | 3 13240284671 2024-06-28 11:53:10 +08:00 说错了,4060 16g |
4 hez2010 2024-06-28 12:01:28 +08:00 本地一般是跑量化后的模型,你的显卡起码得支持 INT8 和 INT4 。 |
5 xiaoluxiaolu 2024-06-28 12:24:45 +08:00 应该要求不高吧,前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ,不过就是比较慢 |
![]() | 6 cinlen OP @justFxxk2060 有看到 2080ti + 22g 的方案,这个靠谱吗? |
![]() | &bsp; 8 my101du 2024-06-28 13:52:16 +08:00 @13240284671 非 ti 的 4060 , 好像都是 8G 的? 618 想装机都没找到 16G 的 4060. |
![]() | 9 cinlen OP @netizenHan 目前我是 m1 跑小模型没啥问题。 但还有 sd webui 和 sd comfyui 的需求,所以应该会攒台新机器。 |
10 ccloving 2024-06-28 13:56:02 +08:00 如果是 SD 和 ollama ,用 A 卡是不是就可以 |
13 gam2046 2024-06-28 14:05:40 +08:00 @netizenHan #5 8B 效果很一般,基本处于完全胡诌的状态,我用 3090 跑过,响应速度快,但是胡说八道。而 70B ,我的 3090 就跑不起来了。 |
![]() | 14 SamLacey 2024-06-28 14:10:07 +08:00 @cinlen 矿卡老祖了,如果售后有保障,或者你动手能力强可以冲,40 系老黄刀法太好了,60superti 与 70 价格差一倍,性能也刚好差一倍,显存不爆的情况下,只有时间差别 |
![]() | 15 SamLacey 2024-06-28 14:11:41 +08:00 反正挺推荐 4070ts 的 |
![]() | 16 luchenwei9266 2024-06-28 14:22:03 +08:00 看预算,3000 以下无脑选 2080ti 22G |
17 goxxoo 2024-06-28 14:22:09 +08:00 我算过了, 和一台 MBP 价格差不多...2w 以内 |
![]() | 18 zysuper 2024-06-28 14:27:50 +08:00 没钱选 NVIDIA GeForce RTX 4060 Ti , |
19 billgreen1 2024-06-28 14:29:26 +08:00 M2 ULTRA 192GB, |
![]() | 20 cinlen OP @luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗? |
21 FlintyLemming 2024-06-28 15:01:57 +08:00 @cinlen ollama 默认下的都是 int8 int4 的量化模型,根本就不会给你下 fp16 的,你显存小也没有必要跑没量化的模型 |
22 afeiche 2024-06-28 15:08:24 +08:00 个人感觉显存大的,新一点的,毕竟现在有些大模型必须用 cuda12 以上了,我印象中 2 系列的,不支持 12 |
![]() | 23 cinlen OP @FlintyLemming 请教一下,如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算? 和推理一样用参数量乘以数据类型占用 bit 数吗? |
![]() | 24 keakon 2024-06-28 16:08:15 +08:00 |
25 FlintyLemming 2024-06-28 16:30:43 +08:00 @cinlen 量化跟推理不一样,显存没上限的,越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档,然后根据设置的参数计算。 |
26 Greendays 2024-06-28 17:01:33 +08:00 不能接受改装的话, 应该就是 4060ti 16G 了吧,或者 3060 12G |
![]() | 27 Champa9ne 2024-06-28 22:43:11 +08:00 居然没人推 P40 ?最廉价的 24G 显存,现在 LLM 能上大参数效果才可堪一用啊。自己一个人用,推理一次多等两分钟无所谓了吧? |
![]() | 28 woorz 2024-06-28 23:29:39 +08:00 轻度最好用这个 [爽过甲骨文 9 条街] 免费用 A100 、V100 !搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea |
![]() | 29 slowgen 2024-06-29 07:29:22 +08:00 @Champa9ne P40 太老了,带宽小,算力差,朋友拿 10 张去跑 Command R Plus 104B 8bit 推理,速度不到 2 token/s ,拿 M2 Ultra 192GB 跑起码还有 5.x token/s ,各种意义上的电子垃圾。 |
![]() | 30 slowgen 2024-06-29 07:43:46 +08:00 @cinlen 2080ti 22g 我手头有 2 张,分别 24 小时开机 1 年和 1 年半,没啥问题。不建议买水冷版,单张的话建议买 2~3 风扇的。 涡轮卡适合挤多张但是噪音大,把功耗限制在 70%左右,风扇拉一下可以得到很好的噪音/性能表现,跑 AI 性能下降在 10%左右。买了一张就会买第二张,迟早走上 4 卡/8 卡的道路。 |
![]() | 31 yianing 2024-06-29 12:02:21 +08:00 via Android 4090, you buy more, you save more |
![]() | 32 flymeto 2024-06-29 12:15:57 +08:00 2080ti 魔改,自己用一年了,没啥问题 |
![]() | 33 cowcomic 2024-06-29 13:24:00 +08:00 建议上安培架构的显卡,也就是 30 系和 40 系 印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡 |
35 crackidz 2024-06-29 14:28:31 +08:00 跑 SD 最好还是显存足够大,跑 LLM 的话量化 int4 损失也不大,但 SD 是不一样的,基本上都需要 fp16 ,这样子的话 24G 显存是最好的选择,比如 3090 。当然你要是知道魔改卡的话那就... |
![]() | 36 luchenwei9266 2024-06-29 18:10:45 +08:00 @cinlen #20 没什么雷,用了一年多了。建议上三风扇版本。 |