搞 AI 的话同样价格是 3060 12Gx2 好还是 4060Ti 16G 好? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
1014982466
V2EX    硬件

搞 AI 的话同样价格是 3060 12Gx2 好还是 4060Ti 16G 好?

  •  
  •   1014982466 2023-09-18 16:32:33 +08:00 2749 次点击
    这是一个创建于 764 天前的主题,其中的信息可能已经有所发展或是发生改变。
    研究生组里面想搞自然语言处理,大语言模型(仅推理不训练)等等。
    现在 1 万每台的预算,要 N 卡还是大显存显 只能是 3060 12Gx2 (¥ 3400 )或者 4060Ti 16G (¥ 3500 )
    因为要正规渠道且开发票所以 2080Ti 22G 或者 P40 那些是肯定不行。
    所以就想问下搞过 AI 的,两张 3060G 看似 22G 显存性价比很高,有没有什么坑,比如双卡兼容性或者不支持双卡等等
    4060Ti 的话最省事,而且单卡不挑机箱电源,但是就怕 16G 显存不够用

    请大佬们解答
    15 条回复    2023-09-19 02:05:48 +08:00
    karatsuba
        1
    karatsuba  
       2023-09-18 16:33:57 +08:00
    lkwfive
        2
    lkwfive  
       2023-09-18 16:36:40 +08:00
    显卡容量优先于算力,去官网确认下 3060 能不能组网,能的话就选这个
    Takizawa
        3
    Takizawa  
       2023-09-18 16:37:22 +08:00
    还不如内存加大一点,用共享显存
    wipbssl
        4
    wipbssl  
       2023-09-18 16:39:56 +08:00
    说实话不如租服务器,硬要选的话可以试试 3060*2 ,用 ddp 训练应该比 4060ti 强
    daweii
        5
    daweii  
       2023-09-18 16:43:34 +08:00 via iPhone
    colab 买算力
    1014982466
        6
    1014982466  
    OP
       2023-09-18 16:52:24 +08:00
    @karatsuba #1 @wipbssl #4 有没有推荐的平台?适合学生的
    qqjt
        7
    qqjt  
       2023-09-18 16:58:49 +08:00
    我的话会选 4060ti ,双卡的话可能的坑更多。这俩个方案其实都只能学习性质,正儿八经训练得加钱。
    JayZXu
        8
    JayZXu  
       2023-09-18 17:16:19 +08:00
    大显存 比 多卡兼容性更好,支持项目更多

    不过这两个卡 CUDA 性能都不咋地,也就入门玩玩的水平

    预算不高,同样建议 colab
    wipbssl
        9
    wipbssl  
       2023-09-18 17:18:47 +08:00
    @1014982466 矩池云、featurize 、autodl 等等挺多的。
    wipbssl
        10
    wipbssl  
       2023-09-18 17:20:01 +08:00
    其实可以看看能不能和华为百度之类的合作,他们都有自己的深度学习框架,目前还在推广,给机器挺大方的
    seres
        11
    seres  
       2023-09-18 17:20:42 +08:00
    2080Ti 魔改 22G
    matchalatte
        12
    matchalatte  
       2023-09-18 17:37:58 +08:00   3
    双卡推理目前有两种方案:
    - 流水线并行:把层划分到不同 GPU 上,比方说切成前半后半,每次计算先用 gpu1 ,再用 gpu2 。好处是实现简单,缺点是推理延迟会变得很大。参考 ChatGLM 的一个多卡部署实现: https://github.com/THUDM/ChatGLM2-6B/blob/main/utils.py
    - 张量并行:把每个参数切片到所有 gpu 上,每次乘法完做一个 all reduce 。这个手写修改源代码很困难。比较简单的方法是套用 deepspeed zero3 ,accelerate 库也有这个功能。参考: https://huggingface.co/docs/accelerate/usage_guides/deepspeed

    如果用上 deepspeed 的话,还有个单卡多卡都可以用的方案
    - deepspeed 有 cpu_offload 和 nvme_offload ,可以自动把没用到的权重下放到内存/磁盘里,再把要用的挪到显存里,这样理论上多大的模型都能跑,但是对内存和磁盘要求比较高,而且推理很慢。

    需要注意的几个点:
    - 双卡如果是 hf 模型,适配起来比较简单,调用 accelerate 库就可以了。但一些小众框架就很麻烦。多卡推理具体方法就是前面提到的两个。
    - 3060 没有 nvlink ,双卡间通信是走内存,会很慢,而且 worker 开的多也会更吃内存。一万的预算不知道配了多少内存,跑大模型对内存的要求非常高,这个需要注意。
    - 双卡需要注意主板的第二个 pcie 插槽能否跑到满速( x16 ),如果 x8 或者 x4 会降低通信速度,本身多卡就挺吃通信的。还有些主板第二个 pcie 还会和 nvme 硬盘槽位冲突,这些都得确认一下。
    - 如果你们组不止一个人用,双卡会方便一些,在必要时可以分给两个人分别干不同的事情。
    - 单张 4060ti 放的下模型的情况下,推理会比两张 3060 快。3060 虽然有 12Gx2 ,但分布在不同的卡上,计算需要来回通信,在推理时通信开销往往是比计算大很多的。

    不过就像前面几层说的,仅推理 colab 就比较够用。自己组服务器还有维护、配置的一些成本,包括像内存要求这些问题。建议再三考虑。
    jhdxr
        13
    jhdxr  
       2023-09-18 17:55:34 +08:00
    没搞过上来就像挑战双卡难度有点大。。。除非就是跑跑别人现成已经调好的
    OysterQAQ
       
    OysterQAQ  
       2023-09-18 17:58:15 +08:00
    得加钱 不然就全花显卡上 其他另外配 只报销显卡
    talkischeap567
        15
    talkischeap567  
       2023-09-19 02:05:48 +08:00
    4090*n
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3075 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 12:39 PVG 20:39 LAX 05:39 JFK 08:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86