用来计算神经网络的组装机器的 1080ti 显卡用一阵就掉了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhiqiang
V2EX   Ubuntu

用来计算神经网络的组装机器的 1080ti 显卡用一阵就掉了

  •  
  •   zhiqiang 2017-12-18 09:00:20 +08:00 10070 次点击
    这是一个创建于 2855 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们自己组装机器,插了 3 块 1080ti 显卡,用来计算深度神经网络,性能还不错,基本跟一台用 P100 的服务器计算性能差不多。

    可是有个烦心事情,用一阵之后,显卡就会少,比如 nvidia-smi 只能看到两块显卡,另外一块显卡就不见了。重启机器,显卡会回来。

    机器用的 i9 7900x CPU,128G 内存。操作系统是 ubuntu 16.04 。

    有人碰到类似情况吗,怎么解决?

    第 1 条附言    2017-12-18 11:07:11 +08:00
    电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。从功率上看是足够的。
    33 条回复    2017-12-19 14:51:32 +08:00
    7654
        1
    7654  
       2017-12-18 09:04:39 +08:00
    电源功率如何,有没有虚表
    TOTOP
        2
    TOTOP  
       2017-12-18 09:05:49 +08:00
    电源问题,显卡独立供电。
    dcll222
        3
    dcll222  
       2017-12-18 09:24:25 +08:00
    7900x 和三张 1080ti 大概得一千瓦供电才能长时间稳定运行
    lonelygo
        4
    lonelygo  
       2017-12-18 09:30:55 +08:00
    1080Ti,标的功率 275W,你还要留点富裕;
    跑训练,估计硬盘也不少于两块,CPU 也不太差,这些都要单独用电;
    建议电源不低于 1500W,最好直接上 2KW。
    8355
        5
    8355  
       2017-12-18 09:43:19 +08:00
    我也觉得是电源的问题. 买个好点的电源吧. 高端海韵 全汉 海盗船 EVGA 都可以.
    wecan
        6
    wecan  
       2017-12-18 09:54:31 +08:00 via Android
    长期运行的话 1600w 要是要的。一般就是电源和散热
    realpg
        7
    realpg  
    PRO
       2017-12-18 10:20:10 +08:00
    有动手能力么 如果有 淘宝买块 30 的神电源 买三个显卡 pin 带长线接头 自己焊上接上 美滋滋
    挖矿机我就是这么干的
    mfergg
        8
    mfergg  
       2017-12-18 10:44:16 +08:00
    这电脑要是用来玩游戏就爽了
    turan12
        9
    turan12  
       2017-12-18 10:53:36 +08:00
    建议上双电源。一个电源专门为显卡供电,另一个电源为 CPU 和板卡供电。
    zhiqiang
        10
    zhiqiang  
    OP
       2017-12-18 11:06:22 +08:00
    楼上各位,我们的电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。按道理应该足够了的。
    zhiqiang
        11
    zhiqiang  
    OP
       2017-12-18 11:07:47 +08:00
    @turan12 电源功率足够,也要分开两个电源吗?
    z5864703
        12
    z5864703  
       2017-12-18 11:13:52 +08:00
    @zhiqiang 要看 12V 供电
    focusheart
        13
    focusheart  
       2017-12-18 11:16:58 +08:00
    请教一下,主板用的是哪一款呀?
    zhiqiang
        14
    zhiqiang  
    OP
       2017-12-18 11:25:20 +08:00
    @focusheart 华硕( ASUS ) PRIME X299-DELUXE
    Thiece
        15
    Thiece  
       2017-12-18 11:26:07 +08:00
    @zhiqiang 首先,如果你的显卡是公版的 250W,如果是非公版额定功率大概在 265W 左右,但是 NVIDIA 会有一个峰值功率墙,一般是 20%,换算下来就是 318W。你有 3 块也就是 954W。7900X 的额定功率是 140W,我不知道你有没有超频,如果超频了,CPU 的功耗会提的比较多,我就当你超频了 200W 吧。振华这块电源 12V 输出是 133.3A ,也就是 1600W 是完全没问题。那你需要注意一下是不是显卡散热的问题了,10 系的温度墙,控制温度是 83°C,上限温度是 92°C。不仅仅的 GPU 的核心温度需要注意,显存的散热和 VRM 散热。公版卡 VRM 散热是没有覆盖到的。解决方案也是有的,上水冷。
    Thiece
        16
    Thiece  
       2017-12-18 11:29:31 +08:00
    X299-DELUXE 没有额外的 PCIE 供电,不排除是这方面的原因
    daydaysay
        17
    daydaysay  
       2017-12-18 11:36:16 +08:00
    和楼主出现一样的情况,但不是跑神经网络。 应该不是电源问题。
    rogerchen
        18
    rogerchen  
       2017-12-18 11:39:08 +08:00
    不太可能是电源的问题。。。很有可能是 BIOS 的问题,FYI https://devtalk.nvidia.com/default/topic/1010960/cuda-missing-gpu-/
    cevincheung
        19
    cevincheung  
       2017-12-18 11:47:39 +08:00   1
    人工智能自动卸载了一块显卡当备用。
    zhiqiang
        20
    zhiqiang  
    OP
       2017-12-18 12:01:42 +08:00
    @Thiece 现在三块 GPU 的供电都是直接连的电源。你提到的主板额外 PCIE 供电,具体是指什么?
    focusheart
        21
    focusheart  
       2017-12-18 12:13:10 +08:00
    @zhiqiang 谢谢~~
    turan12
        22
    turan12  
       2017-12-18 14:10:56 +08:00
    @zhiqiang 其实就是 @z5864703 这个意思,看 12v 是多少 A 的,就可以算出功率。另外靠谱的 80plus 2000w 电源价格可不便宜,还不如分两个。
    em84
        23
    em84  
       2017-12-18 14:17:17 +08:00
    这电脑用来刷贴吧肯定很爽系列
    BadMan
        24
    BadMan  
       2017-12-18 14:45:48 +08:00
    我们实验室的服务器有时候也会这样,带了 4 块 Titan X,后来让学院管理员弄了一下就没出现过了
    realpg
        25
    realpg  
    PRO
       2017-12-18 14:51:52 +08:00
    @zhiqiang
    换个主板看看吧……
    这主板压根就不是挖矿类场合设计的(计算基本就是跟挖矿同场景)
    十有八九供电问题 这就是个超频 /游戏主板

    做你这种需求的 弄专业点的挖矿板比较好 至少主板得带 至少一个大 4pin 甚至 8pin PCI-E 辅助供电 然后最好主电源用小点的就行,再弄个专门 12V 电源供显卡,我之前说的 30 元的艾默生 12V 65A 神电源就可以,自己动手简单改造一下即可
    gpw1987
        26
    gpw1987  
       2017-12-18 15:55:51 +08:00
    高级呀,神经网络
    zhiqiang
        27
    zhiqiang  
    OP
       2017-12-19 08:47:43 +08:00
    @realpg 能推荐一个主板型号吗?神经网络 GPU 显存和数据传输率都很大,和挖矿还是有显著区别的。
    zhiqiang
        28
    zhiqiang  
    OP
       2017-12-19 08:49:02 +08:00
    @turan12 振华应该没啥问题吧,这电源将近 3000 块钱。
    turan12
        29
    turan12  
       2017-12-19 09:36:02 +08:00
    @zhiqiang 一个字,米!:p
    realpg
        30
    realpg  
    PRO
       2017-12-19 11:51:53 +08:00   1
    @zhiqiang #27
    我基本不碰“高端”游戏主板,直接就能用的没推荐

    我们这数据中心一堆计算类托管的业务,都不是这么玩的,都是 DIY,不放标准机柜

    如果你 DIY 能力强就别装机箱了 类似挖矿那么的打个小架子 显卡固定架子上 然后用 PCI-E 延长线
    找好 PCI-E 的电源针脚定义,直接从外部 12V 在排线对应针脚输入个 12V 电进去

    建议买个我之前说的 30 元的艾默生神器电源,12V65A 的 改一下启动,给显卡辅助供电,再从主电源的大 4PIN 分出一个 12V 线 直接接到 pci-e 延长线的供电 算明白,一个 PCI-E 给 75W 供电,机械硬盘一个算 20W (考虑启动电流),CPU 按照 TDP 算,主板算 20W,主电源把这些加起来再加个 100 瓦余量就可以了,如果有额外的大散热风扇,直接算好风扇电流

    然后三块显卡的 8pin 用 12V65A 那个神器带就够了

    实际上,你的这个业务跟挖矿和计算区别不大,大量计算在显卡自己,cpu 调度明显比挖矿多一点,也不是助理,跟 cpu 的交换少得多,否则就不是用你这种单 CPU 的方案了

    其实,最好还是用服务器挂多显卡,本身 SMP 系统支持的 PCI-E 通道数就多,然后用延长线弄出来挂在架子上,很多平台可以轻松 6 卡 PCI-E 8X 模式

    这种超大功率的 PC 玩法,还是自己会设计会执行比较好
    wecan
        31
    wecan  
       2017-12-19 14:34:04 +08:00 via Android
    @Thiece pcie 供电和主板还有关系了?
    Thiece
        32
    Thiece  
       2017-12-19 14:48:55 +08:00
    @wecan
    @zhiqiang
    PCIE 插槽会向其设备提供 75W 的供电,一般这个供电是由 24pin 提供,某些主板会提供额外的 PCIE 供电接口比如微星的 XPOWER 系列。显卡在使用过程中的供电有一部分也是由 PCIE 提供,具体多少看设计者了。
    参考文章 http://3c.3dmgame.com/show-14-3850-1.html
    Thiece
        33
    Thiece  
       2017-12-19 14:51:32 +08:00
    @zhiqiang 另外,你的电源 12V 输出是 133.3A ,除非出现品控问题,不然这块电源完全能带动整个平台。你可以留意一下散热问题。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     931 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 18:44 PVG 02:44 LAX 11:44 JFK 14:44
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86