我们自己组装机器,插了 3 块 1080ti 显卡,用来计算深度神经网络,性能还不错,基本跟一台用 P100 的服务器计算性能差不多。
可是有个烦心事情,用一阵之后,显卡就会少,比如 nvidia-smi 只能看到两块显卡,另外一块显卡就不见了。重启机器,显卡会回来。
机器用的 i9 7900x CPU,128G 内存。操作系统是 ubuntu 16.04 。
有人碰到类似情况吗,怎么解决?
![]() | 1 7654 2017-12-18 09:04:39 +08:00 电源功率如何,有没有虚表 |
![]() | 2 TOTOP 2017-12-18 09:05:49 +08:00 电源问题,显卡独立供电。 |
3 dcll222 2017-12-18 09:24:25 +08:00 7900x 和三张 1080ti 大概得一千瓦供电才能长时间稳定运行 |
![]() | 4 lonelygo 2017-12-18 09:30:55 +08:00 1080Ti,标的功率 275W,你还要留点富裕; 跑训练,估计硬盘也不少于两块,CPU 也不太差,这些都要单独用电; 建议电源不低于 1500W,最好直接上 2KW。 |
![]() | 5 8355 2017-12-18 09:43:19 +08:00 我也觉得是电源的问题. 买个好点的电源吧. 高端海韵 全汉 海盗船 EVGA 都可以. |
![]() | 6 wecan 2017-12-18 09:54:31 +08:00 via Android 长期运行的话 1600w 要是要的。一般就是电源和散热 |
![]() | 7 realpg PRO 有动手能力么 如果有 淘宝买块 30 的神电源 买三个显卡 pin 带长线接头 自己焊上接上 美滋滋 挖矿机我就是这么干的 |
8 mfergg 2017-12-18 10:44:16 +08:00 这电脑要是用来玩游戏就爽了 |
![]() | 9 turan12 2017-12-18 10:53:36 +08:00 建议上双电源。一个电源专门为显卡供电,另一个电源为 CPU 和板卡供电。 |
![]() | 10 zhiqiang OP 楼上各位,我们的电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。按道理应该足够了的。 |
13 focusheart 2017-12-18 11:16:58 +08:00 请教一下,主板用的是哪一款呀? |
![]() | 14 zhiqiang OP @focusheart 华硕( ASUS ) PRIME X299-DELUXE |
15 Thiece 2017-12-18 11:26:07 +08:00 @zhiqiang 首先,如果你的显卡是公版的 250W,如果是非公版额定功率大概在 265W 左右,但是 NVIDIA 会有一个峰值功率墙,一般是 20%,换算下来就是 318W。你有 3 块也就是 954W。7900X 的额定功率是 140W,我不知道你有没有超频,如果超频了,CPU 的功耗会提的比较多,我就当你超频了 200W 吧。振华这块电源 12V 输出是 133.3A ,也就是 1600W 是完全没问题。那你需要注意一下是不是显卡散热的问题了,10 系的温度墙,控制温度是 83°C,上限温度是 92°C。不仅仅的 GPU 的核心温度需要注意,显存的散热和 VRM 散热。公版卡 VRM 散热是没有覆盖到的。解决方案也是有的,上水冷。 |
16 Thiece 2017-12-18 11:29:31 +08:00 X299-DELUXE 没有额外的 PCIE 供电,不排除是这方面的原因 |
![]() | 17 daydaysay 2017-12-18 11:36:16 +08:00 和楼主出现一样的情况,但不是跑神经网络。 应该不是电源问题。 |
![]() | 18 rogerchen 2017-12-18 11:39:08 +08:00 不太可能是电源的问题。。。很有可能是 BIOS 的问题,FYI https://devtalk.nvidia.com/default/topic/1010960/cuda-missing-gpu-/ |
![]() | 19 cevincheung 2017-12-18 11:47:39 +08:00 ![]() 人工智能自动卸载了一块显卡当备用。 ![]() |
21 focusheart 2017-12-18 12:13:10 +08:00 @zhiqiang 谢谢~~ |
![]() | 22 turan12 2017-12-18 14:10:56 +08:00 |
![]() | 23 em84 2017-12-18 14:17:17 +08:00 这电脑用来刷贴吧肯定很爽系列 |
![]() | 24 BadMan 2017-12-18 14:45:48 +08:00 我们实验室的服务器有时候也会这样,带了 4 块 Titan X,后来让学院管理员弄了一下就没出现过了 |
![]() | 25 realpg PRO @zhiqiang 换个主板看看吧…… 这主板压根就不是挖矿类场合设计的(计算基本就是跟挖矿同场景) 十有八九供电问题 这就是个超频 /游戏主板 做你这种需求的 弄专业点的挖矿板比较好 至少主板得带 至少一个大 4pin 甚至 8pin PCI-E 辅助供电 然后最好主电源用小点的就行,再弄个专门 12V 电源供显卡,我之前说的 30 元的艾默生 12V 65A 神电源就可以,自己动手简单改造一下即可 |
26 gpw1987 2017-12-18 15:55:51 +08:00 高级呀,神经网络 |
![]() | 30 realpg PRO ![]() @zhiqiang #27 我基本不碰“高端”游戏主板,直接就能用的没推荐 我们这数据中心一堆计算类托管的业务,都不是这么玩的,都是 DIY,不放标准机柜 如果你 DIY 能力强就别装机箱了 类似挖矿那么的打个小架子 显卡固定架子上 然后用 PCI-E 延长线 找好 PCI-E 的电源针脚定义,直接从外部 12V 在排线对应针脚输入个 12V 电进去 建议买个我之前说的 30 元的艾默生神器电源,12V65A 的 改一下启动,给显卡辅助供电,再从主电源的大 4PIN 分出一个 12V 线 直接接到 pci-e 延长线的供电 算明白,一个 PCI-E 给 75W 供电,机械硬盘一个算 20W (考虑启动电流),CPU 按照 TDP 算,主板算 20W,主电源把这些加起来再加个 100 瓦余量就可以了,如果有额外的大散热风扇,直接算好风扇电流 然后三块显卡的 8pin 用 12V65A 那个神器带就够了 实际上,你的这个业务跟挖矿和计算区别不大,大量计算在显卡自己,cpu 调度明显比挖矿多一点,也不是助理,跟 cpu 的交换少得多,否则就不是用你这种单 CPU 的方案了 其实,最好还是用服务器挂多显卡,本身 SMP 系统支持的 PCI-E 通道数就多,然后用延长线弄出来挂在架子上,很多平台可以轻松 6 卡 PCI-E 8X 模式 这种超大功率的 PC 玩法,还是自己会设计会执行比较好 |
32 Thiece 2017-12-19 14:48:55 +08:00 @wecan @zhiqiang PCIE 插槽会向其设备提供 75W 的供电,一般这个供电是由 24pin 提供,某些主板会提供额外的 PCIE 供电接口比如微星的 XPOWER 系列。显卡在使用过程中的供电有一部分也是由 PCIE 提供,具体多少看设计者了。 参考文章 http://3c.3dmgame.com/show-14-3850-1.html |