求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
harrietliu
V2EX    问与答

求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

  •  
  •   harrietliu 111 天前 1753 次点击
    这是一个创建于 111 天前的主题,其中的信息可能已经有所发展或是发生改变。
    求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

    尝试了 AutoDL 运行不了,自己单位的服务器也是基于 docker 底层管理的,子容器中没法越权,请问还有其他方式吗
    22 条回复    2025-06-23 19:29:26 +08:00
    coefu
        1
    coefu  
       111 天前
    你提问题都不会提,都不知道你想说什么。
    nekoneko
        2
    nekoneko  
       111 天前
    你说的啥意思, docker 如何使用 GPU 吗?
    按照 GPU 型号去供应商那里看说明文档呗.
    harrietliu
        3
    harrietliu  
    OP
       111 天前
    @coefuqin 一般的深度学习服务器平台如 autoDL 等,会使用类似于 Kubernetes 的组件来隔离每一个用户(容器),这个时候由于这些组件的底层是基于 docker 的,因此在子用户的容器内没有办法运行 docker ,System has not been booted with systemd as init system (PID 1). Can't operate.,无法连接主机中的 docker 守护进程,比如:Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
    这样的情况下如果配置 docker in docker 也是需要超级账户的,我现在应该表达清楚了?
    Clannad0708
        4
    Clannad0708  
       111 天前
    @harrietliu #3 你为什么要 在 docker 里面用 docker ,有什么必要的场景吗。有个参数 run as root 0 没用过你的平台不知道能不能直接修改容器配置。
    harrietliu
        5
    harrietliu  
    OP
       111 天前
    @Clannad0708 因为一些深度学习服务器或者某些单位管理 gpu 资源的平台是这样配置的(基于某些组件底层 based on docker ),但是好像听说腾讯和阿里云的 gpu 服务器可以单独运行 docker 的 server 。
    harrietliu
        6
    harrietliu  
    OP
       111 天前
    @Clannad0708 这些平台的容器是用来划分不同的用户的,修改容器配置应该也是需要超级用户
    coefu
        7
    coefu  
       111 天前
    @harrietliu 你要这么操作,就直接买阿里云,腾讯云的 gpu server 啊。不用云原生的 autoDL 不就行了。dind 是一件复杂的事情,就算你有超级权限,估计也很难搞定 dind 的网络。
    coefu
        8
    coefu  
       111 天前
    @harrietliu #5 以你对这些 cloud native 的技术认知来说,多 gpu server 组集群,也是一件困难的事。
    harrietliu
        9
    harrietliu  
    OP
       111 天前
    @coefuqin 肯定想用单位的免费服务器,我要是富豪也不会问了,直接买电脑不就好了。而且单位的 gpu 就是你说的工作集群啊。提问是想说有没有其他人遇到和我类似的问题,有没有什么好的解决方案
    coefu
        10
    coefu  
       111 天前
    @harrietliu #9 你不要搞 docker in docker 不就行了?不会?不会就只能学了。
    liu731
        11
    liu731  
    PRO
       111 天前
    https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

    What can i say...(你这好比用数据加减法提问如何解弹道方程式)
    python35
        12
    python35  
       111 天前
    你可以 shell 进公司的容器里面吗,可以的话直接再容器里跑就行;
    我们这边的 gpu 训练平台,本地提交一个任务指定节点、指定镜像、指定一个入口脚本,平台自动按照你指定的镜像在指定的节点上初始化容器,帮你把入口脚本在容器里面跑起来;
    harrietliu
        13
    harrietliu  
    OP
       111 天前
    @python35 哦哦,好的,这个我试一下,看看能不能添加这个镜像
    Clannad0708
        14
    Clannad0708  
       111 天前
    @harrietliu #6 懂了,你在平台上操作实际是一个 docker 而不是 ubuntu 虚拟机这样吗?你在一个 docker 里面用 gpu 他们的 gpu 也是容器化的 分片 gpu ,所以场景就是 docker in docker 啊。这个没啥办法基本上就是得挂载宿主机的 socket.文件。要么就看看网上有什么解决办法吧。
    harrietliu
        15
    harrietliu  
    OP
       111 天前
    @Clannad0708 嗯嗯,shell 的话我还没找到入口,目前我是在自己的轻薄本上跑只用 cpu 的 demo ,找管理员直接添加这个镜像是比较方便的
    zzzk1
        16
    zzzk1  
       111 天前
    智星云可以
    harrietliu
        17
    harrietliu  
    OP
       111 天前
    @zzzk1 好的,我试一下
    Clannad0708
        18
    Clannad0708  
       111 天前
    @harrietliu #15 搞 AI 不建议弄的这么套中套,前段时间调研用 kubeflow ,里面也是一个容器的 notebook 里面自己跑训练的 AI 代码。wc 那简直了,python 必要的一些工具下载起来都麻烦,要么和 python 版本不匹配要么依赖不匹配,还在容器里,挺麻烦的说实话。在容器里 apit install 有的还没 root 权限下不下来,反正整了几天搞不了了
    harrietliu
        19
    harrietliu  
    OP
       111 天前
    @Clannad0708 它这个容器内都是 root 的,除了用不了 docker 其他的我觉得还可以
    Clannad0708
        20
    Clannad0708  
       111 天前
    @harrietliu #19 容器内看自己是 root 但是你只是看起来有权限,实际运行起来很多东西没内核权限的
    YsHaNg
        21
    YsHaNg  
       111 天前
    rootless 的 container 可以用 podman/Kaniko
    harrietliu
        22
    harrietliu  
    OP
       111 天前
    @YsHaNg 好的!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3510 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:07 PVG 08:07 LAX 17:07 JFK 20:07
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86