V2EX nakroy
 nakroy 最近的时间轴更新
nakroy

nakroy

V2EX 第 680857 号会员,加入于 2024-03-18 22:46:42 +08:00
nakroy 最近回复了
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 好的兄弟,我去看看
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 我现在有 4 台 910B 的机器做测试,不纠结分布式存储那直接用本地为每一个模型分片存储确实成本最低。因为训练场景不多,主要还是推理场景。但是华为的人推的方案就有提到搭配他们的存储产品,所以不知道和传统的分布式存储有啥区别
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mhycy 好的,了解了。那看来对于集群场景,使用专门的存储节点确实不是必须的
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 所以实际模型权重一直保留在内存里,需要的时候直接加载到 GPU 上?这里的内存是指存储节点的内存,而不是计算节点的内存,例如 GPU 节点能直接读取存储节点内存上的模型参数加载到 GPU 上,而不是先加载到 GPU 节点的内存上,然后再从 GPU 节点的内存上再加载到 GPU 节点的 GPU 上?
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce IB 和 RDMA 技术有过了解,英伟达就有专门的配套用 IB 交换机的网络方案,但是一般的客户根本玩不起,而且我这里根本没说每次加载都从磁盘加载,而是考虑到 GPU 节点首次需要使用存储的模型权重或者数据集时可能的读写性能瓶颈,如果你一次全部把所有模型所有数据全加载到内存上一直用,也不用导出到磁盘作存储,那你无敌了
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@sampeng 就是传统的分布式存储无法满足大模型场景的读写性能,应该有专门针对大模型场景 I/O 优化的硬件软件方案
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 因为很多情况下,机器可能需要加载多个模型而不只是一个模型,或者如果单个模型非常大,假设你要使用多个机器去加载,占用的存储空间还是很大的,每个节点都为每个模型备份一次,就显得比较繁琐。当然我这里还没讨论到千卡万卡规模的集群,我认为这种级别的集群也是使用分布式存储的,只是因为是商业方案不会公开这些架构细节
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 也就是直接把模型加载到存储节点的内存,然后让其他节点通过光纤直接读存储节点内存的数据?
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@fcten 考虑到同步的问题,例如同时用多个 GPU 节点做微调和训练,从集中的存储系统读取和存储而非每个节点都存储 checkpoint 副本,如果数据集很大,也不会考虑每个节点都存这个数据集
352 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@zhlxsh 存储系统读写性能大概要多高才行呢?
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2839 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 26ms UTC 13:41 PVG 21:41 LAX 06:41 JFK 09:41
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86