V2EX swmjjy
 swmjjy 最近的时间轴更新
swmjjy

swmjjy

V2EX 第 123752 号会员,加入于 2015-06-23 17:27:35 +08:00
swmjjy 最近回复了
我这也是, 63 小时活动时间, 122T 读取 36T 写入

@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
@wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
你没去了解=没有
210 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已
210 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

举例, 8 张 3060, Qwen2.5-72B 4bit 量化
promp prefill: 470token/s
decode bs=1: 37token/s
decode 高并发: 430token/s

(这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)




2023-06-07 12:17:04 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@wy315700 一般是没有...但这个一般大概不包括真的把 mac 的内存当显存并据此认为价格合理的那些
2023-06-07 11:49:48 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@dlwlrm 除非你说的是推理而不是训练, 正常训练数据集预处理逻辑吃内存随随便便上百 G, 老黄给 gh200 配单节点 96G HBM3+480GB lpddr5x 这个比例足够体现主流需求的显存内存消耗占比了
2023-06-07 11:40:23 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@dlwlrm 我说的就是炼丹啊, 内存吃的远比显存多
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2905 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 11ms UTC 14:19 PVG 22:19 LAX 07:19 JFK 10:19
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86