Air M3 24G 能不能跑不量化的 7B 本地大模型推理? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CatCode
V2EX    Local LLM

Air M3 24G 能不能跑不量化的 7B 本地大模型推理?

  •  1
     
  •   CatCode 2024-03-28 12:12:29 +08:00 5057 次点击
    这是一个创建于 615 天前的主题,其中的信息可能已经有所发展或是发生改变。

    无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。

    看了一下 ollama 上的 7B fp16 (或者 bf16 )模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。 (我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)

    cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。

    所以,有 V 友真的用 Air 跑过本地大模型吗?

    14 条回复    2024-03-29 10:08:32 +08:00
    noyidoit
        1
    noyidoit  
       2024-03-28 15:08:54 +08:00
    用 16g 的 m1 跑过 4bit 4B 的 llama2 ,大概占用 6g 内存,但也只是能跑而已,输出巨慢
    RHG
        2
    RHG  
       2024-03-28 15:09:28 +08:00
    18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右,感觉用着没问题,只是这些本地模型还是不够智能
    maizero
        3
    maizero  
       2024-03-28 15:12:39 +08:00
    M2PRO 32G 不知道能跑 13b 么
    SakuraYuki
        4
    SakuraYuki  
       2024-03-28 15:14:02 +08:00
    能跑是能跑,但你应该也不会太想用
    WuSiYu
        5
    WuSiYu  
       2024-03-28 15:29:38 +08:00
    并不是 4060ti 的三分之一,而是二十五分之一(纯算力),n 卡跑模型都会上 tensor core ,4060ti 的 tensor core 有 177 TFLOPS ,当时受限于内存带宽实际能跑到一半就不错了
    CatCode
        6
    CatCode  
    OP
       2024-03-28 16:25:13 +08:00
    @WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型,发现 fp16 非量化比 int8 量化的快至少一倍,因为 20 系并没有原生支持 int8 ,而原生支持了 fp16 。
    wensonsmith
        7
    wensonsmith  
       2024-03-28 17:37:00 +08:00
    M1 Pro 16G , 跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大
    ShadowPower
        8
    ShadowPower  
       2024-03-28 18:58:43 +08:00
    @CatCode 这种情况是运算性能有瓶颈,而显存带宽无瓶颈。
    量化之后实际上并不会真的用量化的精度来计算,计算时都会还原到 fp16 或者 fp32 。(不同的算子好像要求不同)。

    而还原到 fp16/fp32 的过程需要消耗额外的算力。
    jasdkasdjkas
        9
    jasdkasdjkas  
       2024-03-28 19:07:37 +08:00 via iPhone
    不要幻想 Apple 机子跑模型了 老老实实 N 卡
    WuSiYu
        10
    WuSiYu  
       2024-03-28 19:18:21 +08:00
    @CatCode 我这里说的都是 fp16
    oIMOo
        11
    oIMOo  
       2024-03-28 22:46:20 +08:00
    你搜下这个应用 jan.ai
    里面有一些预制的模型,你可以看哪些可以跑做个参考
    oIMOo
        12
    oIMOo  
       2024-03-28 22:46:33 +08:00
    @oIMOo #11 预置*
    mumbler
        13
    mumbler  
       2024-03-28 23:12:27 +08:00
    fp16 和 q5_k_m 差距几乎忽略不计,7b 只需要 5G 多内存
    ozOGen
        14
    ozOGen  
       2024-03-29 10:08:32 +08:00
    NAME ID SIZE MODIFIED
    gemma:latest 430ed3535049 5.2 GB 2 weeks ago
    llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
    qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

    试过这几个都在 M2 Air 24G 上跑的,无压力
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1225 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 23:49 PVG 07:49 LAX 15:49 JFK 18:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86