Llama 3.3 70B - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
178.63D
593.33D
V2EX    Local LLM

Llama 3.3 70B

  •  
  •   Livid
    PRO
    355 天前 5405 次点击
    这是一个创建于 355 天前的主题,其中的信息可能已经有所发展或是发生改变。
    https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

    在 LM Studio 里也可以下载了。
    21 条回复    2024-12-11 14:19:50 +08:00
    TonyG
        1
    TonyG  
       355 天前
    Livid ,好奇你是什么配置跑 70B 的?量化参数是什么?
    vfx666
        2
    vfx666  
       355 天前 via iPhone
    同问
    Livid
        3
    Livid  
    MOD
    OP
    PRO
       355 天前
    @TonyG
    @vfx666

    2021 年的 M1 Max MBP 64GB 内存。

    LM Studio 会自动检测能跑的版本 Q3_K_L:



    实际跑起来之后大概能有 3.8 t/s:

    Livid
        4
    Livid  
    MOD
    OP
    PRO
       355 天前
    这里有 128G 的 M4 Max 用户么,谁能试试 Q8_0 在 M4 Max 上能有多少 t/s
    privil
        5
    privil  
       355 天前
    groq 已经提供了 llama-3.3-70b-versatile
    Livid
        6
    Livid  
    MOD
    OP
    PRO
       355 天前
    yzding
        7
    yzding  
       355 天前 via iPad
    有 m4 macmini 丐版能用的模型吗
    awah
        8
    awah  
       355 天前   1
    @Livid #4 M3 Max 128G 跑 Q8_0 大概是 3 token/s, M4 应该不会多很多. Mac 跑 70B 还是太勉强了
    Donaldo
        9
    Donaldo  
       355 天前   1
    @yzding #7 7b 的
    vipshf
        10
    vipshf  
       355 天前
    他还是被 9.8 和 9.11 的比较干趴下了,哈哈
    mumbler
        11
    mumbler  
       354 天前
    超过 10B 的模型在个人电脑上没有实用价值,现在的 7B 模型已经超过 gpt3.5 水平了,明年大概率也会出现 gpt4 水平的 7b
    s609926202
        12
    s609926202  
       354 天前
    这些模式下载到本地跑,能不能 “微调”
    xing7673
        13
    xing7673  
       354 天前
    @s609926202 70B 普通家用机器基本不可能微调,7B 都有点难
    wantstark
        14
    wantstark  
       354 天前
    lora 、qlora 大幅度降低了微调需要的资源;
    hertzry
        15
    hertzry  
       354 天前 via iPhone
    上午在 Hugging Face 请求模型使用权限被拒 :(
    cctrv
        16
    cctrv  
       353 天前   1
    https://imgur.com/a/hLHS2Ii

    m2u 128g
    5.72 tok/sec 22 tokens 2.37s to first token

    m4x 按道理相似的性能,或者更快一。
    APEC
        17
    APEC  
       353 天前
    64G M4 Max 已经在 LM Studio 里跑不动 Q4_K_M 了,后悔没入 128G 的版本,现在真是尴尬啊
    APEC
        18
    APEC  
       352 天前
    话说是否有可能将模型文件分片后,再使用 LM Studio 进行加载,然后成功运行?
    Donaldo
        19
    Donaldo  
       352 天前   1
    @APEC #17 Q4_K_M 才 42G ,没问题的,参考这个文章把分配给 GPU 的内存拉大点。https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/
    beginor
        20
    beginor  
       351 天前   2
    M1 Max 64G 用户, 在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ,这样最多可以分配 56G 内存给显卡用。

    用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ,不过要限制一下上下文大小,不然还是内存不够, 生成速度大概是 4 token / second 。

    ```
    main: server is listening on http://127.0.0.1:8080 - starting the main loop
    srv update_slots: all slots are idle
    slot launch_slot_: id 0 | task 0 | processing task
    slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26
    slot update_slots: id 0 | task 0 | kv cache rm [0, end)
    slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000
    slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26
    slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0
    slot print_timing: id 0 | task 0 |
    prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second)
    eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second)
    total time = 81148.33 ms / 355 tokens
    srv update_slots: all slots are idle
    request: POST /v1/chat/completions 127.0.0.1 200
    ```
    beginor
        21
    beginor  
       351 天前
    如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点,5.x tokens / 秒。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5220 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 08:07 PVG 16:07 LAX 00:07 JFK 03:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86