
1 TonyG 355 天前 Livid ,好奇你是什么配置跑 70B 的?量化参数是什么? |
2 vfx666 355 天前 via iPhone 同问 |
3 Livid MOD OP PRO |
4 Livid MOD OP PRO 这里有 128G 的 M4 Max 用户么,谁能试试 Q8_0 在 M4 Max 上能有多少 t/s |
5 privil 355 天前 groq 已经提供了 llama-3.3-70b-versatile |
6 Livid MOD OP PRO |
7 yzding 355 天前 via iPad 有 m4 macmini 丐版能用的模型吗 |
10 vipshf 355 天前 |
11 mumbler 354 天前 超过 10B 的模型在个人电脑上没有实用价值,现在的 7B 模型已经超过 gpt3.5 水平了,明年大概率也会出现 gpt4 水平的 7b |
12 s609926202 354 天前 这些模式下载到本地跑,能不能 “微调” |
13 xing7673 354 天前 @s609926202 70B 普通家用机器基本不可能微调,7B 都有点难 |
14 wantstark 354 天前 lora 、qlora 大幅度降低了微调需要的资源; |
15 hertzry 354 天前 via iPhone 上午在 Hugging Face 请求模型使用权限被拒 :( |
16 cctrv 353 天前 |
17 APEC 353 天前 64G M4 Max 已经在 LM Studio 里跑不动 Q4_K_M 了,后悔没入 128G 的版本,现在真是尴尬啊 |
18 APEC 352 天前 话说是否有可能将模型文件分片后,再使用 LM Studio 进行加载,然后成功运行? |
19 Donaldo 352 天前 @APEC #17 Q4_K_M 才 42G ,没问题的,参考这个文章把分配给 GPU 的内存拉大点。https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/ |
20 beginor 351 天前 M1 Max 64G 用户, 在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ,这样最多可以分配 56G 内存给显卡用。 用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ,不过要限制一下上下文大小,不然还是内存不够, 生成速度大概是 4 token / second 。 ``` main: server is listening on http://127.0.0.1:8080 - starting the main loop srv update_slots: all slots are idle slot launch_slot_: id 0 | task 0 | processing task slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26 slot update_slots: id 0 | task 0 | kv cache rm [0, end) slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000 slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26 slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0 slot print_timing: id 0 | task 0 | prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second) eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second) total time = 81148.33 ms / 355 tokens srv update_slots: all slots are idle request: POST /v1/chat/completions 127.0.0.1 200 ``` |
21 beginor 351 天前 如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点,5.x tokens / 秒。 |