

1 abellis 1 小时 47 分钟前 暂时 qwen3.5-35B-A3B-4BIT |
2 Puteulanus 1 小时 26 分钟前 https://x.com/Brooooook_lyn/status/2038296844561002922 可以试试动态量化的 35B ,就这人这两天才弄出来的,35B 是混合专家模型,比 27B 的稠密模型快不少,但是对量化的敏感性也更高,MLX 之前量化得太糙了,看着比 GGUF 快,其实模型能力断崖式下跌的 前文 https://x.com/LotusDecoder/status/2031526735213453633 |
4 peakchao 1 小时 18 分钟前 既然用了 omxl ,可以直接下载 qwen3.5-35B-A3B-4BIT mlx 优化模型,我用着速度挺快。 |
5 pc10300 1 小时 17 分钟前 刚刷到这个,可以看看 https://ollama.com/blog/mlx |
7 Hermitist OP @pc10300 其实前天测试过 ollama,但是太占电脑资源了, 我看了下你给的这个链接, 发现是昨天的, 看来要找时间测试下, 不过 ollama 只是 llm,不支持 vlm,只能通过 openclaw+skills 曲线实现了. |
8 Samwulol 1 小时 3 分钟前 via Android 我看是 2.6k star 啊 |
9 workbest 23 分钟前 lz 什么机器?我的 m1 用 qwen 3.5 9b 也不太行 |
10 workbest 19 分钟前 |
11 diudiuu 15 分钟前 m4 跑过 16b 已经略微有点慢了 mac 上可以使用 LM Studio 搭建更简单, 个人感觉跟 llama.cpp 差距不是很大,反正别用 ollama 买 dgx spark 推荐用 llama.cpp 我试过本地 minmax2.5 200b gpt-oss-120b 的,也不是很聪明,没有想象那么好 |
12 Hermitist OP @pc10300 https://x.com/berryxia/status/2038837864340000802 看到 x 上这个演示, 不知道有没有加速, 如果是真的话, 那真的是太快了. |