
顺便贴一下从网上随便找了一个测试 Token 生成速度的代码跑了下, 测试结果如下 
1 zenfsharp 3 天前 我勒个槽 120B ,我只敢部署 20B 的。 大概半年前 OpenAI 丢出来的开源模型,我试了 20B 的大概才 GPT-4mini 的水平,远不如如今线上小模型。 |
2 niboy 3 天前 好羡慕,电脑都啥配置? |
3 liu731 PRO 我 4090+96GB RAM 都跑不起来,可以想象 OP 的配置 |
6 bitkuang 3 天前 via Android 这模型在海外评价挺高的 |
7 crocoBaby 3 天前 这个玩小龙虾足够了 |
8 JoeJoeJoe OP PRO |
9 Solix 3 天前 CloseAI 最近几年出的唯一的 Open 模型,当然火了,大家都用它做翻译 |
11 ovovovovo 3 天前 @crocoBaby #10 3080 10g, qwen3 7b/14b 我本地试了试,context 32k ,出现自己找不到 skills 以及误以为自己没有本地文件读取权限的症状。必须一字一句引导使用 skills 才行 |
12 cyp0633 3 天前 因为 gpt-oss 有原生 mxfp4 吧 |
13 Hansah 3 天前 你用 qwen 3.5 9B 或者 24B 可能都比他厉害 |
14 Hilong 3 天前 @crocoBaby #10 我测试过,m1 max 64g+ 1T 的 mac studio ,4b 以上的跑龙虾都不太行,因为龙虾的上下文信息窗口太大了。本地模型跑起来很吃力。 |
17 justfindu 3 天前 Antigravity 里面不就有么 |
19 OP PRO @justfindu 没用过 Antigravity |
20 timespy 3 天前 我有个 512G 的 mac ,有更好的模型推荐吗,想玩玩 |
22 ovovovovo 3 天前 @crocoBaby #15 7b 没有检测到上下文溢出,14b 如果不想达到显存极限就只能降低点上下文。像我一样只有 10g 的显存就别试了,不太能做什么 agentic 的任务。 |
27 JoeJoeJoe OP PRO |
28 Tink PRO 这个模型聪明吗 |
29 diudiuu 3 天前 那个 mac 电脑可以试下这个 MiniMax-M2.5 https://huggingface.co/tomngdev/MiniMax-M2.5-REAP-139B-A10B-GGUF/tree/main 128g 可以 UD-Q3_K_XL 这个类型的 512g 上大的 我已经更换这个 gpt 120b oss 换成这个 MiniMax-M2.5 UD-Q3_K_XL,推理会更好点 |
31 zhangqilin 3 天前 m3max 64g 可以跑这个吗 |
33 JoeJoeJoe OP PRO @zhangqilin 应该行, 但是可能电脑会卡, 我用活动监测看了下内存占用大概是 65G |
34 fbcskpebfr 3 天前 via iPhone 确实快,我在实验里生成同样的东西 gptoss120b 比 qwen2.5 72b 和 llama 3.1 70b 都快 |
36 JoeJoeJoe OP PRO @fbcskpebfr 但是感觉推理好像有点问题 |
37 diudiuu 3 天前 mac 上我建议使用 LM Studio,参数调整比较方便. 我现在都是 llama.cpp 直接启动. 模型响应快慢试出来的 llama.cpp > LM Studio > Ollama(扔到垃圾桶吧) |
39 iTea 3 天前 via iPhone 试试这个? Qwen3.5-122B-A10B-4bit 再加上这个: https://github.com/jundot/omlx |
40 arihca PRO 我也想要本地 openclaw ,求推荐模型,m1max 64g+1T 满 GPU |
43 sayyiku 3 天前 不好用,这个是之前 openai 发布的模型了,之前用 8 卡 A100 跑的,快是快,智商是真的低,最基础的翻译都有问题。 |
44 iTea 3 天前 via iPhone |
45 killadm 3 天前 via Android 本地部署还是 qwen 3.5 吧,chatgpt 的这个模型出来的时间有点长了,不过 qwen 3.5 官方模型好像调用工具有问题,跑龙虾可以试试 unsloth 的,据说有改善。我 12g 显存 qwen3.5 35b-a3b 4bit 量化 96k 上下文能跑 50token/s 左右,算了下按这个速度 1 亿 token 需要跑 20 多天,打消了本地跑龙虾的念头 |
46 akadanjuan101 3 天前 这个发布挺久的效果还不错 |
47 JoeJoeJoe OP PRO |
48 sampeng 3 天前 via iPhone 重要的不是速度。是效果…效果不好他就是闪电都没用 |
49 podel 3 天前 建议不如跑 QWEN3.5 35B/122B 的 35Bopenclaw 智能水平完爆 GPT-OSS-120B |