用 Ollama 部署了一个我之前没听过的大模型 gpt-oss:120b, 发现速度还挺快, 不知道能不能用在 openclaw 上.然后跟 Qwen 做了一下生成速度对比, 可能不太客观. - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
JoeJoeJoe
71.46D
V2EX    分享发现

用 Ollama 部署了一个我之前没听过的大模型 gpt-oss:120b, 发现速度还挺快, 不知道能不能用在 openclaw 上.然后跟 Qwen 做了一下生成速度对比, 可能不太客观.

  •  
  •   JoeJoeJoe
    PRO
    3 天前 3332 次点击

    顺便贴一下从网上随便找了一个测试 Token 生成速度的代码跑了下, 测试结果如下

    50 条回复    2026-03-12 14:28:14 +08:00
    zenfsharp
        1
    zenfsharp  
       3 天前
    我勒个槽 120B ,我只敢部署 20B 的。
    大概半年前 OpenAI 丢出来的开源模型,我试了 20B 的大概才 GPT-4mini 的水平,远不如如今线上小模型。
    niboy
        2
    niboy  
       3 天前
    好羡慕,电脑都啥配置?
    liu731
        3
    liu731  
    PRO
       3 天前
    我 4090+96GB RAM 都跑不起来,可以想象 OP 的配置
    JoeJoeJoe
        4
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @znfsharp 主要是没听说过这个都, 看了下下载量还很高

    @niboy
    @liu731 Apple M4 Max 128G
    magiccode
        5
    magiccode  
    PRO
       3 天前
    @JoeJoeJoe 这设备好顶,公司给配的么?
    bitkuang
        6
    bitkuang  
       3 天前 via Android
    这模型在海外评价挺高的
    crocoBaby
        7
    crocoBaby  
       3 天前
    这个玩小龙虾足够了
    JoeJoeJoe
        8
    JoeJoeJoe  
    OP
    PRO
       3 天前   1
    @magiccode 必然, 家里还备着一台 21 年的 MBP 和 一台顶配 Mini, 公司这台装着 Rustdesk, 从此过上了不背双肩包的日子.

    @bitkuang 真第一次听说, 我体验一下看看

    @crocoBaby 今天准备尝试一下
    Solix
        9
    Solix  
       3 天前
    CloseAI 最近几年出的唯一的 Open 模型,当然火了,大家都用它做翻译
    crocoBaby
        10
    crocoBaby  
       3 天前
    @JoeJoeJoe 期待测试 7B 和 13B 这两个主流本地部署大模型在 openClaw 上面的表现
    ovovovovo
        11
    ovovovovo  
       3 天前   1
    @crocoBaby #10 3080 10g, qwen3 7b/14b 我本地试了试,context 32k ,出现自己找不到 skills 以及误以为自己没有本地文件读取权限的症状。必须一字一句引导使用 skills 才行
    cyp0633
        12
    cyp0633  
       3 天前
    因为 gpt-oss 有原生 mxfp4 吧
    Hansah
        13
    Hansah  
       3 天前
    你用 qwen 3.5 9B 或者 24B 可能都比他厉害
    Hilong
        14
    Hilong  
       3 天前   1
    @crocoBaby #10 我测试过,m1 max 64g+ 1T 的 mac studio ,4b 以上的跑龙虾都不太行,因为龙虾的上下文信息窗口太大了。本地模型跑起来很吃力。
    crocoBaby
        15
    crocoBaby  
       3 天前 via iPhone
    @ovovovovo 感谢测试,也就是说不能用了
    crocoBaby
        16
    crocoBaby  
       3 天前 via iPhone
    @Hilong 感谢测试,果然还得是烧 token
    justfindu
        17
    justfindu  
       3 天前
    Antigravity 里面不就有么
    JoeJoeJoe
        18
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @Solix 哈哈哈哈 我也尝试一波
    @cyp0633 处理速度确实快很多
    @Hansah 容我试验一下!
    JoeJoeJoe
        19
     
    OP
    PRO
       3 天前
    @justfindu 没用过 Antigravity
    timespy
        20
    timespy  
       3 天前
    我有个 512G 的 mac ,有更好的模型推荐吗,想玩玩
    JoeJoeJoe
        21
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @timespy 我也是小白, 坐等大佬推荐
    ovovovovo
        22
    ovovovovo  
       3 天前
    @crocoBaby #15 7b 没有检测到上下文溢出,14b 如果不想达到显存极限就只能降低点上下文。像我一样只有 10g 的显存就别试了,不太能做什么 agentic 的任务。
    timespy
        23
    timespy  
       3 天前
    @JoeJoeJoe 120G 无法发挥这个 512 的实力,哈哈哈
    ovovovovo
        24
    ovovovovo  
       3 天前
    @crocoBaby #16 试试 openrouter 的 stepfun free 模型,目前都很好用,使劲蹬了好几天了
    crocoBaby
        25
    crocoBaby  
       3 天前
    @ovovovovo 8G 能玩嘛?
    ovovovovo
        26
    ovovovovo  
       3 天前
    @crocoBaby #25 可以的,openclaw 部署不吃资源
    JoeJoeJoe
        27
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @timespy #23 哈哈哈哈 512G 内存用来干啥??? 难以想象.

    我这个 128G 是因为我要干的活太杂了, 而且都比较吃内存, 有些时候需要一起打开联调, 所以才搞了这么一台机器.
    Tink
        28
    Tink  
    PRO
       3 天前
    这个模型聪明吗
    diudiuu
        29
    diudiuu  
       3 天前
    那个 mac 电脑可以试下这个 MiniMax-M2.5

    https://huggingface.co/tomngdev/MiniMax-M2.5-REAP-139B-A10B-GGUF/tree/main

    128g 可以 UD-Q3_K_XL 这个类型的
    512g 上大的

    我已经更换这个 gpt 120b oss 换成这个 MiniMax-M2.5 UD-Q3_K_XL,推理会更好点
    diudiuu
        30
    diudiuu  
       3 天前
    @Tink 推理差点意思
    zhangqilin
        31
    zhangqilin  
       3 天前
    m3max 64g 可以跑这个吗
    JoeJoeJoe
        32
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @Tink 感觉不太行
    JoeJoeJoe
        33
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @zhangqilin 应该行, 但是可能电脑会卡, 我用活动监测看了下内存占用大概是 65G
    fbcskpebfr
        34
    fbcskpebfr  
       3 天前 via iPhone
    确实快,我在实验里生成同样的东西 gptoss120b 比 qwen2.5 72b 和 llama 3.1 70b 都快
    JoeJoeJoe
        35
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @diudiuu #29 我试验一下
    JoeJoeJoe
        36
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @fbcskpebfr 但是感觉推理好像有点问题
    diudiuu
        37
    diudiuu  
       3 天前
    mac 上我建议使用 LM Studio,参数调整比较方便.

    我现在都是 llama.cpp 直接启动.

    模型响应快慢试出来的
    llama.cpp > LM Studio > Ollama(扔到垃圾桶吧)
    JoeJoeJoe
        38
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @diudiuu #37 哈哈哈 感谢分享, 这就去试试
    iTea
        39
    iTea  
       3 天前 via iPhone
    试试这个? Qwen3.5-122B-A10B-4bit
    再加上这个: https://github.com/jundot/omlx
    arihca
        40
    arihca  
    PRO
       3 天前
    我也想要本地 openclaw ,求推荐模型,m1max 64g+1T 满 GPU
    JoeJoeJoe
        41
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @iTea 容我再研究一下, 好像自己部署的大模型效果不太好.

    @arihca 哈哈哈, 坐等大佬推荐, 反正我帖子里的这几个效果不太理想.
    crime1024
        42
    crime1024  
       3 天前
    @iTea 这个只 mac ? win 下没有么--
    sayyiku
        43
    sayyiku  
       3 天前
    不好用,这个是之前 openai 发布的模型了,之前用 8 卡 A100 跑的,快是快,智商是真的低,最基础的翻译都有问题。
    iTea
        44
    iTea  
       3 天前 via iPhone
    @crime1024 是的,只有 mac M 系列
    https://omlx.ai/benchmarks
    killadm
        45
    killadm  
       3 天前 via Android
    本地部署还是 qwen 3.5 吧,chatgpt 的这个模型出来的时间有点长了,不过 qwen 3.5 官方模型好像调用工具有问题,跑龙虾可以试试 unsloth 的,据说有改善。我 12g 显存 qwen3.5 35b-a3b 4bit 量化 96k 上下文能跑 50token/s 左右,算了下按这个速度 1 亿 token 需要跑 20 多天,打消了本地跑龙虾的念头
    akadanjuan101
        46
    akadanjuan101  
       3 天前
    这个发布挺久的效果还不错
    JoeJoeJoe
        47
    JoeJoeJoe  
    OP
    PRO
       3 天前
    @sayyiku 我切成 3.5 了

    @killadm 为啥要跑 1 亿 Token

    @akadanjuan101 速度是真的快!
    sampeng
        48
    sampeng  
       3 天前 via iPhone
    重要的不是速度。是效果…效果不好他就是闪电都没用
    podel
        49
    podel  
       3 天前
    建议不如跑 QWEN3.5 35B/122B 的 35Bopenclaw 智能水平完爆 GPT-OSS-120B
    JoeJoeJoe
        50
    JoeJoeJoe  
    OP
    PRO
       2 天前
    @sampeng 让我想起了算数的大爷

    @podel 确实是这样的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1508 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 16:37 PVG 00:37 LAX 09:37 JFK 12:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86