自己部署 GLM4.7 或者 MiniMax2.1,能接入 Claude code 或者 opencode 么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
autumncry
V2EX    程序员

自己部署 GLM4.7 或者 MiniMax2.1,能接入 Claude code 或者 oencode 么?

  •  
  •   autumncry 13 小时 33 分钟前 2061 次点击

    公司有设备可以本地部署,想求问:

    1. 本地部署后的 API 接口,是否能接入 Claude code 或者 opencode ?
    2. 自己部署的开源模型,和 coding plan 里的 api ,功能和效果是一样的么?
    37 条回复    2026-01-21 00:35:39 +08:00
    hemingway
        1
    hemingway  
       13 小时 18 分钟前
    能啊
    TArysiyehua
        3
    TArysiyehua  
       13 小时 0 分钟前
    可以是可以,但是 GLM4.7 的硬件成本非常高,一般的公司搞不下来的,你确定能说服公司搞?
    autumncry
        4
    autumncry  
    OP
       12 小时 56 分钟前
    @defunct9 @hemingway 收到~学习了!感谢

    @TArysiyehua 公司有算力部署,已经在推进了
    gorvey
        5
    gorvey  
       12 小时 56 分钟前
    不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题
    autumncry
        6
    autumncry  
    OP
       12 小时 54 分钟前
    @gorvey 我个人理解,coding plan 里的模型和开源的模型权重并不是一个,coding plan 的模型是为了 coding 做了单独优化的。。
    Solix
        7
    Solix  
       12 小时 52 分钟前
    可以,不过 cc 一个窗口一秒几十次请求,你确定你们的 gpu 资源够么
    urlk
        8
    urlk  
       12 小时 45 分钟前
    后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的 至少需要兼容一个
    Mumu2580
        9
    Mumu2580  
       12 小时 43 分钟前 via iPhone
    先说结论 不好用。能用。一直听人吹,他们真用过嘛。

    等一个工程化,当前使用应该是原始人。等轮子吧。现在修 al 写的 bug
    gorvey
        10
    gorvey  
       12 小时 38 分钟前
    @autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的
    autumncry
        11
    autumncry  
    OP
       12 小时 37 分钟前
    @Solix 有充足的资源部署。这个一秒几十次的请求,和模型可容纳的最大并发请求数量有关么?
    @urlk 后端适配是指在模型部署的时候,需要支持 openai 接口是么?也就是如果能用 openai 的方式 curl 通,就可以接入 cc 或者 opencode 是么?
    @Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的,我们可能不会涉及到特别复杂的项目,日常开发这两个模型完全可以 cover 了
    Solix
        12
    Solix  
       12 小时 28 分钟前
    @autumncry #11 有关系呀,一秒几十次请求模型,每个请求都带着 token ,你算算是多大的量,另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发,这都是黑盒,你只能自己算,至少一个 H200 是不够的
    autumncry
        13
    autumncry  
    OP
       12 小时 28 分钟前
    @gorvey 其实如果只是接口适配做了变化都好说,因为接口可以中转,但是如果权重不一样,那代码能力指定是大打折扣的
    autumncry
        14
    autumncry  
    OP
       12 小时 26 分钟前
    @Solix 哎看来是只能自己淌了,这些确实都不清楚。其实资源倒是好说,我们预算有至少 2 台 H800 8 卡服务器,还可以协调更多,主要还是担心开源模型并不是 coding plan 里的模型
    zhouu
        15
    zhouu  
       12 小时 19 分钟前
    可以接入啊,vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的
    pandaPapa
        16
    pandaPapa  
       12 小时 14 分钟前
    这得几百万?
    utwo
        17
    utwo  
       11 小时 0 分钟前
    https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下,和最好的商用还是有差距,但是已经能解决很多问题了。
    defunct9
        18
    defunct9  
       10 小时 34 分钟前
    厉害啊,真想去楼主公司试试部署模型自己跑,那真太爽了
    defunct9
        19
    defunct9  
       10 小时 34 分钟前
    liu731
        20
    liu731  
    PRO
       10 小时 28 分钟前
    OP 太有实力了,之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。
    Suger828
        21
    Suger828  
       10 小时 27 分钟前
    @liu731 一张 a100 80G 用 lora 微调差不多就够了吧,一个月租金不到 1w
    Suger828
        22
    Suger828  
       10 小时 26 分钟前
    @TArysiyehua 才 300 多 b 好像
    Suger828
        23
    Suger828  
       10 小时 21 分钟前
    @autumncry Linuxdo 有人部署了,其实效果比 codeplan 还要好一些
    liu731
        24
    liu731  
    PRO
       10 小时 18 分钟前
    @Suger828 #21 顶不住,我们在腾讯云里面租的,半个月就花了一万多
    Suger828
        25
    Suger828  
       10 小时 15 分钟前
    @liu731 租贵了,联系代理至少打四折
    Suger828
        26
    Suger828  
       10 小时 14 分钟前
    @autumncry 实际上本地部署的比 code plan 的要强很多,code plan 阉割了
    ihainan
        27
    ihainan  
       10 小时 2 分钟前
    Ollama 已经提供 Anthropic Compatible API 了: https://x.com/ollama/status/2012434308091224534

    但模型只是 Claude Code 调用的一部分,工具是另一个大头,比如 Web Search 能力是服务提供商提供的,内网自己做 Web Search 的效果不管好坏,肯定是跟服务提供商的有区别。

    另外就是模型的多模态能力,GLM 4.7 我不清楚是否有变动,4.6 本身没有视觉理解能力,得通过 MCP Tool 调用智谱的服务来实现,所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。
    edisonwong
        28
    edisonwong  
       9 小时 46 分钟前
    @Mumu2580 #9 你说的是对的
    自部署的模型对接 cc ,gemini cli 之流,一堆坑(我在公司调研+自部署折腾了都快半年了),不好用,而且都还没到模型小,资源那地步呢。
    CaA23187
        29
    CaA23187  
       8 小时 46 分钟前
    MiniMax2.1 一台 8w 的 mac 一个人用刚好,用的 MiniMax2 8bit 版本,60-80 token/s
    redbeanzzZ
        30
    redbeanzzZ  
       8 小时 7 分钟前
    github 上 claude code router 试下呢?还有 zcf
    Rrrrrr
        31
    Rrrrrr  
       7 小时 56 分钟前
    2 楼正解
    deeplee
        32
    deeplee  
       5 小时 25 分钟前 via Android
    我们公司是内网自己部署的 glm4.7 ,配合 claude code + superpowers ,简单的项目效果还可以
    yycyanyicheng
        33
    yycyanyicheng  
       4 小时 44 分钟前
    code plan 9.9 5 小时 40 条 prompt.
    手上有 cursor + claude sonnet 4.5 + codex
    整体玩下来感觉还可以,就是做一些指令的时候没有那么好,同样的谷歌插件代码,miniax2.1 搞了几次搞不定,其实换了 codex 它也是有错误。

    目前还没有强烈感觉到它很差劲的地方。平替是可以的
    bwnjnOEI
        34
    bwnjnOEI  
       4 小时 30 分钟前 via iPhone
    好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
    bwnjnOEI
        35
    bwnjnOEI  
       4 小时 25 分钟前 via iPhone
    @bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
    bwnjnOEI
        36
    bwnjnOEI  
       4 小时 2 分钟前 via iPhone
    @bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受
    starlion
        37
    starlion  
       3 小时 23 分钟前
    可以啊,自己搞个大模型网关,通过这个网关来调用网关后面的大模型能力,就像 nginx 差不多
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     958 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 19:58 PVG 03:58 LAX 11:58 JFK 14:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86