自己部署 GLM4.7 或者 MiniMax2.1，能接入 Claude code 或者 opencode 么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

公司有设备可以本地部署，想求问：

本地部署后的 API 接口，是否能接入 Claude code 或者 opencode ？
自己部署的开源模型，和 coding plan 里的 api ，功能和效果是一样的么?

GLM4.7

MiniMax2.1

Claude

37 条回复 2026-01-21 00:35:39 +08:00

hemingway

13 小时 18 分钟前

能啊

defunct9

13 小时 2 分钟前

https://rendoumi.com/posts/20260120-nvidia_claudecode/

TArysiyehua

13 小时 0 分钟前

可以是可以，但是 GLM4.7 的硬件成本非常高，一般的公司搞不下来的，你确定能说服公司搞？

autumncry

12 小时 56 分钟前

@defunct9 @hemingway 收到~学习了！感谢

@TArysiyehua 公司有算力部署，已经在推进了

gorvey

12 小时 56 分钟前

不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题

autumncry

12 小时 54 分钟前

@gorvey 我个人理解，coding plan 里的模型和开源的模型权重并不是一个，coding plan 的模型是为了 coding 做了单独优化的。。

Solix

12 小时 52 分钟前

可以，不过 cc 一个窗口一秒几十次请求，你确定你们的 gpu 资源够么

urlk

12 小时 45 分钟前

后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的至少需要兼容一个

Mumu2580

12 小时 43 分钟前 via iPhone

先说结论不好用。能用。一直听人吹，他们真用过嘛。

等一个工程化，当前使用应该是原始人。等轮子吧。现在修 al 写的 bug

gorvey

12 小时 38 分钟前

@autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的

autumncry

12 小时 37 分钟前

@Solix 有充足的资源部署。这个一秒几十次的请求，和模型可容纳的最大并发请求数量有关么？
@urlk 后端适配是指在模型部署的时候，需要支持 openai 接口是么？也就是如果能用 openai 的方式 curl 通，就可以接入 cc 或者 opencode 是么？
@Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的，我们可能不会涉及到特别复杂的项目，日常开发这两个模型完全可以 cover 了

Solix

12 小时 28 分钟前

@autumncry #11 有关系呀，一秒几十次请求模型，每个请求都带着 token ，你算算是多大的量，另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发，这都是黑盒，你只能自己算，至少一个 H200 是不够的

autumncry

12 小时 28 分钟前

@gorvey 其实如果只是接口适配做了变化都好说，因为接口可以中转，但是如果权重不一样，那代码能力指定是大打折扣的

autumncry

12 小时 26 分钟前

@Solix 哎看来是只能自己淌了，这些确实都不清楚。其实资源倒是好说，我们预算有至少 2 台 H800 8 卡服务器，还可以协调更多，主要还是担心开源模型并不是 coding plan 里的模型

zhouu

12 小时 19 分钟前

可以接入啊，vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的

pandaPapa

12 小时 14 分钟前

这得几百万?

utwo

11 小时 0 分钟前

https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下，和最好的商用还是有差距，但是已经能解决很多问题了。

defunct9

10 小时 34 分钟前

厉害啊，真想去楼主公司试试部署模型自己跑，那真太爽了

defunct9

10 小时 34 分钟前

https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code

liu731

PRO

10 小时 28 分钟前

OP 太有实力了，之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。

Suger828

10 小时 27 分钟前

@liu731 一张 a100 80G 用 lora 微调差不多就够了吧，一个月租金不到 1w

Suger828

10 小时 26 分钟前

@TArysiyehua 才 300 多 b 好像

Suger828

10 小时 21 分钟前

@autumncry Linuxdo 有人部署了，其实效果比 codeplan 还要好一些

liu731

PRO

10 小时 18 分钟前

@Suger828 #21 顶不住，我们在腾讯云里面租的，半个月就花了一万多

Suger828

10 小时 15 分钟前

@liu731 租贵了，联系代理至少打四折

Suger828

10 小时 14 分钟前

@autumncry 实际上本地部署的比 code plan 的要强很多，code plan 阉割了

ihainan

10 小时 2 分钟前

Ollama 已经提供 Anthropic Compatible API 了： https://x.com/ollama/status/2012434308091224534

但模型只是 Claude Code 调用的一部分，工具是另一个大头，比如 Web Search 能力是服务提供商提供的，内网自己做 Web Search 的效果不管好坏，肯定是跟服务提供商的有区别。

另外就是模型的多模态能力，GLM 4.7 我不清楚是否有变动，4.6 本身没有视觉理解能力，得通过 MCP Tool 调用智谱的服务来实现，所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。

edisonwong

9 小时 46 分钟前

@Mumu2580 #9 你说的是对的
自部署的模型对接 cc ，gemini cli 之流，一堆坑（我在公司调研+自部署折腾了都快半年了），不好用，而且都还没到模型小，资源那地步呢。

CaA23187

8 小时 46 分钟前

MiniMax2.1 一台 8w 的 mac 一个人用刚好，用的 MiniMax2 8bit 版本，60-80 token/s

redbeanzzZ

8 小时 7 分钟前

github 上 claude code router 试下呢？还有 zcf

Rrrrrr

7 小时 56 分钟前

2 楼正解

deeplee

5 小时 25 分钟前 via Android

我们公司是内网自己部署的 glm4.7 ，配合 claude code + superpowers ，简单的项目效果还可以

yycyanyicheng

4 小时 44 分钟前

code plan 9.9 5 小时 40 条 prompt.
手上有 cursor + claude sonnet 4.5 + codex
整体玩下来感觉还可以，就是做一些指令的时候没有那么好，同样的谷歌插件代码，miniax2.1 搞了几次搞不定，其实换了 codex 它也是有错误。

目前还没有强烈感觉到它很差劲的地方。平替是可以的

bwnjnOEI

4 小时 30 分钟前 via iPhone

好几个开源 llm 网关，统一所有接口而且可以遥测和统计 token ，另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化，就对着这俩文档研究参数和基本原理就行

bwnjnOEI

4 小时 25 分钟前 via iPhone

@bwnjnOEI 但是我不建议使用 claude code router ，至少公司使用这个不可行，推荐 Bifrost go 写的比 litellm python 的快

bwnjnOEI

4 小时 2 分钟前 via iPhone

@bwnjnOEI 难点就是瞬时 token 数量会不会爆显存，如果观测一段时间爆了要么加算计要么上手段比如 fp8 （前提调点精度能不能接受

starlion

3 小时 23 分钟前

可以啊，自己搞个大模型网关，通过这个网关来调用网关后面的大模型能力，就像 nginx 差不多

自己部署 GLM4.7 或者 MiniMax2.1，能接入 Claude code 或者 oencode 么？