
公司有设备可以本地部署,想求问:
1 hemingway 13 小时 18 分钟前 能啊 |
3 TArysiyehua 13 小时 0 分钟前 可以是可以,但是 GLM4.7 的硬件成本非常高,一般的公司搞不下来的,你确定能说服公司搞? |
4 autumncry OP |
5 gorvey 12 小时 56 分钟前 不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题 |
6 autumncry OP @gorvey 我个人理解,coding plan 里的模型和开源的模型权重并不是一个,coding plan 的模型是为了 coding 做了单独优化的。。 |
7 Solix 12 小时 52 分钟前 可以,不过 cc 一个窗口一秒几十次请求,你确定你们的 gpu 资源够么 |
8 urlk 12 小时 45 分钟前 后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的 至少需要兼容一个 |
9 Mumu2580 12 小时 43 分钟前 via iPhone 先说结论 不好用。能用。一直听人吹,他们真用过嘛。 等一个工程化,当前使用应该是原始人。等轮子吧。现在修 al 写的 bug |
10 gorvey 12 小时 38 分钟前 @autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的 |
11 autumncry OP |
12 Solix 12 小时 28 分钟前 @autumncry #11 有关系呀,一秒几十次请求模型,每个请求都带着 token ,你算算是多大的量,另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发,这都是黑盒,你只能自己算,至少一个 H200 是不够的 |
14 autumncry OP @Solix 哎看来是只能自己淌了,这些确实都不清楚。其实资源倒是好说,我们预算有至少 2 台 H800 8 卡服务器,还可以协调更多,主要还是担心开源模型并不是 coding plan 里的模型 |
15 zhouu 12 小时 19 分钟前 可以接入啊,vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的 |
16 pandaPapa 12 小时 14 分钟前 这得几百万? |
17 utwo 11 小时 0 分钟前 https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下,和最好的商用还是有差距,但是已经能解决很多问题了。 |
18 defunct9 10 小时 34 分钟前 厉害啊,真想去楼主公司试试部署模型自己跑,那真太爽了 |
19 defunct9 10 小时 34 分钟前 https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code |
20 liu731 PRO OP 太有实力了,之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。 |
22 Suger828 10 小时 26 分钟前 @TArysiyehua 才 300 多 b 好像 |
27 ihainan 10 小时 2 分钟前 Ollama 已经提供 Anthropic Compatible API 了: https://x.com/ollama/status/2012434308091224534 但模型只是 Claude Code 调用的一部分,工具是另一个大头,比如 Web Search 能力是服务提供商提供的,内网自己做 Web Search 的效果不管好坏,肯定是跟服务提供商的有区别。 另外就是模型的多模态能力,GLM 4.7 我不清楚是否有变动,4.6 本身没有视觉理解能力,得通过 MCP Tool 调用智谱的服务来实现,所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。 |
28 edisonwong 9 小时 46 分钟前 @Mumu2580 #9 你说的是对的 自部署的模型对接 cc ,gemini cli 之流,一堆坑(我在公司调研+自部署折腾了都快半年了),不好用,而且都还没到模型小,资源那地步呢。 |
29 CaA23187 8 小时 46 分钟前 MiniMax2.1 一台 8w 的 mac 一个人用刚好,用的 MiniMax2 8bit 版本,60-80 token/s |
30 redbeanzzZ 8 小时 7 分钟前 github 上 claude code router 试下呢?还有 zcf |
31 Rrrrrr 7 小时 56 分钟前 2 楼正解 |
32 deeplee 5 小时 25 分钟前 via Android 我们公司是内网自己部署的 glm4.7 ,配合 claude code + superpowers ,简单的项目效果还可以 |
33 yycyanyicheng 4 小时 44 分钟前 code plan 9.9 5 小时 40 条 prompt. 手上有 cursor + claude sonnet 4.5 + codex 整体玩下来感觉还可以,就是做一些指令的时候没有那么好,同样的谷歌插件代码,miniax2.1 搞了几次搞不定,其实换了 codex 它也是有错误。 目前还没有强烈感觉到它很差劲的地方。平替是可以的 |
34 bwnjnOEI 4 小时 30 分钟前 via iPhone 好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行 |
35 bwnjnOEI 4 小时 25 分钟前 via iPhone @bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快 |
36 bwnjnOEI 4 小时 2 分钟前 via iPhone @bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受 |
37 starlion 3 小时 23 分钟前 可以啊,自己搞个大模型网关,通过这个网关来调用网关后面的大模型能力,就像 nginx 差不多 |