想折腾一个 AI 主机，请行家出手

打算自组一 AI 主机，用于本地 llm 。可用于 kiro IDE 的，gitlab duo 。

可行性有多大，能否代替订阅的那些 ai 服务？

配置有没有推荐的，各 AI 行家请出手相助。

Supplement 1 8 days ago

我把同 copilot 讨论的，以及这里的答复交给它。

分享给大家看看。
https://copilot.microsoft.com/shares/JboxwuxJm4jZRAK8Sqjkd

Supplement 2 7 days ago

算是成功劝退我了。

但还是埋着一颗 self hosting 的心。
等着看大量二手 ai 机器出来的时候再说。

Supplement 3 6 days ago

刚知道，大女儿的同学给她一张旧显卡 rx6800 xt 16g
目前就考虑等回家（要一个月后才回家）先用这个试试看，能到什麽程度。

据 copilot 的说法，下面这些可行：
Ask （轻量、快）
- Qwen2.5 7B Instruct
- Llama 3.1 8B Instruct

Plan （中型项目）
- Qwen2.5 14B Instruct （ Q4 ）
- Llama 3.1 13B Instruct （ Q4 ）

Agent （工具调用）
- Qwen2.5 Coder 7B （首选）
- Qwen2.5 Coder 14B （ Q4 ）

主机

本地

80 replies 2026-05-14 00:01:22 +08:00

qfdk

PRO

9 days ago via iPhone

看了明矾系列的到现在没下手... 要不要等等 mac mini ？说不定有新科技？本来打算买 m4 ，后来一拉配置，直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧

qfdk

PRO

9 days ago via iPhone

yusf

9 days ago

老老实实买用 api 吧

davidyin

9 days ago via Android

@yusf
订阅很方便，只是有洁癖，不想自己的东西暴露到外面。

希望都在局域网内。

yusf

9 days ago

@davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验

davidyin

9 days ago via Android

@yusf

Mac 不考虑。基本没有用苹果的产品。
对于性价比敏感。

davidyin

9 days ago via Android

现在有个初步的配置清单：
RTX 4070 SUPER 12GB
Intel i5 14600K
Asus TUF B760
DDR5 32GB(2*16gb)
SSD 1TBx2
看看合适吗？

AastroLula

9 days ago

还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法

xiamijun

9 days ago

可以看看这个项目 https://github.com/AlexsJones/llmfit

1. 找出你的硬件能运行哪些模型
2. 估算某个模型配置需要什么硬件
3. 硬件模拟，可查看哪些模型适合目标硬件

ntedshen

9 days ago

降价期间屯硬件，那 bro 你很勇哦（

4070s 有没有 4060ti 好使我不知道。。。
但是 14600k 和 d5 的意义在哪？

Livid

MOD

PRO

9 days ago

@davidyin 瓶颈是显存。

可以看一下 DGX Spark 系列的产品。

davidyin

8 days ago via Android

@Livid
这个超出预算了。就我的使用情况，估计太大才小用了。

@AastroLula
订阅过 kiro 的那些模型。挺好用，只是不想把自己丑陋的代码上传上去，才想着全部在本地。
是啊，配件涨价太多。的确有些下不去手。

@ntedshen
Intel CPU 和 DDR5 是也不是一定，你有好的建议欢迎提出来。

@devzhangyu
谢谢推荐，我去看看。

iango

8 days ago

@davidyin 再等等，技术升级太快了。
看看这个：
https://github.com/antirez/ds4

128M Apple MBP 跑 DeepSeek V4 Flash

viskem

8 days ago

64G M4 MacMini 循环跑 DeepSeek V4 Pro 中，MLX 31B 27B 啥的放那一堆都停用了。
是的，不如买个 AIR ，走到哪 Vibe 到哪……

luodan

8 days ago

就看显存大小，其它可以全部忽略。要么独立显卡，要么统一内存。

davidyin

8 days ago via Android

@luodan
大显存重要，GPU 级别低一点，问题不大？

gtchan13579

8 days ago

Intel Arch B50 16G
铭 H610I
Ultra 230F
DDR5 5600 16G*2
差不多就可以了

MrLonely

8 days ago

@davidyin 显存大小决定能不能跑，GPU 高低决定跑得快慢。

zzutmebwd

8 days ago via Android

5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产，20 万以内无法代替 glm 这种比较比较聪明的国产，无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
如果你的厌蠢症胜过受迫害妄想症，用订阅。

bzw875

8 dys ago

除了为了学习本地训练 AI ，买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋

restkhz

8 days ago

@davidyin 我不专业，但是有些经验你可以参考：

12G 显存太小了，完全完全地不推荐。小的模型完全能跑，甚至跑挺快，但模型本身太小鸡肋无用，能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ，12G 显存，算力带宽都没问题但是生产力相关的基本什么都跑不了。

另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ，我有一台，请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好，密集模型速度很慢，比如 Qwen3.6 27B ，不错的模型，但是跑推理大概 10t/s 不到，非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善，最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑，但是经常让我觉得不如高精度的 Qwen3.6 35B 。

还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快，能跑是都能跑，就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑，但问题是很多东西跑不快...

精度也很重要，我不觉得 Q4 量化真的好用。能跑归能跑，但是回答模棱两可，幻觉多，不建议用于生产。为了生产有条件建议 Q6 起步。

说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服，但是你要跑编码我真不建议。
如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点，过一年再看看模型能力提高，硬件会不会降价。不然你的钱就是打水漂的。

我只是踩过坑，请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说，它具备这个能力罢了。
我是之前有搞信息安全上的需要，我不得不用 abliterated 模型才搞的...

csunny

8 days ago

5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。

csunny

8 days ago

@csunny 纠正一下，是 64G ddr5

2000wcw

8 days ago

为啥大家都不支持 PO 主？我倒觉得应该大力支持一下，然后 PO 主真金白银花了后说一下实际感受，这样我们才好避坑。

bytesfold

8 days ago via iPhone

我的建议直接 rtx pro 6000 ，不好用直接出掉

frankies

8 days ago

@davidyin #7 4070 部署不了大模型，部署量化后的阉割模型也费劲，推理慢不说还智障。提升不了预算就用 api ，钱包会告诉你并不洁癖

cin

8 days ago

你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的，先建议找个对应的 api 尝试下
另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b

tcper

8 days ago

如果你真想跑 LLM ，显存顶到最高就行，不过就怕又来一句，也想玩玩 3A 游戏

whusnoopy

8 days ago

1. 预算多少？上可到 512G 的 M3 Ultra 的 Mac Studio ，或 128G 的 nVidia DGX Spark
2. 是否专用用途，还是日常还可娱乐游戏？专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡，日常还要娱乐游戏那就要选大显存的游戏卡了
3. 性能期望？要能跑大参数模型，就得显存大，这时候 Mac 这样的统一内存就有优势，但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡，但显存可能不够大，不够加载更大参数的模型

zls3201

8 days ago

@davidyin cpu 高了显卡我觉得 5060ti 16G 可能比你这个好

我最近看 reddit ，很多用 unsloth/Qwen3.6-35B-A3B 量化版本的，有内存 8g 都用起来的

smlcgx

8 days ago

如果你玩本地推理的话，M3 ultra 确实是必备选项之一，电费账单是一笔隐藏开支，尤其是长期下来

davidyin

8 days ago via Android

诸位快把我劝退了。

@zzutmebwd
没用过国产的。也只用过 kiro 订阅的几种。

@bzw875
不训练，只是推理。

@restkhz
你的经验非常有用，谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽？

@2000wcw
别这样，我很听劝的。本来也不是用来谋生，只是爱好者。

@frankies
也不是那么洁癖，主要担心一不小心把什麽密钥啊，API 溜出去。

@cin
这个建议好，我去试试。

@tcper
玩游戏也想过，不过我的 Xbox series x 也刚买不久。

davidyin

8 days ago via Android

@whusnoopy
目前的预算在两千美元，再多就感觉自己不配用这么贵的东西了。

@smlcgx
电费的话，应该不用二十四小时开机的话，还好吧。之前用过 r710 服务器，玩了一年，觉得厌了就出手了。

uprit

8 days ago

显卡俺在用双卡 2080ti-22GB ，总共 44GB 显存，主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ，256K 上下文，推理速度大概 20T/s

alinwu05

8 days ago via Android

不划算，机器便宜了，LLM 不够聪明，没有意义啊，请一个小学生干活当然便宜，但是干不了活也不中呀

maolon

8 days ago

楼上提议的挺好的，
另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用，能拿来干些像是数据清洗，小代码库编程，或者是指令非常明确的 computer use 这种 agentic flow ，或者随便写点文案，性能大概相当于去年 100B 级别的模型

跟现在的旗舰或者次旗舰模型还是差很远的（尤其是现在各家都开始往 1T 到几 T 的参数量发展），对本地模型的期望还是要明确的好

Kevin2

8 days ago via Android

同蹲方案，我也有这想法。另外再玩虚拟化系统，多开几个电脑玩

Moonkin

8 days ago via Android

@davidyin 12g 来搞笑的？臭打游戏的都看不上。3090 都比这强，显存直接觉得模型能不能用。32G 的改装卡/更大的走私卡如果不想要，那就 5090d ，或者 API 等 60 系。

HojiOShi

8 days ago

lz 这帖子提醒我一件事，我有一台双 A770 的机器吃灰有点久了，现在想再看看 LLM 性能提升了多少。

ntedshen

8 days ago

@davidyin ddr4 目前是 ddr5 的半价，而且 14k 碑并不怎么样。。。你可以在加钱或者减钱里面选（
你不如抄个入门级学生打游戏配置单，然后显卡换自己的。。。

taotaodaddy

8 days ago

用于本地 llm
代替订阅

taotaodaddy

8 days ago

因为你会发现家用主机上的本地模型，蠢得惊人

j1132888093

8 days ago

本地部署能代替订阅的模型，那价格得过百万人民币吧

tootfsg

8 days ago via Android

@davidyin 用 12g 显存跑本地 llama.cpp ？这是真的吗，我 16g 显存都不够，像 26b 27b 这种 q4km 都 15,16g 了，1,2g 给上下文要极致压缩 kv 类型和特别低的上下文

coefu

8 days ago

@davidyin #33 真正的行家来告诉你，2000$的方案。

amd epyc 单路 9004 12 通道 ddr5 主板，目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时，12 个通道的总带宽约为 500GB/s 以上。使用更高频率（如 6400 MT/s ）的内存时，理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

ddr5 6400 16G 目前单条价格大概 700*12 ，8400

amd epyc 9124 cpu 目前大概 4000

总成本正好 2000$ 左右。

此时，你有 192G 内存（ Qwen3.5-122B-A10B ，这种都能跑），带宽 500 ～ 614G 左右，500G 的带宽足够让你跑 MOE ，20 ～ 25 token/s ，再加一块几百块的 16G hbm2 gpu ，完全够。

huaweii

8 days ago via Android

个人本地 llm 能做的事情和 vibe coding 两回事性价比敏感还在这浪费钱呢，建议问一下 AI 一些基本的常识

version

8 days ago

本地就算了.如果真能行.ai 行业的股价缩水到 1/10
差距就像你骑单车去拉萨..别人坐飞机去的

drafter

8 days ago

昨天刚买的主机跟你一样，5060ti 16G 显存 +96G 内存，270kcpu ，场景家里主机挂着，公司电脑通过 tailScale 连接跑 qwen3.6-35B-A3B ，开启思考模式会比较慢，跟官方 api 比，3 ～ 5 分钟吧，我后面把思考模型关了会快点，但是像一个小的项目用 claude 进行/init 要处理 10 多分钟，如果非编程用 Lm studio 对话框对话很快，输出 40t/s ，还在研究怎么在 coding 下推理速度加快

davidyin

8 days ago via Android

@huaweii

这个配置就是问的 chatgpt, copilot 和

davidyin

8 days ago via Android

Gemini 得到的。
我想还是问问活人更可靠，毕竟这里高手多。

davidyin

8 days ago via Android

@drafter
所以可行，就是慢。对吗

aklllw

8 days ago

这个价位的跑起来的 AI...送我跑龙虾我都嫌弃
大概就这个性价比吧，无意攻击，只是给个参考

drafter

8 days ago

@davidyin 对的 https://benchlm.ai/coding 可以看这个模型 coding 能力排行榜，Qwen3.6-27B 排名 19 ，比很多的收费模型都强，但是这个量化版也要 24G 显存以上才行，4090 ，5090 太贵，3090 矿卡风险高，Qwen3.6-35B-A3B 排名 30 ，基本上觉得大多工作都能做，我上午开始试的，效果可以，至少做同样的事比 minimax 2.7 显得专业很多，还是稀疏模型，一些权重可以放内存里，但是推理慢，这个很关键，同样的问题 trae 里的 minimax 2.7 大该 1 分钟，这个模型我用 claude 大概 11 分钟。。。反正未来 20B ，30B 模型在消费级显卡上的效果应该会越来越好，可以观望下

hao150

8 days ago

别买 A U 就对了，反正我在这个 A U 带的 NPU ，买的时候说能力多好，实际用的时候没几个应用适配的。哪怕跑个视频转码都调不动 NPU

pxlxh

8 days ago

你这个预算和你要求的隐私性本身就是矛盾的
订阅就行了无人在意

davidyin

8 days ago via Android

@pxlxh

说了，我在意。自己的东西自己在意。

smlcgx

8 days ago

@davidyin 其实最后还是落实到需求，看你是想玩一玩还是想作为生产力。前者的话随便一个主机和显存吃得下的 int 之类的模型就可以了，只是聪明程度差一些。后者你想作为 api 的替代，就要认真选型了，没个几万入场费就不要想了，这些钱还不如买个正规 api

hanli

8 days ago

前面研究过这个问题，新配显卡的话显存至少考虑 24G 以上，不然模型效果都比较一般。现在用的 12G 的 3080ti ，都跑 QWEN Q4 量化模型，跑 27b 稠密架构的基本用不了，35b 的 moe 架构勉强能用下。

sn0wdr1am

8 days ago

劝退劝退。

电费不要去，显卡不要钱。

本地搭建根本不划算。

cs8425

8 days ago

刚好手上有 4070S 跟 9060xt, 最近也在尝试这块
先说结论:
12G 显存完全不够用
16G 也只是勉强能动
拿去辅助编程不是智商太低就是速度太慢
要嘛买更好的卡, 不嘛就 api 算了

我只测了 gemma-4-E2B Q4 、gemma-4-E4B Q4 跟 gemma-4-26B Q4 (MoE 类型)
4070S 跑 E4B 没啥问题, 速度大概 90t/s, 26B 就完全不行了
9060xt 跑 E4B 大概 60t/s, 26B 能动但最高只有 20t/s 通常在 15~19 之间
用的是 llama.cpp, backend vulkan
E4B 辅助编程错误很多, 要一直叫他修正
26B 错误是少很多, 勉强算堪用吧, 但运行太慢, 结果最后总花费时间跟 E4B 多轮差不多....
虽然不排除目前对 gemma 4 系列的支持不是很好/有 bug 就是了

跑 SDXL 的话
4070S 速度大概是 9060xt 的 1.7~2 倍 (1536x1024 一个 45 秒一个 80 秒)
但解析度/模型大一些就先炸了

afkool

8 days ago via Android

菜鸟想法（我自己）
买 388h 或者 ai395max 128g 的跑推理
需要训练了租云端练丹，不知道是否性价比可行？

Dream4U

8 days ago

能替代的话，A 家和 O 家不用活了

WhatIf

8 days ago

24G 的 3090 ，4090 之类可以跑 30B 上下规模的模型，但是上下文很小，项目大了估计就不行。
但是感觉 32G 48G 的也好不了太多。
那么只有 pro 6000 96G 显存能全量跑 32B ，这两天狗东刚看了下价格，有提供整机的，84000 左右

kinghly

8 days ago via iPhone

本地成本太高了，而且现在发展太快了.

Cheree

8 days ago

@davidyin 明显不合适，上了 D5 内存，结果还在搞 B760M+14600K,低预算新卡最合适的是 5060Ti 16G ，或者 5070Ti

Nidhoggur

8 days ago

@coefu 想问下 122B 的本地智商大概和 api 差多少？我本地只跑过 35B 的 qwen 3.5 Q4 ，酒馆用着都觉得降智

dongfanga

8 days ago

等 mac 新一代的 studio 最高配版，或者海外购 5090 双卡组建（不跑 llm 还能用来游戏），如果没有太大必要，直接调用 api 更实惠

coefu

8 days ago

@Nidhoggur 母鸡，我也没这资源跑过这种大模型啊。

davidyin

8 days ago via Android

没想着要同旗舰款比美，或者替换的意思。
目的只是辅助编程，能分析一下代码，做的东西又是很小的。
@Cheree
是低预算。你能给个建议配置吗？

slowgen

7 days ago

预算鸡肋不如买 api ，而且你低估了 Mac Studio 在跑大模型这件事上是极致性价比，官方翻新的 Mac Studio 库存已经 3 个月没补过货了，坐等 M5 Ultra 是最好的选择，因为曾经的 prefill 短板已经不短了。

跑大模型不是说你现在部署了之后就不动了，非要选择方案，当前性价比最高的是 DFlash + Qwen3.6 27B 方案，人家在单张 3090 上优化到极致跑的，直接抄作业就行。

但是，如果 2 个月之后出了一个开源模型，能力比你现在跑的模型提升 20%～ 30%，部分能力追平 Opus 4.7 ，体积在 40 ～ 60B 这个尺寸，你手头的硬件跑不动了，升级空间也没了，你怎么想。
很遗憾，现在的模型就是月更，你无法预计到下一个月有什么模型出现，它们的能力又达到了什么程度。

而且从已有的信息来看，你对模型类型（ Dense / Moe 和显存带宽 or 内存带宽的关系是如何影响到 token/s 的）、prefill 速度取决于什么、模型尺寸和不同的量化方案（ Q4_K_M/Q4_K_X_L/NVFP4/MXFP4/Q5/Q6/Q8/FP8 的差异）和上下文大小对于显存占用是如何计算的，这些信息你都没有任何概念。
更别说评估你的任务需要注意模型 benchmark 分数的哪几项指标，同时这些指标在能选的模型里哪个最好。

当你解了之后，你的结论就回到了我这条评论的第一句话了。

davidyin

7 days ago via Android

@slowgen
先感谢劝退我的网友。

Mac 的事情，纯粹是我个人不喜欢。
的确对你提到的这些没概念，所以才想着能有些东西学习，总不能意念学习啊，所以想着自己动手。要用 API 或者订阅对于我还是很简单的，毕竟加拿大很方便。

我太太问我是要工作还是考虑玩。我的答复是，必须“军民两用”，游戏和工作相结合才更有意思啊。

imqiyue

7 days ago via iPhone

@davidyin 这配置不太建议，最多也就跑个 9b 的模型，还需要考虑 kv 缓存，而 9b 又做不了什么事

imqiyue

7 days ago via iPhone

@2000wcw 是因为亲身经历过，所以不建议。23 年 4090 跑 13b 、25 年搭 256g ddr4 跑 ds r1 （这纯玩，做不得数）速度奇慢，macmini m4 16g 和 m1pro 16g 跑 qwen 3.5 9b ，都试玩过，做不了生产力。

deep123

7 days ago

配个机器的钱，能用订阅多久 claude 和 gpt 呢，本地的算力和模型再聪明能多聪明呢，去折腾还不如多用用一线 ai

mewking

7 days ago

@slowgen 嘿嘿，就知道这贴会把你炸出来

目前，我觉得个人部署底线应该是 2*3090 或者 4*5060ti ，各有优劣，二手 3090 年数很久了，不知道什么时候会炸，5060ti 主板，电源，延长线折腾，卡多麻烦；加上 192G DDR5 ，这套配置 27b 和 31b dense ，dflash 速度不错了。等 Deepseek V4 flash 的 llama.cpp,dflash,nvfp4 支持到位，本地对话速度应该可以，vibe 就等不起

上限就不封顶了，看有人尝试用 dgx spark + mac studio 集群搞 DP 分离

photolife

7 days ago via Android

了台二手 9000k ，建本地向量用，用接上各 AI 用，替代上是不可能的，另外剪 8k 。感你要行的目，然後就容易。

davidyin

6 days ago via Android

原先的想法就是能当编程助手，能做一些重构，改善我写的那些 PHP 代码。能力相当于 kiro 订阅里面的 coder 智能体，因为我也就用到这些。而且是单人使用。

问了 copilot ，它认为，14B 的模型就差不多，比如 Qwen2.5 coder 14B 。

跑这个模型，12GB 显卡，可以用 q4 量化版本；若是 16GB 显卡，可以跑 q5 版本。

oldlamp

6 days ago

rx6800 xt 16g 可以用 vulkan 流畅跑 9B 模型了
肯定比 RX580 2048SP 16G 强多了，
参考：
https://mp.weixin.qq.com/s/93eCB_GpxTB2q7VybzZH8w

oldlamp

6 days ago

@davidyin

Qwen2.5 coder 14B 太老了，而且实际表现也太差了，远不如上面那个链接中提到的 omnicoder-2-9b 的

linser

6 days ago

到发帖时间为止，目前能在本地部署的开源模型，最好的就是 Qwen3.6 27b ，也是最接近商用模型的小模型，这个模型 16G 显存勉强能用 Q4 跑，但是要干活建议 Q6 及以上，需要 24G 或 32G 显存，所以 5060TI*2 、5070TI*2 、5090D 24G 是起码的配置，有条件可以上 5090 32G ，不怕风险也可以考虑 4080S 32G 、4090 48G 这种 DIY 卡。

除了 Qwen3.6 27b 外，Qwen3.6 35b 和 Gemma4 也能用用，但是效果要差一些，其他模型就不建议了。

jhytxy

5 days ago

现在本地最能打的就是 qwen3.6 27b and gemma4 31b

你租个机器体验一下就知道怎么搞了
最低是两张 2080 22g
44g vram

看下 q8 ，q6 性能能接受不
不能接受就别想了买 api