家用机带宽太小玩不转 local llm 啊

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 54 days ago, the information mentioned may be changed or developed.

现在算力过剩，瓶颈都是显存带宽和显存大小，搜了一圈，感觉就两个方案有些可行性

一是 qwen3 embedding 8b int8 ，给本地知识库做向量化，结合云端 API ，应该能省一些 tokens ，配置的话，16G 显存的 N 卡都大差不差，或者 Apple M4 + 32G ？想试试给 claude code 加个 local embedding mcp

从这个角度讲，M4+32G 确实是个挺好的配置

二是买张魔改的 4090 48G ，可以跑 30b int8 或者 70b int4 ，可以用 QLoRA 调一下模型，玩玩 SillyTavern ？但看网评还是比云端 API 差太多，所以估计只有刘备玩家值得一试？

不知道 3 年后，国产 HBM+国产 GPU 能不能把大内存推理显卡的价格打下来……现在 Local LLM 还是不太行

local

llm

GPU

17 replies • 2026-04-14 12:40:42 +08:00

ntedshen

Mar 16

bro 。。。你该睡觉了，不清醒了。。。

这个月的 intel 轻薄本人均 32g8533 的 lpd5 起步，64glpd5 的 camm2 条子三千块不到，你纠结个入门配置干啥。。。

stinkytofux

Mar 16

即便 3 年后显卡价格被打下来了, 在家跑 local llm 的电费也不得了.

azhangbing

Mar 16 via iPhone

别想 local 了 m 系列芯片 prefill 极慢提示词处理就很慢，上下文大了也 gg 太慢了，就算能跑 27b 又怎么样呢，9b 凑合用用单主力任务也不敢交给他啊，还是要线上模型 codex claude 最差也要 glm5 MiniMax2.5 这些了花钱也比买显卡笔记本强

Eleutherios

Mar 16 via iPhone

@ntedshen 但是带宽也只有 128G/s 吧？ 13B 都不顺畅
@stinkytofux 只能期望 Apple 的低功耗芯片了
@azhangbing 确实，但我还是希望 Mac Mini 能跑个 8B 左右的 embedding 。

BigTiger

Mar 16

家里 mini 跑的 qwen3.5 27b ，已经尝试一周 local coding 了，感觉良好，偶尔切换 codex 调试问题即可

sairoa

Mar 16

我都 mba m4 32G ，跑 35b a3b 或者 27b 都没问题，27b 速度很慢不可用，35b 虽然推理很快但首 token 很慢，综合考量 4b 是最平衡的。虽然电脑里一直跟着更新模型，但实际上还真没用本地模型解决问题，只是幻想着什么时候没有网络会用……

penisulaS

Mar 16

local LLM 只有自己用太不合算了,正如你所说,要么缺显存,补足显存算力又溢出太多

ntedshen

Mar 16

@Eleutherios 现时最强的核显也就是个 3060 算力，都区分不了带宽瓶颈还是算力瓶颈。。。
通常情况下核显的带宽瓶颈是很明显的，能卡到你鼠标不能动。。。

而且说真的现在硬件的基本盘依然是 8+256 ，去年就 v2 都还有人骂我是不是脑子有病在本地跑大模型的来着。。。
这才半年，早的很。。。

coefu

Mar 16

有钱了还是得买 mac ultra ，省电，家用完全够了。

oldlamp

Mar 18

楼主预算能够 RX580 么？
好像用 RX580-2304sp 跑 omnicoder-9b 的 q4_k_m 量化版本 gguf （好像是 qwen3.5-9b 为基础弄的）都能有 14tokens/s：

https://mp.weixin.qq.com/s/bM1ICbcVw7ENwvKl-7MpiQ

qwen3.5-9b 好像能跟 gpt-oss 20b 掰掰手腕的，本地用估计一点简单场景可以试试。

Eleutherios

Mar 19 via iPhone

@oldlamp 谢谢，我有块 4070ti s ，小模型还是能跑的，但这不是贪 int8 么🤣

ahdw

Apr 13

@oldlamp

Qwen3.5 非常啰嗦，思考就要占大量 context ，我看这篇文章里面才设置了 4K 上下文，一个洗车问题，或者棍子过门问题就能烧光这点预算，根本等不到吐出回答的时候。
14 tokens/s 其实有点儿慢。你能接受一个问题连想带回答要 5 分钟起步吗？

我也在调这个，用的机器也不求行，是一台闲置的 16GB M1 Pro MBP ，权重用的 Q4_K_M ，KV Cache 也用了 TurboQuant+，能开到 48K 上下文，15-18 tokens/s 。喜欢它的质量，但不太能接受这个速度。

要速度就要换成 Gemma-4-E4B ，同样的量化版本，能跑到 22-25 tokens/s ，速度可以接受了，但是质量差一点

oldlamp

Apr 14

@ahdw 好像上下文可以手动设置，我用 16GB M4 Air ，权重也做了妥协。Gemma4 质量差的感觉有点多，哎，世上安得双全法？

ahdw

Apr 14 via iPhone

@oldlamp 加钱即可满足速度和质量双全，直接上 512GB 统一内存的 Mac Studio ，哈哈

唉，世上安得三全法？

oldlamp

Apr 14

@ahdw

今天弄了几块 24G 现存的显卡，刚测试了一下 vulkan 的也能跑，稳定 80 以上，三个各自跑一个，还互不干扰。

Eleutherios

Apr 14 via iPhone

@ahdw 如果 Mac Studio M5 Ultra 能有 1200G/s 内存带宽，100B int8 随便跑，400B int4 也能忍忍用了

Eleutherios

Apr 14 via iPhone

@ahdw 都本地了，10 tokens/s 对我才是及格线