V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Eleutherios
V2EX  ›  Local LLM

家用机带宽太小玩不转 local llm 啊

  •  
  •   Eleutherios · 3 月 16 日 via iPhone · 1582 次点击
    这是一个创建于 32 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在算力过剩,瓶颈都是显存带宽和显存大小,搜了一圈,感觉就两个方案有些可行性

    一是 qwen3 embedding 8b int8 ,给本地知识库做向量化,结合云端 API ,应该能省一些 tokens ,配置的话,16G 显存的 N 卡都大差不差,或者 Apple M4 + 32G ?想试试给 claude code 加个 local embedding mcp

    从这个角度讲,M4+32G 确实是个挺好的配置

    二是买张魔改的 4090 48G ,可以跑 30b int8 或者 70b int4 ,可以用 QLoRA 调一下模型,玩玩 SillyTavern ?但看网评还是比云端 API 差太多,所以估计只有 刘备 玩家值得一试?

    不知道 3 年后,国产 HBM+国产 GPU 能不能把大内存推理显卡的价格打下来……现在 Local LLM 还是不太行
    17 条回复    2026-04-14 12:40:42 +08:00
    ntedshen
        1
    ntedshen  
       3 月 16 日
    bro 。。。你该睡觉了,不清醒了。。。

    这个月的 intel 轻薄本人均 32g8533 的 lpd5 起步,64glpd5 的 camm2 条子三千块不到,你纠结个入门配置干啥。。。
    stinkytofux
        2
    stinkytofux  
       3 月 16 日
    即便 3 年后显卡价格被打下来了, 在家跑 local llm 的电费也不得了.
    azhangbing
        3
    azhangbing  
       3 月 16 日 via iPhone
    别想 local 了 m 系列芯片 prefill 极慢 提示词处理就很慢,上下文大了也 gg 太慢了,就算能跑 27b 又怎么样呢 ,9b 凑合用用 单主力任务也不敢交给他啊,还是要线上模型 codex claude 最差也要 glm5 MiniMax2.5 这些了 花钱也比买显卡 笔记本强
    Eleutherios
        4
    Eleutherios  
    OP
       3 月 16 日 via iPhone
    @ntedshen 但是带宽也只有 128G/s 吧? 13B 都不顺畅
    @stinkytofux 只能期望 Apple 的低功耗芯片了
    @azhangbing 确实,但我还是希望 Mac Mini 能跑个 8B 左右的 embedding 。
    BigTiger
        5
    BigTiger  
       3 月 16 日
    家里 mini 跑的 qwen3.5 27b ,已经尝试一周 local coding 了,感觉良好,偶尔切换 codex 调试问题即可
    sairoa
        6
    sairoa  
       3 月 16 日
    我都 mba m4 32G ,跑 35b a3b 或者 27b 都没问题,27b 速度很慢不可用,35b 虽然推理很快但首 token 很慢,综合考量 4b 是最平衡的。虽然电脑里一直跟着更新模型,但实际上还真没用本地模型解决问题,只是幻想着什么时候没有网络会用……
    penisulaS
        7
    penisulaS  
       3 月 16 日
    local LLM 只有自己用太不合算了,正如你所说,要么缺显存,补足显存算力又溢出太多
    ntedshen
        8
    ntedshen  
       3 月 16 日
    @Eleutherios 现时最强的核显也就是个 3060 算力,都区分不了带宽瓶颈还是算力瓶颈。。。
    通常情况下核显的带宽瓶颈是很明显的,能卡到你鼠标不能动。。。

    而且说真的现在硬件的基本盘依然是 8+256 ,去年就 v2 都还有人骂我是不是脑子有病在本地跑大模型的来着。。。
    这才半年,早的很。。。
    coefu
        9
    coefu  
       3 月 16 日
    有钱了还是得买 mac ultra ,省电,家用完全够了。
    oldlamp
        10
    oldlamp  
       3 月 18 日
    楼主预算能够 RX580 么?
    好像用 RX580-2304sp 跑 omnicoder-9b 的 q4_k_m 量化版本 gguf (好像是 qwen3.5-9b 为基础弄的)都能有 14tokens/s:

    https://mp.weixin.qq.com/s/bM1ICbcVw7ENwvKl-7MpiQ

    qwen3.5-9b 好像能跟 gpt-oss 20b 掰掰手腕的,本地用估计一点简单场景可以试试。
    Eleutherios
        11
    Eleutherios  
    OP
       3 月 19 日 via iPhone
    @oldlamp 谢谢,我有块 4070ti s ,小模型还是能跑的,但这不是贪 int8 么🤣
    ahdw
        12
    ahdw  
       3 天前   ❤️ 1
    @oldlamp

    Qwen3.5 非常啰嗦,思考就要占大量 context ,我看这篇文章里面才设置了 4K 上下文,一个洗车问题,或者棍子过门问题就能烧光这点预算,根本等不到吐出回答的时候。
    14 tokens/s 其实有点儿慢。你能接受一个问题连想带回答要 5 分钟起步吗?

    我也在调这个,用的机器也不求行,是一台闲置的 16GB M1 Pro MBP ,权重用的 Q4_K_M ,KV Cache 也用了 TurboQuant+,能开到 48K 上下文,15-18 tokens/s 。喜欢它的质量,但不太能接受这个速度。

    要速度就要换成 Gemma-4-E4B ,同样的量化版本,能跑到 22-25 tokens/s ,速度可以接受了,但是质量差一点
    oldlamp
        13
    oldlamp  
       2 天前
    @ahdw 好像上下文可以手动设置,我用 16GB M4 Air ,权重也做了妥协。Gemma4 质量差的感觉有点多,哎,世上安得双全法?
    ahdw
        14
    ahdw  
       2 天前 via iPhone
    @oldlamp 加钱即可满足速度和质量双全,直接上 512GB 统一内存的 Mac Studio ,哈哈

    唉,世上安得三全法?
    oldlamp
        15
    oldlamp  
       2 天前
    @ahdw

    今天弄了几块 24G 现存的显卡,刚测试了一下 vulkan 的也能跑,稳定 80 以上,三个各自跑一个,还互不干扰。
    Eleutherios
        16
    Eleutherios  
    OP
       2 天前 via iPhone
    @ahdw 如果 Mac Studio M5 Ultra 能有 1200G/s 内存带宽,100B int8 随便跑,400B int4 也能忍忍用了
    Eleutherios
        17
    Eleutherios  
    OP
       2 天前 via iPhone
    @ahdw 都本地了,10 tokens/s 对我才是及格线
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   923 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 68ms · UTC 20:36 · PVG 04:36 · LAX 13:36 · JFK 16:36
    ♥ Do have faith in what you're doing.