V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
diudiuu
0.04D
V2EX  ›  Local LLM

部署本地模型 token 输出万能公式

  •  
  •   diudiuu · 3 小时 45 分钟前 · 261 次点击

    比如看 dgx spark 这台机子,部署 31B BF16 gemma

    这台机子的带宽 273 GB/s

    31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s

    实际能到 3token/s 已经是牛逼 plus ,顶多 2.5token/s

    所以有个关系,不要问能不能运行咋的,自己大概算下基本就知道能不能用

    简单得推理我觉得至少要到25token/s,看起来才正常

    1. 模型必须能加载完,显存只是基本条件

    2. 必须要看内存带宽( Memory Bandwidth ),这个太低得话估计就是个跛子,我看几乎很少有人部署模型时注意这个配置,这个也是非常重要得参数

    3. 上面得基本是按照英伟达机子算出来得,mac 机子比较特殊,基本只要能加载到 gpu 里面,剩余一点内存,就能用速度不会很慢( 20token/s 将就能用),冷启动稍微慢点

    还有个本地模型部署,除了花大钱,本地部署就是玩玩可以,起码现在不要妄想超过线上得模型,尤其写代码方面

    我个人认为现在本地模型能做得事

    1. ocr
    2. 总结做知识库
    3. openclaw 还有什么爱马仕这个推理也可以做,需要提前用线上模型完成复杂得代码,本地执行推理一定要记得做好机子散热,一定!!一定一定!!!

    希望大家来交流自己得心得,大家共同学习进步

    1 条回复    2026-04-20 17:54:39 +08:00
    Zhuzhuchenyan
        1
    Zhuzhuchenyan  
       3 小时 31 分钟前
    TTFT 和 TOK/S 都很重要
    TTFT 是 Compute Bound ,首字延迟取决于上下文长度和显卡算力
    TOK/S 是 Memory Bound ,主要取决于内存带宽
    以上两种性能在上下文变长时会急剧衰减,本地模型最后还是要结合自身的使用工况找一个各方面都能接受的模型大小
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3292 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 13:25 · PVG 21:25 · LAX 06:25 · JFK 09:25
    ♥ Do have faith in what you're doing.