zhengfan2016
V2EX  ›  Local LLM

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低

  •  
  •   zhengfan2016 · May 31 · 2979 views

    如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

    transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?

    20 replies    2026-06-09 09:38:55 +08:00
    bnull
        1
    bnull  
       May 31
    我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢
    ashong
        2
    ashong  
       May 31 via iPhone
    rocm 还是原生 linux 效率高,我是 7900xtx
    01802
        3
    01802  
       May 31 via Android
    nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行
    wwhc
        4
    wwhc  
       May 31
    除非你是在为大公司或企业开发 AI 推理系统,建议使用 llama.cpp ,这是目前最好的 AI 推理框架
    zhengfan2016
        5
    zhengfan2016  
    OP
       May 31
    @ashong 79xtx 推理 rocm 对常见 gguf 和 pytorch 模型兼容性怎么样啊,打算攒钱搞块 r9700 当推理卡,但是看网上很多说不如买 4080ti 魔改卡 cuda 吊打一切,我感觉 1.2w 买张魔改卡万一坏了,风险还是蛮大的
    zhengfan2016
        6
    zhengfan2016  
    OP
       May 31
    @wwhc llama.cpp 好像用不了那些 vllm 的什么 vllm paged attention 和 kv 前缀缓存的优化吧
    wwhc
        7
    wwhc  
       May 31
    7900xtx 在 llama.cpp 下支持良好,推理时的预填充速度可能只比 4060ti 稍强,但 token 生成速度与 3090ti 相差不大
    wwhc
        8
    wwhc  
       May 31
    llama.cpp 的优化参数也很多,绝对性能目前可能仍不及 vllm 强,但可用性、易用性、可调性及部署能力都远强于 vllm
    ashong
        9
    ashong  
       May 31 via iPhone
    @zhengfan2016 rocm 生态越来越丰富了,目前没遇到什么问题,qwen 3.6 27B Q4 大概 28tokens/s
    ashong
        10
    ashong  
       May 31 via iPhone
    最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了
    oldlamp
        11
    oldlamp  
       May 31
    16G 显存,是什么核心呢?

    好像如果是 RX580 之类的就会比较慢,看人运行 omnicode-2-9b-q4_KM 能有十几个 tokens/s:

    https://mp.weixin.qq.com/s/7c-Lj_xg33r6dswMhH7bRg
    zhanying
        12
    zhanying  
       May 31   ❤️ 1
    用 rocm 还不如 vulkan 跑。。。
    zhengfan2016
        13
    zhengfan2016  
    OP
       May 31 via Android
    @oldlamp 9070
    pnczk2019
        14
    pnczk2019  
       May 31
    这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
    我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾.
    yinanc
        15
    yinanc  
       May 31   ❤️ 1
    @zhengfan2016 我在用 7900xtx 跑 comfyui 的图/视频生成,需要配合 Claude code 解决各种问题,目前还没有遇到 hard block 的情况,体验还是很好的。4080s 32G 价格几乎是 7900xtx 的 3 倍了,还是魔改的,个人觉得完全不值
    irrigate2554
        16
    irrigate2554  
       May 31
    是的,消费级推荐 lm studio
    wwhc
        17
    wwhc  
       21 days ago
    RX9070 对标 Nvidia Titan V 的 AI 推理性能
    oldlamp
        18
    oldlamp  
       20 days ago
    @zhengfan2016

    您看 12 楼那位说的非常对,您如果用这款卡的,用 walk 来跑,速度会更快很多,我记得有人在 7900 xtx 上测试 qwen3.6-27b-q4km ,能快大概 10%左右

    另外,如果用 glm 4 .7 flash 的话,好像能达到 100 多的 tokens/s
    Bunsei
        19
    Bunsei  
       13 days ago
    我倒是刚入手了一张 R9700 ,跑 Qwen3.6-27B 的 Q6_K GGUF ,KV 缓存用 FP8 。大概能开到 96K 的上下文,LM Studio 里短上下文生成速度大概 22 token/s ;上下文到 64K 左右时推理速度降到 16 token/s ,但 prefill 时间极长,大概 1~2 分钟。如果把 KV 缓存留在内存不放进显存,那首次问答的生成速度大概只有 14 token/s 。
    @zhengfan2016
    zzutmebwd
        20
    zzutmebwd  
       13 days ago
    amd 就 llama.cpp ,别折腾,没意思
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5795 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 103ms · UTC 06:25 · PVG 14:25 · LAX 23:25 · JFK 02:25
    ♥ Do have faith in what you're doing.