zsj1029
V2EX  ›  Local LLM

qwen3.6 27b 本地编码测试

  •  
  •   zsj1029 · Apr 27 · 5295 views
    搞了一上午,本地 a100 40g ,输出也慢 40t/s
    大概的提示词劳力士风格,罗马数字,月相日历,高贵典雅


    月相那块搞了好多轮

    结论:
    小参数的模型智力不差,Trae IDE agent 连接本地模型,coding 完全可用
    62 replies    2026-05-02 20:36:52 +08:00
    zsj1029
        1
    zsj1029  
    OP
       Apr 27

    是有动画效果的,星星会明暗,上下左右还有钻石闪烁效果,不太明显
    日期,月相跟着时间会变
    Seanfuck
        2
    Seanfuck  
       Apr 27
    上下文设置小一点会快些
    zsj1029
        3
    zsj1029  
    OP
       Apr 27
    @Seanfuck 目前 128 ,256 也试过,llamacpp 的后端,开始都是快的,多轮会话,kv-cache 累计推理感觉就慢了
    Orangeee
        4
    Orangeee  
       Apr 27
    看着效果还凑合,一般任务应该够用
    pedclub
        5
    pedclub  
       Apr 27
    ![qwen 3.5]( https://img.cdn1.vip/i/69ef0fc713d8b_1777274823.webp)
    ![qwen 3.6]( https://img.cdn1.vip/i/69ef0fca7692e_1777274826.webp)
    3.6 进步挺大的
    sentinelK
        6
    sentinelK  
       Apr 27   ❤️ 1
    qwen3.6 35B A3B 的跑分还是挺好看的,智力和满血 DeepseekV3.2 不相上下,但 Agent 能力比 DeepseekV3.2 强很多。和我在 hermes agent 上的体感一致。

    从这个角度看,最近这一年,localLLM 的进步,比大模型大很多。
    我用家里的 8GVRAM ,64GBRAM 的老爷机用 llama.cpp 跑了一下 Q4 量化,驱动 hermes agent 的普通业务没什么问题,就是有点慢。在--on fit 配置下,大概是 20 多 token 每秒。

    等 M5 MAX 的 mac studio 上线,我也打算买一台。
    sentinelK
        7
    sentinelK  
       Apr 27
    主要是 localLLM 强大之后,Agent 玩法才真正的被盘活。
    隐私/便利的鱼熊悖论也就被打破了。
    zsj1029
        8
    zsj1029  
    OP
       Apr 27
    @sentinelK 是的,今年是 agent 大规模应用的元年
    wumoumou
        9
    wumoumou  
       Apr 27
    好厉害,能不能做成 API 卖钱
    mgsv2047
        10
    mgsv2047  
       Apr 27
    为啥我用 windows 的 lm studio 跑这个模型,又慢又蠢? 4090D + 32g 内存
    zsj1029
        11
    zsj1029  
    OP
       Apr 27
    @mgsv2047 我这是公司的 a100 ,设备不行吧,还得是专业卡,35b 的那个专家模型,能跑 120t/s
    evan1
        12
    evan1  
    PRO
       Apr 27
    a100……门槛还是太高了。
    zsj1029
        13
    zsj1029  
    OP
       Apr 27
    @evan1 我不知道啊,80g 的,咸鱼问的 5w 不到,2 块 5090 ?算力翻倍至少吧
    furlxy
        14
    furlxy  
       Apr 27
    为啥都在用钟表、天气来测试?
    zsj1029
        15
    zsj1029  
    OP
       Apr 27
    @furlxy 因为那个二叉树,很简单就过了,这个至少有点工作场景,写后端更没问题,比前端还快,毕竟不用调样式
    darrh00
        16
    darrh00  
       Apr 27
    vscode 上有没有好用的连接本地模型的插件?
    evan1
        17
    evan1  
    PRO
       Apr 27
    @zsj1029 #13 又学到了,咸鱼真厉害
    zsj1029
        18
    zsj1029  
    OP
       Apr 27 via iPhone
    @sentinelK mac 速度也慢,只能能加载大模型,显存带宽制约的,a100 。1.8t ,mac 只有 700g 好像
    zsj1029
        19
    zsj1029  
    OP
       Apr 27 via iPhone
    @darrh00 cline 最舒服,其实有很多,都可以下载试试
    sentinelK
        20
    sentinelK  
       Apr 27
    @mgsv2047 试试用 llama.cpp 来运行试试,上下文开 128K ,带-- fit on 参数
    zsj1029
        21
    zsj1029  
    OP
       Apr 27
    @sentinelK 就是 llamacpp 跑的,fiton ,显存不够,cpu 卸载,a100 可以全部加载到显卡的,不需要,其次开启 q4 kv-cache 量化后,能跑更多并发,更省显存
    kenpuluma
        22
    kenpuluma  
       Apr 27
    这个不算小模型了吧,活跃参数量比 qwen3-235b 都大~
    zsj1029
        23
    zsj1029  
    OP
       Apr 27 via iPhone
    @kenpuluma 确实,表达的意思就是,开源本地模型发展超预期,本地搭建不再是玩具。评测赶上了 opus 4.5
    listenerri
        24
    listenerri  
       Apr 27 via Android
    @darrh00 #16 vscode 上用 unify chat provider 插件接自定义模型体验不错
    peyppicp
        25
    peyppicp  
       Apr 27
    Trae 是怎么链接本地 LLM 的?我看免费版都不能指定本地模型了
    stefwoo
        26
    stefwoo  
       Apr 27
    Qwen3.6 A35B-A3B 4bit 在我的 3090 下运行也飞快啊
    kenpuluma
        27
    kenpuluma  
       Apr 27
    @zsj1029 今年年后是真的感觉国产开源模型一个比一个更好用了。
    zushi000
        28
    zushi000  
       Apr 27
    满血版吧
    sentinelK
        29
    sentinelK  
       Apr 27
    @stefwoo 这回的 27B 每次执行都是 27B 满参数,所以比 35B A3B 运行速度更慢,但是智商评分更高。
    cskeleton
        30
    cskeleton  
       Apr 27
    @sentinelK #6 Gemma4 和 Qwen3.6 明显把本地模型的水平抬高了一档。另外 Qwen3.6 整个系列感觉进步明显。
    xiaomushen
        31
    xiaomushen  
       Apr 27
    qwen3.6 大模型是拉了,没想到小模型这个给力。
    cskeleton
        32
    cskeleton  
       Apr 27
    @zsj1029 #13 那感觉不如 6 万+ 的 RTX Pro 6000 96G
    cskeleton
        33
    cskeleton  
       Apr 27
    @stefwoo #26 27B 是 dense ,比 35B-A3B 厉害
    zsj1029
        34
    zsj1029  
    OP
       Apr 27
    @peyppicp 搜一下,配置里面找到模型,类型 openai ,然后自定义模型就可以配置本地了,窗口操作,不需要什么 config 文件
    zsj1029
        35
    zsj1029  
    OP
       Apr 27
    @cskeleton 那确实是的,多卡的话 nvlink 不支持,单卡确实你说的没错
    jerseyhero
        36
    jerseyhero  
       Apr 27
    佬,试试 Gemma4 26B-A4B 效果如何呢
    zsj1029
        37
    zsj1029  
    OP
       Apr 27   ❤️ 1
    @jerseyhero 早些试过,工具调用标签自成一派,神经病一样,agent 兼容不了,后面发布 qwen3.6 27b ,看模型评测,完全吊打,不想碰了
    zcf2009
        38
    zcf2009  
       Apr 27
    这个可以直接文生图?
    zsj1029
        39
    zsj1029  
    OP
       Apr 27
    @zcf2009 多模态只有图片,视频输入识别,没有图片生成
    germain
        40
    germain  
       Apr 27 via iPhone   ❤️ 1
    @jerseyhero 很拉,本地炼丹最强的就是 qwen 几个中小模型了,DeepSeek 3.2 API 也不错,白菜价炼丹。
    cskeleton
        41
    cskeleton  
       Apr 27
    @zsj1029 #35 哦对,老卡有 nvlink
    zsj1029
        42
    zsj1029  
    OP
       Apr 27
    @germain 真的,现在的小模型不是玩具,花了两晚上,把 vue 的前端项目,40+的页面,用 svelte ,qwen3.6 完美重构
    cubecube
        43
    cubecube  
       Apr 27
    @cskeleton #30 因为 3.5 就是为了赶进度过年发。。哈哈
    germain
        44
    germain  
       Apr 27
    @zsj1029 一年前这种根本不敢想(太拉跨),现在已经是现实了。这种感觉就好像我这里标准泳池每年开池全部换新水不心疼,因为自来水不要钱一样😂
    xiaomushen
        45
    xiaomushen  
       Apr 28
    有些超乎想象得强
    ccc00
        46
    ccc00  
       Apr 28
    @zsj1029 这么厉害?
    goodryb
        47
    goodryb  
       Apr 28
    在 mac 上也跑过这个模型 Q4K_M 量化版,用 qwen CLI 搞个赛车游戏 ,速度比较慢,但是结果还是可以的,需求的理解基本上没有偏差
    zsj1029
        48
    zsj1029  
    OP
       Apr 28
    @goodryb 嗯我跑的也是量化,模型加 kv-cache 双量化,不然显存吃不住,输出也慢
    simo
        49
    simo  
       Apr 28
    前几天试过,效果挺好的,32G m4 mini ,35B 量化版,50t/s

    这几天在考虑 搞个 AI Max 385 主机试试,不到 2w ,看带宽有点低,不知道效果如何。专门跑本地模型用
    zsj1029
        50
    zsj1029  
    OP
       Apr 28
    @simo 带宽一定要高,2t 的话,130t/s 按比例换算就好了
    midraos
        51
    midraos  
       Apr 28
    @zsj1029 #11 应该没优化参数吧,我在 5080 上跑 35b-a3b 这个,显存只够加载一部分层,速度有 40t/s
    superhack
        52
    superhack  
       Apr 28
    5090 27B ,vllm 峰值 120 tok/s, 平均 85 tok/s 上下
    zsj1029
        53
    zsj1029  
    OP
       Apr 28
    @superhack 配置参数发来看看,单并发? fp8 量化,我单卡跑不起来,不会有 cpu 卸载吧
    Hermitist
        54
    Hermitist  
       Apr 29
    楼上各位有没有兴趣基于 vibe coding 帮我开发点程序? 主要是小型的进销存/单证/CRM 系统? 有意者可以加我 ID 微信, 也算可以给你们回点血.
    superhack
        55
    superhack  
       Apr 29
    @zsj1029

    ```
    services:
    vllm-qwen36-27b:
    image: vllm/vllm-openai:v0.20.0
    container_name: vllm-qwen36-27b
    restart: "unless-stopped"
    ports:
    - "8085:8000"
    volumes:
    - models/huggingface/qwen3.6-27b-autoround-int4:/model
    environment:
    - CUDA_VISIBLE_DEVICES=0
    - VLLM_WORKER_MULTIPROC_METHOD=spawn
    - PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
    shm_size: "16gb"
    deploy:
    resources:
    reservations:
    devices:
    - driver: nvidia
    count: all
    capabilities: [gpu]
    command:
    - --model
    - /model
    - --served-model-name
    - qwen3.6-27b
    - --quantization
    - auto-round
    - --dtype
    - float16
    - --gpu-memory-utilization
    - "0.92"
    - --max-model-len
    - "160000"
    - --kv-cache-dtype
    - fp8_e5m2
    - --max-num-seqs
    - "1"
    - --trust-remote-code
    - --reasoning-parser
    - qwen3
    - --enable-auto-tool-choice
    - --tool-call-parser
    - qwen3_xml
    - --enable-prefix-caching
    - --speculative-config
    - '{"method":"mtp","num_speculative_tokens":2}'
    - --host
    - "0.0.0.0"
    - --port
    - "8000"
    ```
    zsj1029
        56
    zsj1029  
    OP
       Apr 29 via iPhone
    @superhack 谢谢,回头试试,这个模型看起来似乎有说头,不会是投机推理吧
    superhack
        57
    superhack  
       Apr 29
    @zsj1029 是投机推理
    nasmatic
        58
    nasmatic  
       Apr 30
    我拿了两张 H20 141G 跑这个,是不是有点奢侈了😂
    zsj1029
        59
    zsj1029  
    OP
       Apr 30 via iPhone
    @nasmatic 太奢侈了,跑并发,30 人
    nasmatic
        60
    nasmatic  
       Apr 30
    我尝试了上面哥们发的投机推理的配置,py3.13 ,直接报错,又回退了,好像是两张卡通信有 bug ,互相询问不到对方剩的 vram
    zsj1029
        61
    zsj1029  
    OP
       21 days ago
    @nasmatic 刚试了可以的,速度提升三倍了,多卡不知道是不是需要 nvlink ,我是单卡没问题的
    zsj1029
        62
    zsj1029  
    OP
       21 days ago
    vllm serve \
    /models/qwen3.6-27b-int4-autoround \
    --max-model-len 131072 \
    --kv-cache-dtype fp8_e5m2 \
    --reasoning-parser qwen3 \
    --max-num-seqs 3 \
    --served-model-name Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
    --quantization auto-round \
    --enable-auto-tool-choice \
    --max-num-batched-tokens 8192 \
    --tool-call-parser qwen3_xml \
    --enable-prefix-caching \
    --trust-remote-code \
    --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
    --tool-call-parser qwen3_coder \
    --gpu-memory-utilization 0.88 \
    --dtype half \
    --host 0.0.0.0 \
    --port 8011
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1121 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 83ms · UTC 18:04 · PVG 02:04 · LAX 11:04 · JFK 14:04
    ♥ Do have faith in what you're doing.