V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Livid
267.12D
574D
V2EX  ›  Local LLM

用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了

  •  
  •   Livid ·
    PRO
    · 1 day ago · 4015 views
    14 replies    2026-04-29 11:29:45 +08:00
    Livid
        1
    Livid  
    MOD
    OP
    PRO
       1 day ago
    洗车测试也过了,不过从思考过程来看是它知道这是一道 typical 测试题:

    sddyzm
        2
    sddyzm  
    PRO
       1 day ago
    Tink
        3
    Tink  
    PRO
       1 day ago
    是啥硬件跑的呢
    Livid
        4
    Livid  
    MOD
    OP
    PRO
       1 day ago
    @Tink M4 128G
    ares001
        5
    ares001  
    PRO
       1 day ago
    实际运行起来占用多少显存?
    Hermitist
        6
    Hermitist  
       1 day ago
    sentinelK
        7
    sentinelK  
       1 day ago
    相较而言,个人体感还是 Qwen3.6 35B A3B 在 localLLM 上跑的更顺一点,benchmark 评分也是和 v4 flash 互有胜负
    Tathagatagarbha
        8
    Tathagatagarbha  
       21h 42m ago
    向大佬学习
    unnyxi
        9
    unnyxi  
       11h 23m ago
    @sentinelK 如果 Qwen3.6 35B A3B 和 v4 flash 互有胜负,Qwen 3.6 27B 岂不是碾压 v4 flash 了...
    elepant
        10
    elepant  
       8h 47m ago
    跑起来 和 好用,真的是两码事。M4 本地跑 LLM ,响应是真的是慢。。。
    sentinelK
        11
    sentinelK  
       8h 27m ago
    @unnyxi 如果是默认的思考长度的话,是的,但是 27B 目前还打不过 flash 的 max 思考长度
    PeterTanJJ
        12
    PeterTanJJ  
       8h 16m ago
    Qwen3.6 35B A3B 速度很快,有试过没?

    这个 flah 感觉不如 minimax
    xuhengjs
        13
    xuhengjs  
       7h 5m ago
    期待 qwen3.6-36B-A3B 的终极优化方案
    PeterTanJJ
        14
    PeterTanJJ  
       6h 49m ago
    @unnyxi 27B 的输出速度不行
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3967 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 10:19 · PVG 18:19 · LAX 03:19 · JFK 06:19
    ♥ Do have faith in what you're doing.