V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Livid
268.79D
569.24D
V2EX  ›  OpenClaw

使用本地模型 Gemma4 来驱动 OpenClaw

  •  
  •   Livid ·
    PRO
    · Apr 4 · 5891 views

    替换下面指令中的 model ID 为你本地 Ollama 里启动的版本。

    openclaw onboard --non-interactive \
      --auth-choice custom-api-key \
      --custom-base-url "http://127.0.0.1:11434/v1" \
      --custom-model-id "gemma4:31b-it-q4_K_M" \
      --custom-api-key "ollama" \
      --secret-input-mode plaintext \
      --custom-compatibility openai \
      --accept-risk
    
    28 replies    2026-04-09 10:30:25 +08:00
    0U0
        1
    0U0  
       Apr 4
    需要什么配置才能跑得动
    Livid
        2
    Livid  
    MOD
    OP
    PRO
       Apr 4
    @0U0 这里有不同版本,应该总有一个是本地能跑起来的:

    https://ollama.com/library/gemma4/tags
    Visoar
        3
    Visoar  
    PRO
       Apr 4
    Google 搞了个 `Google Al Edge Gallery`,在 iPhone 上直接跑起 e2b/e4b 版本 Gemma4 ...
    试了 e2b 速度很好很顺畅,能力也不错.

    看起来今年端侧小模型要开始卷了

    pkuphy
        4
    pkuphy  
    PRO
       Apr 4 via iPhone
    这个模型真的好用
    senooo
        5
    senooo  
       Apr 4
    手机上的 e2b 2G PC 端的 e2b 7G
    CatCode
        6
    CatCode  
       Apr 4
    @Visoar iPhone 13 提示内存不足。iPad 倒是跑起来了,就是 UI 比较蛋疼。
    v2gba
        7
    v2gba  
       Apr 4
    站长这个得 30+的内存才能跑了吧?
    zivn
        8
    zivn  
       Apr 4
    32G M3 Pro 不论用 mlx 还是 ollama 跑 31b 基本没法用。
    聊天可以,openclaw 直接卡死。
    虽说理论上只要 20G 内存,但 openclaw 上下文太长了,预填充要几分钟甚至十几分钟。
    26b 是 MOE 就没试了,感觉还是 Dense 才有前途。
    zivn
        9
    zivn  
       Apr 4
    mlx 版本在 huggingface 上,mlx-community/gemma-4-31b-it-nvfp4 ,需要用 mlx-vlm 运行。
    huanxianghao
        10
    huanxianghao  
       Apr 4
    很棒。
    在 windows 上面跑了,4070s 跑 26b ,感觉思考时间有点长
    paranoiagu
        11
    paranoiagu  
       Apr 4 via Android
    龙虾的上下文太长了,我 24G 显卡,跑 27B 的 qwen3.5 ,开了 64K 上下文,再大就爆显存了。但是 64K 龙虾不够。
    chipipi
        12
    chipipi  
       Apr 4 via Android
    目前什么设备能跑得动?
    dinjufen
        13
    dinjufen  
       Apr 4
    16G 内存的 mac mini m4 能跑动吗
    zoozobib
        14
    zoozobib  
       Apr 4
    测试 qwen3.5-27b q4 和 gemma4-31b q4 。200K ctx 同样的代码问题,后者一把过,测试用例还是少
    zoozobib
        15
    zoozobib  
       Apr 4
    但前者能跑到 38 /t 后 只能到 33/t
    levn
        16
    levn  
       Apr 4
    27b q4 使用 32G 显存,就可以开 200k 上下文
    31b q4 使用 64G 显存,kv q8 量化都开不到 100k 上下文
    crocoBaby
        17
    crocoBaby  
       Apr 4
    能用度如何?
    learnshare
        18
    learnshare  
       Apr 4
    16G M2 Mac mini 勉强能跑起来低配两个版本,但仅能跑起来,没啥可用性
    以后得买 64G 版本玩一玩了
    sickoo
        19
    sickoo  
       Apr 4
    @dinjufen 跑 mlc 吧
    zoozobib
        20
    zoozobib  
       Apr 4
    新测,加了 2b 的 draft , 提升到 45/t ;Draft 接受率 不错,5 成
    fs418082760
        21
    fs418082760  
       Apr 4
    据说不如 qwen3.5
    hanguofu
        22
    hanguofu  
       Apr 5
    值得期待 ~
    cskeleton
        23
    cskeleton  
       Apr 5 via iPhone
    @zivn 跑 dense 长上下文估计得 128G 才能畅玩
    c0xt30a
        24
    c0xt30a  
       Apr 5
    我用微调版 Qwen3.5 的经验是:只要虾虾不试图修改代码错误,运行还算顺利。技能运行不成功修改代码的时候,有很大的几率把自己搞瘫痪。
    Livid
        25
    Livid  
    MOD
    OP
    PRO
       Apr 5   ❤️ 1
    @crocoBaby 我还在测试,目前是用来替代了一个之前使用 Opus 4.6 的环境(因为之前的第三方 Claude API 服务商挂了,你知道的那家)。

    Gemma4 有两个相对较大的版本,31b 和 26b ,26b 目前试下来会快很多。
    Livid
        26
    Livid  
    MOD
    OP
    PRO
       Apr 5   ❤️ 1
    @crocoBaby 在 Planet 里集成的效果,感觉已经能做一些有意义的分析和对话了:

    ijimmy
        27
    ijimmy  
       Apr 5 via iPhone
    @fs418082760 qwen 3.5 得先解决空格的问题……
    maoyufeng1985
        28
    maoyufeng1985  
       Apr 9
    本地模型只会浪费时间.
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   758 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 76ms · UTC 21:02 · PVG 05:02 · LAX 14:02 · JFK 17:02
    ♥ Do have faith in what you're doing.