CatCode
V2EX  ›  Local LLM

Gemma4 12B 如何跑在 16G 显存上?

  •  
  •   CatCode · 19h 3m ago · 2706 views

    Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
    https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

    看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
    https://huggingface.co/google/gemma-4-12B-it/tree/main
    https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

    Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

    这是怎么做到能在 16G 显存上跑的?
    还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

    23 replies    2026-06-06 03:02:20 +08:00
    Seanfuck
        1
    Seanfuck  
       18h 56m ago
    一般是量化了;还有就是 GPU 卸载,显存只加载一部分权重。
    chenY520
        2
    chenY520  
       18h 22m ago
    量化版的
    JerningChan
        3
    JerningChan  
       18h 21m ago
    12b 的参数够看吗?我感觉怎么也得 27b 起步的才好用吧?
    sharpy
        4
    sharpy  
       18h 15m ago
    q4 量化
    sagnitude
        5
    sagnitude  
       18h 12m ago
    这种小卡跑模型都是跑个 Q4 玩玩的,别说 16 了,Q8 都没法玩。
    kennylam777
        6
    kennylam777  
       18h 9m ago
    Gemma4 12B Q4 GGUF 我測過是能跑得動 Github Copilot 的 tool use, 32GB 的 laptop 勉強能跑還有 ctx 65536, 小模型用輕量的 agent 例如 pi.dev 效果會更好

    FP8 就留給 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也許還可以?

    Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都強很多, 但 LLM 愈大愈強是必然的, 我用 5090 Desktop 還是在用 Qwen 3.6 35B A3B NVFP4 才算滿意, KV 都不敢壓
    cin
        7
    cin  
       18h 4m ago
    Q4 量化不到 8G, 直接用 ollama
    `ollama run gemma4:12b`
    BingoXuan
        8
    BingoXuan  
       17h 59m ago
    gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本,加了 MTP 加速后,质量并没有损失太多。可惜 MTP 没有视觉,不然加上 web search ,几乎可以和 deepseek4 pro 一拼
    jhytxy
        9
    jhytxy  
       17h 52m ago
    q4 的不行,跟原版比智商差不少
    q6_K_XL 凑合
    q8 差不多原版.最少上 q6
    nutting
        10
    nutting  
       16h 49m ago
    16G 显存,什么模型和方式可以没问题运行 cc 的?光输出文字都很轻松,调用 tools 就不行了
    4641585
        11
    4641585  
       14h 39m ago
    LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了,硬件是
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    4641585
        12
    4641585  
       14h 39m ago
    @4641585
    处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    summerLast
        13
    summerLast  
       14h 33m ago
    Q4 量化后模型尺寸 6-7GB , 并非是 float16 的 12*2 的 24GB
    CatCode
        14
    CatCode  
    OP
       13h 40m ago
    @4641585 lmstudio-community/gemma-4-12B-it-GGUF 这个我看了 最大的是 8bit 量化的
    coefu
        15
    coefu  
       10h 58m ago   ❤️ 1
    这个 12B 昨天刚出,我就测了,16G 太尴尬了,context 完全跑不起来。起码要 32G ,多出来的 20G 跑 context 。
    Livid
        16
    Livid  
    MOD
    PRO
       10h 26m ago
    Chicagoake
        17
    Chicagoake  
       9h 59m ago
    @JerningChan 不够,很笨的。
    oldlamp
        18
    oldlamp  
       7h 49m ago
    @coefu 确实如此,更大的显存容量用于上下文,能带来显著的 long horizon 场景的提升
    unclemcz
        19
    unclemcz  
       6h 28m ago via Android
    我通过 ollama 安装了 12b 和 e4b ,12b 占用 6g 显存左右,e4b 差不多只有 4g 不到的样子,e4b 的速度明显快很多。显卡是 4070laptop(8g)。
    yuping913
        20
    yuping913  
       5h 40m ago
    @BingoXuan 链接 mmproj 就有视觉,MTP 的也可以,你可以问问 AI 怎么加,很简单的。
    BingoXuan
        21
    BingoXuan  
       3h 36m ago
    @yuping913
    unsloth 的 mtp 量化提示暂不支持 mmproj ,周末有空研究一下
    kassadin
        22
    kassadin  
       1h 45m ago
    m1,占用 10g 内存, q4,14tok/s
    GeorgeV
        23
    GeorgeV  
       46 mins ago
    "Quantization-Aware Training (QAT) makes it possible to run Gemma 4 26B-A4B on 16GB RAM."

    https://unsloth.ai/docs/models/gemma-4/qat
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   922 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 19:48 · PVG 03:48 · LAX 12:48 · JFK 15:48
    ♥ Do have faith in what you're doing.