Gemma4 12B 如何跑在 16G 显存上？

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。
https://huggingface.co/google/gemma-4-12B-it/tree/main
https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

这是怎么做到能在 16G 显存上跑的？
还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

量化

显存

模型

23 replies • 2026-06-06 03:02:20 +08:00

Seanfuck

18h 56m ago

一般是量化了；还有就是 GPU 卸载，显存只加载一部分权重。

chenY520

18h 22m ago

量化版的

JerningChan

18h 21m ago

12b 的参数够看吗？我感觉怎么也得 27b 起步的才好用吧？

sharpy

18h 15m ago

q4 量化

sagnitude

18h 12m ago

这种小卡跑模型都是跑个 Q4 玩玩的，别说 16 了，Q8 都没法玩。

kennylam777

18h 9m ago

Gemma4 12B Q4 GGUF 我測過是能跑得動 Github Copilot 的 tool use, 32GB 的 laptop 勉強能跑還有 ctx 65536, 小模型用輕量的 agent 例如 pi.dev 效果會更好

FP8 就留給 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也許還可以?

Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都強很多, 但 LLM 愈大愈強是必然的, 我用 5090 Desktop 還是在用 Qwen 3.6 35B A3B NVFP4 才算滿意, KV 都不敢壓

cin

18h 4m ago

Q4 量化不到 8G, 直接用 ollama
`ollama run gemma4:12b`

BingoXuan

17h 59m ago

gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本，加了 MTP 加速后，质量并没有损失太多。可惜 MTP 没有视觉，不然加上 web search ，几乎可以和 deepseek4 pro 一拼

jhytxy

17h 52m ago

q4 的不行,跟原版比智商差不少
q6_K_XL 凑合
q8 差不多原版.最少上 q6

nutting

16h 49m ago

16G 显存，什么模型和方式可以没问题运行 cc 的？光输出文字都很轻松，调用 tools 就不行了

4641585

14h 39m ago

LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了，硬件是
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)

4641585

14h 39m ago

@4641585
处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)