Gemma 4 31B 大概什么水平，本地部署是不是又成为现实了

gemma

部署

47 replies • 2026-04-17 17:46:45 +08:00

1

philobscur

Apr 4

各项评分也就和 qwen3.5 27b 不相上下的水平，已经在等 qwen3.6 了

2

tomchen

Apr 4

写码离 kimi 、glm 等开源最好的还差一截吧？（ Qwen Coder 似乎也差一截）

3

unt

OP

Apr 4 via iPhone

@tomchen 一般用它不会用来写代码吧

4

tomchen

Apr 4

@unt 哦不清楚。。不过我再看一眼 Gemma 4 的介绍 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ 他其实主打的是执行任务、tool calling ，那和 code 也算是一类东西吧，https://arena.ai/leaderboard/code Arena 测试就把他们作为一类

5

coefu

Apr 4

非常强悍，g 厂出手，都是弟弟。

31B ，要真正跑起 256k 的 context ，Q8 起码要 64G 显存。

对于一般 web 代码来说，体现不出来它的上限。当然，一般人也用不到它的上限。

现在打榜的 benchmark ，都是对标博士级别的水平，只有你的 case 是真正的挑战，才知道和别的差距。

6

coefu

Apr 4

3

@philobscur qwen3.5 就是阿里开源的最后绝唱了，你还等什么 3.6 咯，事情都搞不明白。

7

coefu

Apr 4

@unt 当前开源里，普罗大众能用到的最强悍模型了。2* 2080ti 22g ，不到 4k 的成本，跑 31B Q8 ，估计能有个 10 Token/s 的速度，凑合能用。

8

coefu

Apr 4

@unt 我觉得，和 gemini 来比，gemini 现在搞的这种情绪价值提供，反而让人不客观了。今天，试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关，反而更理性客观，没有 gemini 的夸夸味。

9

wwhc

Apr 4

差一点就能赶上 Qwen3.5 了

10

philobscur

Apr 4

1

@coefu https://x.com/ChujieZheng/status/2039909486153089250?s=20 do me a favor

11

MuyuQ

Apr 4

2

@coefu 这个模型真是奇怪。感觉好的人吹上天。感觉一般的人反应平淡。但是像你这么激动的我还是第一次见。。。。单纯是描述我看到的哈。

12

MuyuQ

Apr 4

1

目前看到的评测，大概是 qwen3.5 左右的水准。
https://www.reddit.com/r/LocalLLaMA/comments/1saoyj7/gemma_4_and_qwen35_on_shared_benchmarks/
可以期待一下即将发布的 qwen3.6

13

stefwoo

Apr 4

用 3090 试了试 gemma 4 31B 4bit ，model 16g 左右，但在 32k 时已经占满了 24g 内存，我觉得模型有问题，论坛也有人反应显存爆炸。生成速度也很慢，远低于 qwen3.5 27B 。

14

nightlight9

Apr 4

反而觉得本地部署越来越遥远了，minimax 、glm 、kimi 虽然开源，都是千亿模型，本地部署没戏

而且趋势是从开源走向闭源。比如说 qwen 最新模型都是闭源的。

15

workbest

Apr 4

https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

我等这个上了 ollama 来试一下，完整的 31b 跑不起来

16

diudiuu

Apr 4

ollama 咋都是这个部署,这个软件能测个啥

17

coefu

Apr 4

2

@MuyuQ #11 因为从 2024 年春天开始，这两年来我几乎每个开源模型的中小尺寸都尝试过。

我主要集中在神经网络底层前沿技术的探索能力。Transformer 的变种实验，SNN 脉冲神经网络的变种实验，DRL 里自定义网络实验。我提供 idea ，模型给代码，我跑结果，模型 debug ，这个 loop 。在线的官方模型和本地部署的中小尺寸，比照能力。

有一讲一，我去年夏天用 qwen 在线的模型，一起 debug DRL ，几度把我带到了坑里。

后面换 chatgpt ，效果好一点，但是胡说八道依然存在，给出的论文索引大部分都是假的。

后面用 gemini ，就在上上周，我用 gemini ，再不知情的情况下，我们（我提供 idea ，gemini 负责代码实现）从 0 复现了 snn 里程碑的论文（ https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2015.00099/full ）。就这感觉，qwen/chatgpt 从来没有给我带来过。在 qwen3.5 开源的同时，我就本地用了一个下午，强确实强，但那是 gemma4 没开源的时候。昨天我用了 gemma4 一下午，对比在线 gemini ，同样的问题，几乎能给出 90%相似度的解决方案。你说，我激不激动？ gemini 的能力，我是深度认可的，因为在一些还没有结论的问题上，确实能辅助一起探索，关键是几乎不胡说八道。

最后，如果只是一些 web 前后端代码 coding ，讲真，那只是很中规中矩的使用，感受不到上限的提升。

18

coefu

Apr 4

@philobscur #10 不要看说什么，等放出来了再来打我脸，ok ？真放出来，确实强，那是我这次错了。

19

MuyuQ

Apr 4

@coefu 原来如此。你试过最新的 claude 和 ChatGPT 5.4 么。如果是做研究的话，这些轻量级的开源模型还是差太多了。至于 gemini 几乎不胡说八道。这个有点难绷。Gemini 最近在编程方面的指令遵从都变得抽象了，探索性的工作的幻觉肯定不会小吧。。。不要太相信某个模型，如果要相信，还是相信最强的那个吧。

20

philobscur

Apr 4

@MuyuQ 看到他说 gemini 不会胡说八道，我是真没绷住

21

MuyuQ

Apr 4

@philobscur 角度不同。对于编码这种需要严格遵从指令的工作，肯定不想 Gemini 自由发挥。但 Gemini 在搜索和探索方面确实蛮强的。

22

xing7673

Apr 4

@coefu 等 3.6 小模型开源打你脸，别在这里传谣了

23

lambdaX999

Apr 4

弱弱的问一句，能比的了 gpt-oss 120b 还有 qwen3.5 122b 吗，手头啥模型都玩过了，现在基本就用这两个

24

davidqw

Apr 4

目前用 26B 感觉挺猛的，256K 上下文占用 39G 内存，连接 MCP 分析本地数据库效果不错

25

diudiuu

Apr 4

@lambdaX999 可以玩下 minmax2.5 你这个都玩过 gptoss120b, 109g 那个.我现在那台机子上装的这个模型,只跑了一个模型,最近再看这个

我现在用 mac m4 32g 尝试跑了一下这个 26b a4b,每秒大概 25 个 token
等一手 mlx 版本的,再看看风评,最后再看换不换模型

26

diudiuu

Apr 4

@coefu 等老哥你发帖子评价一下这个

27

mewking

Apr 4

@davidqw 请问几位量化，硬件？速度如何？

28

Rorysky

Apr 4

@coefu glm5 也是开源的，怎么就成普通人最强模型呢？

29

mewking

Apr 4

@Rorysky 首先，如何定义普通人？

开放权重模型最大优点是能本地部署，有能力部署 glm5 是普通人吗？

这个论坛有能力部署 31B dense 8 位量化的不知道占比多少

30

ming7435

Apr 4

为啥 Qwen 跑分很牛逼,但是实际拿来 coding 却是一坨?

31

osilinka

Apr 4

Google 的 turboquant 版本不是压缩的很小吗？
有人试过这种版面没有？

32

davidqw

Apr 4

@mewking Q4 K_M, m1 64G 内存

33

coefu

Apr 5

@xing7673 阿里都要闭源卖 api 了，还指望开源能替代它自己 api 的东西？都成立了 Token 顶级组织，明摆着要让你们围绕各种 app 消费 tokens ，真是井底之蛙，夏虫语冰。

34

coefu

Apr 5

@philobscur #20 你什么技术底色，符合我对你的认知定位。但凡你懂点 web 之外的东西，算我对你高看一眼。

35

laikicka

Apr 5

@ming7435 老中模型都这样跑分一个比一个厉害. 实际上体验差的几条街..

36

mewking

Apr 5

@coefu 嘴上说日后会继续开源，行动上开掉了了林，点外卖，话费红包……不同区的 app 回答质量天地之别，怎么看怎么 low

37

xing7673

Apr 5

@coefu 本来就没指望开源替代它 api ，只要小模型能开源就行，当然你是肯定没办法再用回去的，怨气太重了。各家模型的优劣势我还是大致心里有数的

38

linncharm9

Apr 5

不想折腾部署的话可以直接在线体验 https://gemma4.app/zh

39

comefromweb

Apr 7

@davidqw #32 31b Q4 吗? 内存占用多少? 我一开始下的 Q8, 占用到 90 多 G 了, 现在用的 26b Q8, 内存占用 44G, 40token/s 左右

40

hanzhu2026

Apr 7

@lambdaX999 那你这台机器配置得多大啊

41

HowardChan

Apr 7

实测 gemma-4-31B-it 放 Claude code 里一坨，感觉这个模型注重的是多模态，图像/音视频理解，而不是编码能力。

42

bigtwo

Apr 7

资本时代，开源版永远不可能跟收费闭源版比，不过能满足大部分人的大部分需求也算可以了，专业问题还得靠收费版处理

43

chenjunqiang

Apr 8

@linncharm9 你好，我想问问，你这个部署的是 BF16 的吗？量化是多少，我看给他输出的方案，我扔到 claude 也找不出多少问题

44

chenjunqiang

Apr 8

@linncharm9 我选择的是 26B 这个

45

xing7673

Apr 16

qwen3.6 小模型开源，楼里某个怨气重的又要重新写一版小作文了

46

coefu

Apr 17

@coefu #6 all, qwen3.6 35B A3B 开源了，打榜分数确实更强，我打我自己的脸。

47

xue777hua

Apr 17

@coefu 看实测。