V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
unt
V2EX  ›  程序员

Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了

  •  
  •   unt · 6 小时 18 分钟前 · 680 次点击
    10 条回复    2026-04-04 02:37:43 +08:00
    philobscur
        1
    philobscur  
       5 小时 8 分钟前
    各项评分也就和 qwen3.5 27b 不相上下的水平,已经在等 qwen3.6 了
    tomchen
        2
    tomchen  
       4 小时 54 分钟前
    写码离 kimi 、glm 等开源最好的还差一截吧?( Qwen Coder 似乎也差一截)
    unt
        3
    unt  
    OP
       4 小时 51 分钟前 via iPhone
    @tomchen 一般用它不会用来写代码吧
    tomchen
        4
    tomchen  
       4 小时 42 分钟前
    @unt 哦不清楚。。不过我再看一眼 Gemma 4 的介绍 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ 他其实主打的是执行任务、tool calling ,那和 code 也算是一类东西吧,https://arena.ai/leaderboard/code Arena 测试就把他们作为一类
    coefu
        5
    coefu  
       4 小时 41 分钟前
    非常强悍,g 厂出手,都是弟弟。

    31B ,要真正跑起 256k 的 context ,Q8 起码要 64G 显存。

    对于一般 web 代码来说,体现不出来它的上限。当然,一般人也用不到它的上限。

    现在打榜的 benchmark ,都是对标 博士级别的水平,只有你的 case 是真正的挑战,才知道和别的差距。
    coefu
        6
    coefu  
       4 小时 39 分钟前
    @philobscur qwen3.5 就是阿里开源的最后绝唱了,你还等什么 3.6 咯,事情都搞不明白。
    coefu
        7
    coefu  
       4 小时 34 分钟前
    @unt 当前开源里,普罗大众能用到的最强悍模型了。2* 2080ti 22g ,不到 4k 的成本,跑 31B Q8 ,估计能有个 10 Token/s 的速度,凑合能用。
    coefu
        8
    coefu  
       4 小时 30 分钟前
    @unt 我觉得,和 gemini 来比,gemini 现在搞的这种情绪价值提供,反而让人不客观了。今天,试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关,反而更理性客观,没有 gemini 的夸夸味。
    wwhc
        9
    wwhc  
       4 小时 0 分钟前
    差一点就能赶上 Qwen3.5 了
    philobscur
        10
    philobscur  
       3 小时 42 分钟前
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   885 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 22:20 · PVG 06:20 · LAX 15:20 · JFK 18:20
    ♥ Do have faith in what you're doing.