zoozobib

zoozobib

V2EX 第 86628 号会员,加入于 2014-12-14 16:10:35 +08:00
今日活跃度排名 9818
zoozobib 最近回复了
@nidhogger pcie 35-38 左右的 token , --model ./google_gemma-4-31B-it-Q4_K_L.gguf --mmproj ./mmproj-gemma-4-31B.f16.gguf -ngl 99 --tensor-split 14,26 --ctx-size 204800 --flash-attn on --cache-type-k q8_0 --cache-type-v q8_0 --cache-ram 0 -np 1
@nidhogger 32g + x570e + [4080s(或 3090 nvlink) + 3090] + c2000 2t ; 如果双显卡是 nvlink ,性能会比我当前还好,我现在是跑 pcie
@viskem 配置不错,可以关注下 mlx + turboquant 的方案,现在玩家不少了
@viskem 没试过 27B 的 gemma4 , btw 有人觉得 qwen3.5 27b 很猛,我之前也用过一段时间,不过它性能一般且废话太多;另外,moe 和 dense 在复杂任务下还是有明显区别的,moe 我之前玩下来 还是可以的,不过上下文别太大,主打一个性能绝佳,跑跑 agent 任务还可以,开 reasoning 的情况下.
不过我最高开 200K 的上下文,到 120K 以上的上下文 token 速度有所下降
已经用 gemma4 31b q4 量化的版本重构了半个 app 了,现在主力用它,opencode + openclaw + hermes ,接入了几个必用的 mcp ,如 word amap chrome opencli 等等,反正目前写文档、旅游计划、写代码主用这个模型。双显卡 上下文 35-58 所有的 token ,目前从涉及到的所有项目上看,很能打; moe 没试过
18 天前
回复了 Livid 创建的主题 OpenClaw 使用本地模型 Gemma4 来驱动 OpenClaw
新测,加了 2b 的 draft , 提升到 45/t ;Draft 接受率 不错,5 成
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4910 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 03:56 · PVG 11:56 · LAX 20:56 · JFK 23:56
♥ Do have faith in what you're doing.