MacOS 上搭建了本地的 Gemma4，如何与它协作最高效？

节点赞助商

This topic created in 43 days ago, the information mentioned may be changed or developed.

各位是如何做的？是使用什么对话窗口或是命令行、或者第三方工具？ ClaudeCode / Cursor ？平时我都用 Cursor 。（因为 ClaudeCode 屏蔽比较猛烈）所以本地的如何高效协作还希望参考下大家的优雅作风。

Gemma4

协作

高效

31 replies • 2026-04-11 19:31:57 +08:00

Brightt

Apr 10

搞的多少 B 的模型？

viskem

Apr 10

@Brightt Gemma4 26B

kizunai

Apr 10

没有用，就 M 芯片那个 prefill 速度，也就短点的对话还行，放弃辅助编程吧，别占用硬盘空间了

Hilong

Apr 10

楼上+1 基本长一点的上下文就卡住动不了了。搞搞小的对话还行，写代码还是算了吧

penisulaS

Apr 10

本地模型笨笨的,有什么需要超大量上下文但不需要高智能的场景吗

diudiuu

Apr 10

还是笨笨的。你可以使用 vscode ClaudeCode 插件，配置本地模型

dacapoday

Apr 10

非常适合做总结和提供索引,为更高级的模型提供服务,方便其更好的索引文档(业务总结的文字往往更精辟和专业,全文搜索更容易找到,然后 ai 再根据总结中包含的文件路径找到对应的文件).相当于一个简易的知识图谱,而且在不断丰富语义描述.

dacapoday

Apr 10

我也在折腾 gemma4, 感觉 V2EX 的人年龄偏大,比较迟钝. 看不懂 ai 的能力. 现在 local llm 的潜力巨大.

viskem

Apr 10

@dacapoday 我再让它慢慢爬我的项目，并接入到企微 Bot 上，但愿能协助到同事们。

tcper

Apr 10

26B 模型至少需要 24G VRAM 等同显卡
macbook/mini 48G 内存版或以上（操作系统，浏览器也得吃一大半内存）
以本人对 V 站的了解，大部分人没这个经济实力

darksword21

PRO

Apr 10

我还在尝试用 mlx 跑 E2B 的（ 16G air ）。。。

感觉也就一次性做个翻译之类的工作，

hash

Apr 10

放弃尝试本地模型这种浪费时间的行为最高效

kirbyzhu

Apr 10 via iPhone

个人感觉用处不大

emberzhang

Apr 10

卵用没有的。26b a4b 这种玩意给龙虾调用 tool ，一调一个不吱声全是失败

之前大内存 mac 是 70b 、122b 给 cherry studio 聊什么计算 24 点自己骗自己

现在大内存 mac 是 26b 、35b 扔给龙虾心跳，7x24 小时龙虾屁事没干，人眼看着 omlx token 生成量继续骗自己

chenzhihuiiiii

Apr 10

@viskem #9 请问具体的应用场景是什么？

viskem

Apr 10

@chenzhihuiiiii 就是想让他慢慢熟悉项目和搜罗信息，帮我调整一些项目管理系统的信息，和大家简单推点通知啥的，简单问答一些项目上的信息。（我已经逐步认清现实……）

haohaozaici

Apr 10

没有显卡，9950x 本地跑 Gemma4 e4b ，只有 30 token/s ，没法写代码，简单问问题还行

zoozobib

Apr 10

已经用 gemma4 31b q4 量化的版本重构了半个 app 了，现在主力用它，opencode + openclaw + hermes ，接入了几个必用的 mcp ，如 word amap chrome opencli 等等，反正目前写文档、旅游计划、写代码主用这个模型。双显卡上下文 35-58 所有的 token ，目前从涉及到的所有项目上看，很能打； moe 没试过

zoozobib

Apr 10

不过我最高开 200K 的上下文，到 120K 以上的上下文 token 速度有所下降

viskem

Apr 10

@zoozobib 诶？ 31B 比 27B 这个强很多吗？晚上回去更新掉。

zoozobib

Apr 10

@viskem 没试过 27B 的 gemma4 , btw 有人觉得 qwen3.5 27b 很猛，我之前也用过一段时间，不过它性能一般且废话太多；另外，moe 和 dense 在复杂任务下还是有明显区别的，moe 我之前玩下来还是可以的，不过上下文别太大，主打一个性能绝佳，跑跑 agent 任务还可以，开 reasoning 的情况下.

viskem

Apr 10

@zoozobib 不知道我 MacMini M4 64GB 内存能否用得起

zoozobib

Apr 10

@viskem 配置不错，可以关注下 mlx + turboquant 的方案，现在玩家不少了

viskem

Apr 10

@zoozobib （头裂）刚交代了升级，又来了新知识~ orz……哈哈

kevan

Apr 10

昨天 5070ti+32GB 跑 26B 真的吃力。

Meteora626

Apr 10

别浪费自己时间跑这种小模型当大模型用。

Teresa789

Apr 10

前两天我同事给我安利，然后昨天我试了下，只能说体验极差，不知道网上说用 mac 跑这个 Gemma4 的是不是受了库克的钱🐶，随便问个简单的问题，都上几百秒的。想 vibicoding 算了吧
本人设备：mac studio m4 64GB

nidhogger

Apr 11 via Android

@zoozobib 老哥能分享一下用的什么硬件配置吗？想复刻试试

zoozobib

Apr 11

@nidhogger 32g + x570e + [4080s(或 3090 nvlink) + 3090] + c2000 2t ; 如果双显卡是 nvlink ，性能会比我当前还好，我现在是跑 pcie

zoozobib

Apr 11

@nidhogger pcie 35-38 左右的 token , --model ./google_gemma-4-31B-it-Q4_K_L.gguf --mmproj ./mmproj-gemma-4-31B.f16.gguf -ngl 99 --tensor-split 14,26 --ctx-size 204800 --flash-attn on --cache-type-k q8_0 --cache-type-v q8_0 --cache-ram 0 -np 1

nidhogger

Apr 11 via iPhone

@zoozobib 好吧，差显卡