有人用 mbp M5 PRO48GB 跑个本地模型+云端模型（混合）写代码吗？

This topic created in 71 days ago, the information mentioned may be changed or developed.

比如通过路由分发，简单任务给本地 Qwen 30B MoE ，复杂问题给云端 opus4.6/gpt5.3.等，这种场景实际效果如何呢？

听说 M5 PRO 这次本地跑大模型没有之前那么慢，如果是真的，这种混合架构靠谱吗，还是纯想多了？

混合

本地

模型

15 replies • 2026-03-16 09:57:49 +08:00

niubilewodev

Mar 14 via iPhone

想多了。
本地跑太慢了。

vcmt

Mar 14 via Android

这样给你说吧，我朋友买了一台十几万的机器跑，结果还是觉得慢。

YUX

PRO

Mar 14

完全可以我用的就是 https://ohmyopenagent.com/ Sisyphus 用 anthropic/claude-opus-4-6 max ，Oracle 用 openai/gpt-5.4 xhigh, Hephaestus kimi-for-coding/k2p5, 其余默认用本地的 qwen3.5 35b

beginor

Mar 14 via Android

本地跑 zeta 做代码提示感觉还行，其它交给云端大模型

oncethink

Mar 14

说起来大家可能不信，这个时间点 mac 上 oMLX 配合 qwen3.5:35b-a3b 这样的 MoE 模型真的很丝滑，前提是得预留 20GB 的内存。

nutting

Mar 14

感觉不是慢的问题，尤其是符合那个什么 ai 接口规范的模型，本地好像都有问题，一旦要做些文件之类的操作就有 bug ，如果只是问答可以

YUX

PRO

Mar 14

@YUX 不过我这样大部分工作还是 Sisyphus 和 Oracle 做的。

liujing906qd

Mar 14

@YUX 请问你用的大概是什么样的本地环境呢？我在纠结于 MBP M5 PRO 24/48/64G ，大模型未来两年的发展可能维持住当前的模型大小的基础上提升能力，如果是这样，我可能会考虑 64GB ，但是确实有点贵了。24GB 据说跑 30B MOE 的模型还是很容易爆内存闪退。

liujing906qd

Mar 14

@oncethink 是的。我最近通过 notebooklm 去聚合了一下外网的一些视频和文章，可能这真的是能兼容本地速度和云端精度的方案

dilidilid

Mar 14

我一直搞不懂你们为啥老幻想在移动设备上跑生产级的 LLM 呢，这么小的模型 token 都是白菜价

YUX

PRO

Mar 14

@liujing906qd 建议你买个 air 然后硬等 m5 mini/studio

loveumozart

Mar 14

我怀疑 lz 是想给自己换新 mac 找一个理由 hhh

leozeeho

Mar 14

跑本地模型写代码简直是自寻烦恼，那点内存跑容器都不是太够，还能跑 llm 。。。

gigishy

Mar 16 via iPhone

写代码，千问 30bmoe 的质量差了点，这个是关键。
硬件反而不是大问题。

wobuhuicode

Mar 16

本地的小模型我一般都用来做 cli 的。这样的好处是我不用记各种命令行。