比如通过路由分发,简单任务给本地 Qwen 30B MoE ,复杂问题给云端 opus4.6/gpt5.3.等,这种场景实际效果如何呢?
听说 M5 PRO 这次本地跑大模型没有之前那么慢,如果是真的,这种混合架构靠谱吗,还是纯想多了?
1
niubilewodev 11 小时 3 分钟前 via iPhone
想多了。
本地跑太慢了。 |
2
vcmt 4 小时 41 分钟前 via Android
这样给你说吧,我朋友买了一台十几万的机器跑,结果还是觉得慢。
|
3
YUX PRO 完全可以 我用的就是 https://ohmyopenagent.com/ Sisyphus 用 anthropic/claude-opus-4-6 max ,Oracle 用 openai/gpt-5.4 xhigh, Hephaestus kimi-for-coding/k2p5, 其余默认用本地的 qwen3.5 35b
|
4
beginor 4 小时 27 分钟前 via Android
本地跑 zeta 做代码提示感觉还行,其它交给云端大模型
|
5
oncethink 4 小时 19 分钟前
说起来大家可能不信,这个时间点 mac 上 oMLX 配合 qwen3.5:35b-a3b 这样的 MoE 模型真的很丝滑,前提是得预留 20GB 的内存。
|
6
nutting 2 小时 46 分钟前
感觉不是慢的问题,尤其是符合那个什么 ai 接口规范的模型,本地好像都有问题,一旦要做些文件之类的操作就有 bug ,如果只是问答可以
|
8
liujing906qd OP @YUX 请问你用的大概是什么样的本地环境呢?我在纠结于 MBP M5 PRO 24/48/64G ,大模型未来两年的发展可能维持住当前的模型大小的基础上提升能力,如果是这样,我可能会考虑 64GB ,但是确实有点贵了。24GB 据说跑 30B MOE 的模型还是很容易爆内存闪退。
|
9
liujing906qd OP @oncethink 是的。我最近通过 notebooklm 去聚合了一下外网的一些视频和文章,可能这真的是能兼容本地速度和云端精度的方案
|
10
dilidilid 1 小时 49 分钟前
我一直搞不懂你们为啥老幻想在移动设备上跑生产级的 LLM 呢,这么小的模型 token 都是白菜价
|
11
YUX PRO @liujing906qd 建议你买个 air 然后硬等 m5 mini/studio
|