
1
abellis 13 小时 28 分钟前
暂时 qwen3.5-35B-A3B-4BIT
|
2
Puteulanus 13 小时 7 分钟前
https://x.com/Brooooook_lyn/status/2038296844561002922
可以试试动态量化的 35B ,就这人这两天才弄出来的,35B 是混合专家模型,比 27B 的稠密模型快不少,但是对量化的敏感性也更高,MLX 之前量化得太糙了,看着比 GGUF 快,其实模型能力断崖式下跌的 前文 https://x.com/LotusDecoder/status/2031526735213453633 |
3
wuhunyu 13 小时 3 分钟前
本地部署的成本也不小, 27B 的规模也不会很聪明, 适用于一些比较简单的场景?
|
4
peakchao 12 小时 59 分钟前
既然用了 omxl ,可以直接下载 qwen3.5-35B-A3B-4BIT mlx 优化模型,我用着速度挺快。
|
5
pc10300 12 小时 58 分钟前
刚刷到这个,可以看看 https://ollama.com/blog/mlx
|
7
Hermitist OP @pc10300 其实前天测试过 ollama,但是太占电脑资源了, 我看了下你给的这个链接, 发现是昨天的, 看来要找时间测试下, 不过 ollama 只是 llm,不支持 vlm,只能通过 openclaw+skills 曲线实现了.
|
8
Samwulol 12 小时 43 分钟前 via Android
我看是 2.6k star 啊
|
9
workbest 12 小时 4 分钟前
lz 什么机器?我的 m1 用 qwen 3.5 9b 也不太行
|
10
workbest 12 小时 0 分钟前
|
11
diudiuu 11 小时 56 分钟前
m4 跑过 16b 已经略微有点慢了
mac 上可以使用 LM Studio 搭建更简单, 个人感觉跟 llama.cpp 差距不是很大,反正别用 ollama 买 dgx spark 推荐用 llama.cpp 我试过本地 minmax2.5 200b gpt-oss-120b 的,也不是很聪明,没有想象那么好 |
12
Hermitist OP @pc10300 https://x.com/berryxia/status/2038837864340000802 看到 x 上这个演示, 不知道有没有加速, 如果是真的话, 那真的是太快了.
|
13
pc10300 11 小时 42 分钟前
@Hermitist 试试呗,可惜我没有 m5 。文章说:This results in a large speedup of Ollama on all Apple Silicon devices. On Apple’s M5, M5 Pro and M5 Max chips, Ollama leverages the new GPU Neural Accelerators to accelerate both time to first token (TTFT) and generation speed (tokens per second).
|
15
symbolwho 11 小时 10 分钟前
|
16
workbest 11 小时 5 分钟前
我的 m1 用 ollama 最新版好像没有加速效果
|
17
kuhung 8 小时 8 分钟前
主要还是本地模型太蠢了,工具调用能力和智力水平都一般
|
18
unusualcat 6 小时 38 分钟前
你的机器是 AIR 还是 PRO 哦?
|
19
Hermitist OP @unusualcat air
|
20
bao3 4 小时 7 分钟前
ollama 今天更新了,支持 MLX ,你 M5 可以跑到 100token@35B ,这已经可用了
|