1
testboy 18 小时 47 分钟前
这个是针对 macos 的吧
|
2
keithwhisper 3 小时 23 分钟前
首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果.
说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop. 我正好在设计这个, 过两天发个 alpha 你可以试下 |
3
keithwhisper 3 小时 22 分钟前
不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本.
|
4
Hermitist OP @keithwhisper 期待.
|