V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Hermitist
V2EX  ›  程序员

请教下跑 openclaw 对接本地大模型的时候, 又没用过 omlx 进行加速?

  •  
  •   Hermitist · 20 小时 24 分钟前 · 496 次点击
    https://github.com/jundot/omlx

    有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.

    为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.
    4 条回复    2026-03-29 00:36:43 +08:00
    testboy
        1
    testboy  
       18 小时 47 分钟前
    这个是针对 macos 的吧
    keithwhisper
        2
    keithwhisper  
       3 小时 23 分钟前
    首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果.
    说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop.

    我正好在设计这个, 过两天发个 alpha 你可以试下
    keithwhisper
        3
    keithwhisper  
       3 小时 22 分钟前
    不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本.
    Hermitist
        4
    Hermitist  
    OP
       3 小时 18 分钟前
    @keithwhisper 期待.
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   917 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 19:55 · PVG 03:55 · LAX 12:55 · JFK 15:55
    ♥ Do have faith in what you're doing.