V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Hermitist
V2EX  ›  程序员

切换到 turboquant_plus, 效率真的提升太高了

  •  
  •   Hermitist · 15 小时 10 分钟前 · 1244 次点击
    https://github.com/TheTom/turboquant_plus

    我是 32G M5 的 macbook air, 启用了 Qwen3.5-27B.Q3 的大模型, 内存最高是在 81%,关键我的电脑还跑了一堆其它应用比如同花顺/抖音/邮件/梯子/笔记/chatgpt, 关键是我刚启用, 缓存刚开始建立中, 这个真的是质的提升.

    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.
    18 条回复    2026-04-02 18:50:44 +08:00
    penisulaS
        1
    penisulaS  
       15 小时 5 分钟前
    你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本
    Hermitist
        2
    Hermitist  
    OP
       14 小时 53 分钟前
    @penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.
    penisulaS
        3
    penisulaS  
       14 小时 47 分钟前
    @Hermitist 你试过用来跑本地的代码模型吗?我的意思是我试过本地的,感觉比较笨,没达到我的门槛,感觉这些开源的非超大模型还不够聪明
    xooass
        4
    xooass  
       14 小时 30 分钟前
    温度怎么样

    我在考虑 32G 的 mba 还是 mbp 中,价格就差 3000 ,目前怕跑模型是一直高负载的话,mba 没有风扇一会就顶不住了,没法长期保持,至少 mbp 有风扇
    fe619742721
        5
    fe619742721  
       14 小时 23 分钟前
    本地模型效果到底怎么样啊,跟云端比,比如 GLM5 这种,打得过吗
    Sezxy
        6
    Sezxy  
       14 小时 22 分钟前
    @fe619742721 #5 想啥,肯定打不过啊,参数量放那里
    Hermitist
        7
    Hermitist  
    OP
       14 小时 11 分钟前
    @penisulaS 你说的本地代码模型是什么


    @xooass 温度还可以, 直接买 mbp, 还有买 32G 不如买 64G,甚至更多内存的, 因为可以本地跑大模型, 花的钱可以实现 token 只有.


    @fe619742721 除非硬件配置很高,否则还是大玩具.
    xing7673
        8
    xing7673  
       14 小时 0 分钟前
    @penisulaS #1 跑对任务智能要求不高,对要素状况反应不需要高智能,但是需要持续的、可观测的、费 token 的简单场景,比如跑新闻监控、翻译、聊天总结、文件夹分类、邮件分类等等直接任务,也可以跑一些简单的爬虫。
    多工具、多 agent 协调的复杂场景确实不能指望本地模型,除非你对你的场景要求写得非常详细,但是仍然有注意力漂移的风险。
    xing7673
        9
    xing7673  
       13 小时 55 分钟前
    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.

    -- turbo3 只针对 KV Cache 的量化,不针对模型本身的量化,你的 32g 跑 70b 模型技术上和以前是一样的,只是 turbo3 能帮你拓展上下文宽度
    xiangqiankan
        10
    xiangqiankan  
       13 小时 34 分钟前
    我的 m4 pro 48g 1tb 能跑什么模型
    niubilewodev
        11
    niubilewodev  
       12 小时 58 分钟前
    Hermitist
        12
    Hermitist  
    OP
       12 小时 55 分钟前
    @xing7673 没问题啊, 到时候除了当前的配置可能 kv cache 提升, 还有显存可以直接用 ssd 硬盘扩充的技术.
    YanSeven
        13
    YanSeven  
       11 小时 46 分钟前
    除了玩玩儿,目前想不到本地的 mini 大模型的使用场景,感觉就是纯纯笨蛋,没啥用。
    国产商业部署的大模型还经常嫌弃笨蛋,何况自部署的。
    0x0x
        14
    0x0x  
       11 小时 26 分钟前 via Android
    感觉除非有本地开发需求和安全需求,比如需要测试一些功能需要大量 token 和不让联网,否则不如直接订阅来的稳。本地 llm 的质量堪忧啊。
    kenpuluma
        15
    kenpuluma  
       11 小时 12 分钟前
    Qwen3.5-27B Q3 本身模型权重也就不到 15g ,并没有体现出来什么质的提升吧?
    r6cb
        16
    r6cb  
       11 小时 2 分钟前
    和 vllm 对比过吗
    sampeng
        17
    sampeng  
       11 小时 0 分钟前 via iPhone
    问题是这玩意除了评测啥都干不了啊
    caritasem
        18
    caritasem  
       10 小时 58 分钟前
    生命在于折腾
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   894 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:49 · PVG 05:49 · LAX 14:49 · JFK 17:49
    ♥ Do have faith in what you're doing.