V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Hermitist
V2EX  ›  Local LLM

各位推荐一个 32G Macbook air M5 可以跑的 moe 模型

  •  
  •   Hermitist · 12 小时 6 分钟前 · 1950 次点击
    27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s.


    准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
    第 1 条附言  ·  5 小时 39 分钟前
    看来还是要面对现实, 花钱买最少 256G 起步的才可以, 等 M5 的 mac mini 出来再说吧.
    第 2 条附言  ·  5 小时 34 分钟前
    我实际上用 hermes 进行自我优化, 不过没什么太大用.

    21 条回复    2026-04-26 18:36:59 +08:00
    putaosi
        1
    putaosi  
       12 小时 0 分钟前 via iPhone   ❤️ 1
    能用的太慢,快得太蠢
    cskeleton
        2
    cskeleton  
       11 小时 26 分钟前
    我是 M1Pro 32G ,实际测下来主要还是内存都不太够。
    moe 测下来 gemma4-26b 也就差不多了,qwen3.6-35b 内存就很极限了,上下文拉不大,还不能开多了东西。
    dense 模型我跑不动,速度太慢了。
    geekvcn
        3
    geekvcn  
       11 小时 2 分钟前 via Android
    本地模型没啥用,跑的起的太蠢,不蠢的本地跑成本更高。等 AI 模型相对成熟后 AI ASIC 普及吧
    fbu11
        4
    fbu11  
       10 小时 36 分钟前
    不是降智,是 32G 也不太够,本地模型要带起来内存还得上,能带起来的,要么很拉,要么很慢
    ETiV
        5
    ETiV  
       10 小时 25 分钟前 via iPhone
    air:你饶了我吧

    没风扇,咋跑
    zhuoi
        6
    zhuoi  
       9 小时 59 分钟前   ❤️ 1
    32G 跑起来的模型太拉了
    cwcc
        7
    cwcc  
       9 小时 43 分钟前
    https://github.com/ggml-org/llama.cpp/discussions/4167

    Mac 跑大模型天梯图。

    目前我自己用下来兼顾速度和效果的感觉也就最新的 qwen3.6-35b-a3b 了,需要微调一下模型的参数。
    ntdll
        8
    ntdll  
       9 小时 25 分钟前
    本地能跑起来的,只有弱智,你看不上。
    不弱智的,本地根本跑不起来。

    本地能跑起来的模型,只有一些方向特化的,比如某些模型,只能做分类,只能做某种识别,这种特化过的模型,本地才有可能跑起来,且有意义。
    microscopec
        9
    microscopec  
       8 小时 53 分钟前
    我 m5pro 64G ,可以跑量化版的千问(70G),也可以输出代码,但和真正的大模型还是有差距,建议还是用全量模型,买 4 台 M5 Ultra 256G 内存,通过万兆宽带本地组集群,这样更安全一些😀
    microscopec
        10
    microscopec  
       8 小时 49 分钟前
    顺便说下,m5pro 64G 跑量化版的 Qwen3 Coder Next 80B 版,110/s tokens
    Hermitist
        11
    Hermitist  
    OP
       5 小时 38 分钟前
    @cwcc 请问具体调整模型参数,可否提供一些可用的参考资料研究下?
    Hermitist
        12
    Hermitist  
    OP
       5 小时 38 分钟前
    @ETiV 没事, 我开了个一台风扇, 温度也没那么离谱.
    Hermitist
        13
    Hermitist  
    OP
       5 小时 37 分钟前
    @cskeleton gemma4-26b 速度和智障如何?
    superPONY
        14
    superPONY  
       3 小时 54 分钟前
    我最近在搞一个本地知识库软件 RAGDock ,用 Mac mini 16g 测了一些小模型,有单模态和多模态的都测了一些,如果你把不同类型的任务细化并组合使用我觉得才是本地模型的用武之地。有兴趣可以参考一下: https://github.com/RAGDock/RAGDock
    caqiko
        15
    caqiko  
       3 小时 49 分钟前
    我的体验是纯作为 chat bot 还行,当成本地图书馆来用。但是用来对接 claude code 等 coding agent 实在是太慢了。
    sddyzm
        16
    sddyzm  
    PRO
       2 小时 56 分钟前
    本地模型也许隐私性和可控性是挺好,但是性能和 chatgpt 、claude 等没法比,是完全没法比
    Miofly
        17
    Miofly  
       2 小时 55 分钟前
    https://tools.wflynn.cn/tools/videotools/video-nologo?time=1777195637568 免费去各大平台图片、视频水印,支持小红书,抖音、快手等常用平台,感谢使用,感谢作者大大
    Miofly
        18
    Miofly  
       2 小时 34 分钟前
    https://tools.wflynn.cn/tools/videotools/video-nologo?time=1777196885115 免费去各大平台图片、视频水印,支持小红书,抖音、快手等常用平台,感谢使用,感谢作者大大
    Hermitist
        19
    Hermitist  
    OP
       2 小时 11 分钟前
    @sddyzm 也就是用来做下量化, 应该硬件需求没那么大吧
    cskeleton
        20
    cskeleton  
       1 小时 52 分钟前
    @Hermitist #13 我试了试写天气卡片,效果还可以,不过 qwen3.6 更好。qwen3.6 这一代目前体验的感觉是大大小小都还不错。
    Hermitist
        21
    Hermitist  
    OP
       1 小时 45 分钟前
    @cskeleton 是的, 我感觉 qwen3.6 的不错, 不过好像这几天降速太厉害了.
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2880 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 57ms · UTC 12:22 · PVG 20:22 · LAX 05:22 · JFK 08:22
    ♥ Do have faith in what you're doing.