TGOcc
V2EX  ›  Local LLM

Mac book air M5 32G+1TB 能跑本地大模型?

  •  
  •   TGOcc ·
    PRO
    · 14h 31m ago · 1067 views

    先说结论,能跑,但没办法长期跑,主要问题是散热,外挂风扇支架也不太能解决问题,高强度跑温度上升快,持续高温机器会降频。如果考虑便携+生产力,推荐上 mac book pro 吧。

    装了两个平台,ollama 跟 olmx ,测试下来,olmx 平台会更快些,考虑到机器 32G 的内存,能跑的模型大小不要超 22GB

    附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考

    Qwen3.5-4B-MLX-4bit 2.85GB

    gemma-4-26b-a4b-it-4bit 14.57GB

    Qwen3.6-35B-A3B-4bit 15.13GB

    GLM-4.7-Flash-4bit 15.71GB

    gpt-oss-20b-MXFP4-Q8 11.27GB

    oMLX - LLM inference, optimized for your Mac
    
    Benchmark Model: Qwen3.5-4B-MLX-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1001.6       22.74  1022.4 tok/s    44.3 tok/s     3.889   296.2 tok/s     3.29 GB
    pp4096/tg128       3540.9       23.76  1156.8 tok/s    42.4 tok/s     6.558   644.1 tok/s     3.90 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        44.3 tok/s      1.00x    1022.4 tok/s  1022.4 tok/s      1001.6       3.889
    2x        88.3 tok/s      1.99x     407.6 tok/s   203.8 tok/s      3040.1       7.924
    4x       175.1 tok/s      3.95x     322.7 tok/s    80.7 tok/s      6833.9      15.617
    
    
    Benchmark Model: gemma-4-26b-a4b-it-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1500.5       24.21   682.4 tok/s    41.6 tok/s     4.575   251.8 tok/s    14.23 GB
    pp4096/tg128       4863.4       25.14   842.2 tok/s    40.1 tok/s     8.056   524.3 tok/s    14.91 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        41.6 tok/s      1.00x     682.4 tok/s   682.4 tok/s      1500.5       4.575
    2x        82.5 tok/s      1.98x     361.6 tok/s   180.8 tok/s      3495.8       8.767
    4x       166.1 tok/s      3.99x     283.4 tok/s    70.8 tok/s      7840.6      17.536
    
    
    Benchmark Model: Qwen3.6-35B-A3B-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1676.1       17.20   610.9 tok/s    58.6 tok/s     3.860   298.4 tok/s    18.80 GB
    pp4096/tg128       5046.3       17.93   811.7 tok/s    56.2 tok/s     7.323   576.8 tok/s    19.24 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        58.6 tok/s      1.00x     610.9 tok/s   610.9 tok/s      1676.1       3.860
    2x       116.2 tok/s      1.98x     435.5 tok/s   217.8 tok/s      2973.7       6.907
    4x       230.7 tok/s      3.94x     352.0 tok/s    88.0 tok/s      6445.2      13.855
    
    
    Benchmark Model: GLM-4.7-Flash-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1985.0       21.78   515.9 tok/s    46.3 tok/s     4.752   242.4 tok/s    16.27 GB
    pp4096/tg128       6839.2       27.31   598.9 tok/s    36.9 tok/s    10.307   409.8 tok/s    17.34 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        46.3 tok/s      1.00x     515.9 tok/s   515.9 tok/s      1985.0       4.752
    2x        91.5 tok/s      1.98x     362.7 tok/s   181.3 tok/s      3549.9       8.445
    4x       174.9 tok/s      3.78x     321.2 tok/s    80.3 tok/s      6393.9      15.679
    
    
    Benchmark Model: gpt-oss-20b-MXFP4-Q8
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1687.6       24.70   606.8 tok/s    40.8 tok/s     4.824   238.8 tok/s    11.67 GB
    pp4096/tg128       4088.8       26.44  1001.8 tok/s    38.1 tok/s     7.446   567.3 tok/s    11.75 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        40.8 tok/s      1.00x     606.8 tok/s   606.8 tok/s      1687.6       4.824
    2x        82.1 tok/s      2.01x     359.0 tok/s   179.5 tok/s      3489.1       8.822
    4x       159.5 tok/s      3.91x     293.2 tok/s    73.3 tok/s      7335.0      17.180
    
    14 replies    2026-06-09 00:33:19 +08:00
    rockddd
        1
    rockddd  
       12h 52m ago
    我用 mac mini 32G 跑的解禁模型,LM Studio 服务启动了一个多月了,可能台式没有散热问题,还挺稳定的
    keyu1103
        2
    keyu1103  
       12h 43m ago
    说起来, 现在好像 m5max 算是性价比最高的本地大模型方案了吧?(不考虑魔改的)
    amd ai395+ 要 2 万,nvidia dgx spark 要大概 2.8 ~ 3 万,而 macbook 14x m5 max 128+2t ,算 85 折优惠 3.5w 左右
    TGOcc
        3
    TGOcc  
    OP
    PRO
       11h 59m ago
    @rockddd 你没有散热问题应该很稳的。


    @keyu1103 如果不考虑便携性,推荐等 M5 pro 或 M5 MAX,你说的 amd 我朋友弄了台,128G 内存的,现在考虑出了等 M5 新版发布。
    bingoAI
        4
    bingoAI  
       11h 15m ago
    感谢分享
    lzzwenhua
        5
    lzzwenhua  
       10h 50m ago
    https://www.canirun.ai/ 可以上这个网站看下
    rockddd
        6
    rockddd  
       10h 25m ago
    @lzzwenhua #5 实测不准
    MuyuQ
        7
    MuyuQ  
       9h 43m ago
    可以把后盖卸了,然后去找咸鱼一个定制后盖,后盖上有大量镂空,用风扇直吹。效果杠杠的。
    ladeo
        8
    ladeo  
       9h 2m ago
    看看这个项目
    redis 作者专门为 ds4 写的 on Mac
    https://github.com/antirez/ds4
    TGOcc
        9
    TGOcc  
    OP
    PRO
       4h 27m ago
    @MuyuQ 新机器还在保拆后盖,这个成本有点大,我还要考虑到日常便携使用没必要这么硬核,真要生产力直接出了上 pro 就行了。
    @lzzwenhua 这个是用户测试上传的吗?
    @rockddd 还是自己测比较实际些。运行环境除了硬件,还有软件后台挂载等情况。
    coefu
        10
    coefu  
       2h 48m ago
    mac 系列真正能打的是,ultra ,128G 内存就是甜点位。因为 800GB 的内存带宽,模型超过 60G ,在 long context 的情况下,pp 过程慢的让人怀疑人生。96G 内存是最舒服了,263k context 可以跑 Q8.
    coefu
        11
    coefu  
       2h 43m ago
    另外,oMLX 最大的问题是 让 context 无法往 263k 去,因为一旦 内存过了告警阈值,就直接 panic 了。

    所以,我推荐 llama.cpp ,不要信那些说什么不用 oMLX 就浪费 apple metal gpu 的,他们压根儿就没实践过。我用 llama.cpp 直接把 gpu 利用率搞到了 100%。

    llama.cpp 能把 context 搞到 263k ,并且 Q4 量化,能把内存逼近到极限,但是不会 panic 。
    TGOcc
        12
    TGOcc  
    OP
    PRO
       2h 22m ago
    @coefu 看今年新发布的 M5 抢个 128GB 的
    coefu
        13
    coefu  
       2h 13m ago
    @TGOcc m5 max 的统一内存带宽才 614GB/s ,真正对推理影响最大的还是内存带宽,apple metal gpu 核心,讲真,最终在 263k 的 context ,完全没有影响了。我的 m1 ultra ,qwen27B Q8 在 150k context 之后,tg 就下滑到了 5 左右。但是大部分情况下,最终还是能完成任务的,这还是因为 qwen 27B 的 Q8 确实强。
    coefu
        14
    coefu  
       2h 10m ago
    内存不够的情况下,最新的 qat 量化版本,确实有得搞。Q4 的体积,Q8 的效果。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1083 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 18:44 · PVG 02:44 · LAX 11:44 · JFK 14:44
    ♥ Do have faith in what you're doing.