Mac book air M5 32G+1TB 能跑本地大模型？

先说结论，能跑，但没办法长期跑，主要问题是散热，外挂风扇支架也不太能解决问题，高强度跑温度上升快，持续高温机器会降频。如果考虑便携+生产力，推荐上 mac book pro 吧。

装了两个平台，ollama 跟 olmx ，测试下来，olmx 平台会更快些，考虑到机器 32G 的内存，能跑的模型大小不要超 22GB

附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考

Qwen3.5-4B-MLX-4bit 2.85GB

gemma-4-26b-a4b-it-4bit 14.57GB

Qwen3.6-35B-A3B-4bit 15.13GB

GLM-4.7-Flash-4bit 15.71GB

gpt-oss-20b-MXFP4-Q8 11.27GB

oMLX - LLM inference, optimized for your Mac

Benchmark Model: Qwen3.5-4B-MLX-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1001.6       22.74  1022.4 tok/s    44.3 tok/s     3.889   296.2 tok/s     3.29 GB
pp4096/tg128       3540.9       23.76  1156.8 tok/s    42.4 tok/s     6.558   644.1 tok/s     3.90 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        44.3 tok/s      1.00x    1022.4 tok/s  1022.4 tok/s      1001.6       3.889
2x        88.3 tok/s      1.99x     407.6 tok/s   203.8 tok/s      3040.1       7.924
4x       175.1 tok/s      3.95x     322.7 tok/s    80.7 tok/s      6833.9      15.617


Benchmark Model: gemma-4-26b-a4b-it-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1500.5       24.21   682.4 tok/s    41.6 tok/s     4.575   251.8 tok/s    14.23 GB
pp4096/tg128       4863.4       25.14   842.2 tok/s    40.1 tok/s     8.056   524.3 tok/s    14.91 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        41.6 tok/s      1.00x     682.4 tok/s   682.4 tok/s      1500.5       4.575
2x        82.5 tok/s      1.98x     361.6 tok/s   180.8 tok/s      3495.8       8.767
4x       166.1 tok/s      3.99x     283.4 tok/s    70.8 tok/s      7840.6      17.536


Benchmark Model: Qwen3.6-35B-A3B-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1676.1       17.20   610.9 tok/s    58.6 tok/s     3.860   298.4 tok/s    18.80 GB
pp4096/tg128       5046.3       17.93   811.7 tok/s    56.2 tok/s     7.323   576.8 tok/s    19.24 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        58.6 tok/s      1.00x     610.9 tok/s   610.9 tok/s      1676.1       3.860
2x       116.2 tok/s      1.98x     435.5 tok/s   217.8 tok/s      2973.7       6.907
4x       230.7 tok/s      3.94x     352.0 tok/s    88.0 tok/s      6445.2      13.855


Benchmark Model: GLM-4.7-Flash-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1985.0       21.78   515.9 tok/s    46.3 tok/s     4.752   242.4 tok/s    16.27 GB
pp4096/tg128       6839.2       27.31   598.9 tok/s    36.9 tok/s    10.307   409.8 tok/s    17.34 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        46.3 tok/s      1.00x     515.9 tok/s   515.9 tok/s      1985.0       4.752
2x        91.5 tok/s      1.98x     362.7 tok/s   181.3 tok/s      3549.9       8.445
4x       174.9 tok/s      3.78x     321.2 tok/s    80.3 tok/s      6393.9      15.679


Benchmark Model: gpt-oss-20b-MXFP4-Q8
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1687.6       24.70   606.8 tok/s    40.8 tok/s     4.824   238.8 tok/s    11.67 GB
pp4096/tg128       4088.8       26.44  1001.8 tok/s    38.1 tok/s     7.446   567.3 tok/s    11.75 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        40.8 tok/s      1.00x     606.8 tok/s   606.8 tok/s      1687.6       4.824
2x        82.1 tok/s      2.01x     359.0 tok/s   179.5 tok/s      3489.1       8.822
4x       159.5 tok/s      3.91x     293.2 tok/s    73.3 tok/s      7335.0      17.180

模型

推理

散热

14 replies • 2026-06-09 00:33:19 +08:00

rockddd

12h 52m ago

我用 mac mini 32G 跑的解禁模型，LM Studio 服务启动了一个多月了，可能台式没有散热问题，还挺稳定的

keyu1103

12h 43m ago

说起来，现在好像 m5max 算是性价比最高的本地大模型方案了吧？（不考虑魔改的）
amd ai395+ 要 2 万，nvidia dgx spark 要大概 2.8 ～ 3 万，而 macbook 14x m5 max 128+2t ，算 85 折优惠 3.5w 左右

TGOcc

PRO

11h 59m ago

@rockddd 你没有散热问题应该很稳的。

@keyu1103 如果不考虑便携性，推荐等 M5 pro 或 M5 MAX,你说的 amd 我朋友弄了台，128G 内存的，现在考虑出了等 M5 新版发布。

bingoAI

11h 15m ago

感谢分享

lzzwenhua

10h 50m ago

https://www.canirun.ai/ 可以上这个网站看下

rockddd

10h 25m ago

@lzzwenhua #5 实测不准

MuyuQ

9h 43m ago

可以把后盖卸了，然后去找咸鱼一个定制后盖，后盖上有大量镂空，用风扇直吹。效果杠杠的。

ladeo

9h 2m ago

看看这个项目
redis 作者专门为 ds4 写的 on Mac
https://github.com/antirez/ds4

TGOcc

PRO

4h 27m ago

@MuyuQ 新机器还在保拆后盖，这个成本有点大，我还要考虑到日常便携使用没必要这么硬核，真要生产力直接出了上 pro 就行了。
@lzzwenhua 这个是用户测试上传的吗？
@rockddd 还是自己测比较实际些。运行环境除了硬件，还有软件后台挂载等情况。

coefu

2h 48m ago

mac 系列真正能打的是，ultra ，128G 内存就是甜点位。因为 800GB 的内存带宽，模型超过 60G ，在 long context 的情况下，pp 过程慢的让人怀疑人生。96G 内存是最舒服了，263k context 可以跑 Q8.

coefu

2h 43m ago

另外，oMLX 最大的问题是让 context 无法往 263k 去，因为一旦内存过了告警阈值，就直接 panic 了。

所以，我推荐 llama.cpp ，不要信那些说什么不用 oMLX 就浪费 apple metal gpu 的，他们压根儿就没实践过。我用 llama.cpp 直接把 gpu 利用率搞到了 100%。

llama.cpp 能把 context 搞到 263k ，并且 Q4 量化，能把内存逼近到极限，但是不会 panic 。

TGOcc

PRO

2h 22m ago

@coefu 看今年新发布的 M5 抢个 128GB 的

coefu

2h 13m ago

@TGOcc m5 max 的统一内存带宽才 614GB/s ，真正对推理影响最大的还是内存带宽，apple metal gpu 核心，讲真，最终在 263k 的 context ，完全没有影响了。我的 m1 ultra ，qwen27B Q8 在 150k context 之后，tg 就下滑到了 5 左右。但是大部分情况下，最终还是能完成任务的，这还是因为 qwen 27B 的 Q8 确实强。

coefu

2h 10m ago

内存不够的情况下，最新的 qat 量化版本，确实有得搞。Q4 的体积，Q8 的效果。