1
wali77 OP 还是说先整个 MAC mini ?
|
2
wali77 OP 老哥们唠唠哇,感觉很多任务都是可以让龙虾来自动化的
|
3
gotoschool 12 小时 25 分钟前
是的,测试过,可用啊!
|
4
nrtEBH 12 小时 14 分钟前
M4 Max 64G + oMLX 0.3.1 gemma-4-31b-it-4bit-mlx 版本 没有清空内存顺手跑的
## Single Request Results | Test | TTFT (ms) | TPOT (ms/tok) | pp TPS | tg TPS | E2E Latency | Throughput | Peak Mem | |---|---:|---:|---:|---:|---:|---:|---:| | pp1024/tg128 | 5558.0 | 52.03 | 184.2 tok/s | 19.4 tok/s | 12.166s | 94.7 tok/s | 18.86 GB | | pp4096/tg128 | 26818.7 | 59.03 | 152.7 tok/s | 17.1 tok/s | 34.316s | 123.1 tok/s | 20.51 GB | ## Continuous Batching ### pp1024 / tg128 | Batch Size | tg TPS | Speedup | pp TPS | pp TPS/req | Avg TTFT (ms) | E2E Latency | |---|---:|---:|---:|---:|---:|---:| | 1x (baseline) | 19.4 tok/s | 1.00x | 184.2 tok/s | 184.2 tok/s | 5558.0 | 12.166s | | 2x | 24.9 tok/s | 1.28x | 140.9 tok/s | 70.5 tok/s | 14531.3 | 24.829s | | 4x | 19.1 tok/s | 0.98x | 133.9 tok/s | 33.5 tok/s | 30593.7 | 57.345s | |