各位的 m4 设备都陆续到货了，能否跑一下 ollama/llama.cpp ，看看大模型这块的算力究竟比 m1 max m2 ultra ，提升有多少？ - V2EX

Home Sign Up Sign In

This topic created in 558 days ago, the information mentioned may be changed or developed.

跑不太大的模型，比如 Llama 3.1 8B

https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/blob/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf

这个模型 16G 内存的丐版也能跑起来。

ollama/llama.cpp

25 replies • 2025-03-01 10:39:40 +08:00

1

berchtesgaden

Nov 8, 2024

https://www.bilibili.com/video/BV1PdDSYjEEW

2

234ygg

Nov 8, 2024

本地跑的全是弱智模型。。做个翻译都嫌蠢
第三方 gpt api 还不够便宜？

3

Tubbs

Nov 8, 2024

@234ygg 并不是这样的，体验一下 qwen2.5 32b 的量化模型，本地可以跑，评测水平和 gpt-4o-mini 差不多水准了，日常用起来感觉也是不错的

4

lrigi

Nov 8, 2024 via iPhone

1

@234ygg llama3.2 弱智？你太逗了，跟不上时代了已经

5

slayer

Nov 8, 2024

@berchtesgaden #1 这个不错，现在 mac 应该在 lm studio 下跑了转换的 mlx 模型，貌似 ollama 还不支持 mlx 格式的。

6

Gotchaaa

Nov 8, 2024

我 M1 pro 都能跑

7

piero66

Nov 8, 2024 via Android

8b 太蠢了

8

shinecurve

Nov 8, 2024

原本计划买 M4 Max + 128G 跑 ollama 的，后来从 llama 70b 的能力、算力成本和实际应用场景考虑我最终放弃了，感觉还需在在等两年，我认为目前最好的选择还是 ChatGPT 。
希望对你能有些帮助。

9

234ygg

Nov 8, 2024

1

我已经懒得试了，最后一次跑本地模型是几个月前 gemini27b ，远不及 gpt3.5 ，勉强能干个不涉及较多专业词汇的简单翻译，功耗在我的 4090 上高达 250W 。。但凡问点其他问题，我都不说回答的对不对了，甚至不能持续稳定保持中文回答。再早几个月的 llama3 更是一坨。
llama3.2 11b 充其量也就那点水平，合理推断也是个弱智
gpt4o 的 apt 都那么便宜了，更不要说 3.5 了，不要骗我浪费电听显卡电感箫叫了

10

yinmin

Nov 8, 2024 via iPhone

13:20 m4max 跑大模型的评测

11

beginor

OP

Nov 8, 2024

@berchtesgaden
@yinmin

M4 确实好强！看完之后瞬间感觉手上的 M1 Max 64G 一点儿都不香了，AC 还没过期 😂

12

dilidilid

Nov 8, 2024 via iPhone

真的没啥意思，我一直不能理解本地跑大模型推断的意义所在

13

ByteRan

Nov 8, 2024

1

14

spike0100

Nov 9, 2024 via iPhone

inter 问个问题 10 秒回答完，m4pro 只要一秒。

15

spike0100

Nov 9, 2024 via iPhone

问题是：推荐一种基于标记的存活预测模型。答案在 200 字左右。

16

mike163

Nov 9, 2024 via Android

用 mlx 是不是比 ollama 性能更好？

17

mkyos

Nov 10, 2024

除非你能花几万块买英伟达的显卡，否则就别琢磨本地大模型了，还是使用商业模型吧。随着发展，商业模型肯定会各种第三方定制应用的软件或服务，以及，价格大大降低。

18

volvo007

Nov 10, 2024

看来离手里的 A100 还是有不小的差距，即使换 M4 ，在我这里还是做一个终端用比较合适了

19

beginor

OP

Nov 10, 2024

@mike163 性能上应该不会有太大的差距，llama.cpp/ollama 胜在支持更多的系统和加速器，目前对多模态模型支持比较弱，mlx M 芯片专用，多模态 (借助 mlx-vlm ) 支持稍微好一些。

不过两者都不能用上 M 芯片的 NPU 加速。

20

beginor

OP

Nov 10, 2024

@volvo007 有 A100 振金内存加持，肯定不用考虑苹果了。

21

volvo007

Nov 10, 2024

@beginor 受限于国内买不到正规渠道的 H100 ，可能有合规风险，现在还不敢上…… 不知道明年租的那个 H800 x 8 的计算节点能不能搞下来。另外 A100 如果要建模的话就无能为力了，所以现在还是不得不多端操作，A100 服务器、4090 台式、mbp 主打移动和查阅……

22

beginor

OP

Nov 10, 2024 via Android

@volvo007 真壕！

23

volvo007

Nov 10, 2024

@beginor 公款消费是这样的 lol ，我们作为零部件供应商会测试一些物料兼容性，但是硬件到手没人会玩，就便宜我了。闲着也是闲着，我来搞点东西还能加点有效负载让测试更贴近一般使用情况

24

hongjic93

Dec 21, 2024

本地模型意义很大，你可以给他所有本地传感器和资料的访问权限，不能理解本地模型没有意义的说法。以后不只是厂商 token 会变便宜，模型部署门槛和消费算力成本一定降低得更快，大模型和小模型的智能差距缩短得会很快。

25

ohblue

Mar 1, 2025

丐版 16G 可以跑 7B 模型(20 几 Tokens/秒)，也就只能当玩具了。没有特殊需求还是别玩本地大模型，老老实实用 API

About · Help · Advertise · Blog · API · FAQ · Solana · 5053 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 147ms · UTC 05:41 · PVG 13:41 · LAX 22:41 · JFK 01:41
♥ Do have faith in what you're doing.