用 Ollama 部署了一个我之前没听过的大模型 gpt-oss:120b, 发现速度还挺快, 不知道能不能用在 openclaw 上.然后跟 Qwen 做了一下生成速度对比, 可能不太客观.

JoeJoeJoe · 2026-03-11T01:01:55Z

顺便贴一下从网上随便找了一个测试 Token 生成速度的代码跑了下, 测试结果如下

Ollama

GPT-OSS

速度

50 replies • 2026-03-12 14:28:14 +08:00

1

zenfsharp

Mar 11

我勒个槽 120B ，我只敢部署 20B 的。
大概半年前 OpenAI 丢出来的开源模型，我试了 20B 的大概才 GPT-4mini 的水平，远不如如今线上小模型。

2

niboy

Mar 11

好羡慕，电脑都啥配置？

3

Nasdaq

PRO

Mar 11

我 4090+96GB RAM 都跑不起来，可以想象 OP 的配置

4

JoeJoeJoe

OP

PRO

Mar 11

@zenfsharp 主要是没听说过这个都, 看了下下载量还很高

@niboy
@liu731 Apple M4 Max 128G

5

magiccode

PRO

Mar 11

@JoeJoeJoe 这设备好顶，公司给配的么?

6

bitkuang

Mar 11 via Android

这模型在海外评价挺高的

7

crocoBaby

Mar 11

这个玩小龙虾足够了

8

JoeJoeJoe

OP

PRO

Mar 11

1

@magiccode 必然, 家里还备着一台 21 年的 MBP 和一台顶配 Mini, 公司这台装着 Rustdesk, 从此过上了不背双肩包的日子.

@bitkuang 真第一次听说, 我体验一下看看

@crocoBaby 今天准备尝试一下

9

Solix

Mar 11

CloseAI 最近几年出的唯一的 Open 模型，当然火了，大家都用它做翻译

10

crocoBaby

Mar 11

@JoeJoeJoe 期待测试 7B 和 13B 这两个主流本地部署大模型在 openClaw 上面的表现

11

ovovovovo

Mar 11

1

@crocoBaby #10 3080 10g, qwen3 7b/14b 我本地试了试，context 32k ，出现自己找不到 skills 以及误以为自己没有本地文件读取权限的症状。必须一字一句引导使用 skills 才行

12

cyp0633

Mar 11

因为 gpt-oss 有原生 mxfp4 吧

13

Hansah

Mar 11

你用 qwen 3.5 9B 或者 24B 可能都比他厉害

14

Hilong

Mar 11

1

@crocoBaby #10 我测试过，m1 max 64g+ 1T 的 mac studio ，4b 以上的跑龙虾都不太行，因为龙虾的上下文信息窗口太大了。本地模型跑起来很吃力。

15

crocoBaby

Mar 11 via iPhone

@ovovovovo 感谢测试，也就是说不能用了

16

crocoBaby

Mar 11 via iPhone

@Hilong 感谢测试，果然还得是烧 token

17

justfindu

Mar 11

Antigravity 里面不就有么

18

JoeJoeJoe

OP

PRO

Mar 11

@Solix 哈哈哈哈我也尝试一波
@cyp0633 处理速度确实快很多
@Hansah 容我试验一下!

19

JoeJoeJoe

OP

PRO

Mar 11

@justfindu 😂没用过 Antigravity

20

timespy

Mar 11

我有个 512G 的 mac ，有更好的模型推荐吗，想玩玩

21

JoeJoeJoe

OP

PRO

Mar 11

@timespy 我也是小白, 坐等大佬推荐

22

ovovovovo

Mar 11

@crocoBaby #15 7b 没有检测到上下文溢出，14b 如果不想达到显存极限就只能降低点上下文。像我一样只有 10g 的显存就别试了，不太能做什么 agentic 的任务。

23

timespy

Mar 11

@JoeJoeJoe 120G 无法发挥这个 512 的实力，哈哈哈

24

ovovovovo

Mar 11

@crocoBaby #16 试试 openrouter 的 stepfun free 模型，目前都很好用，使劲蹬了好几天了

25

crocoBaby

Mar 11

@ovovovovo 8G 能玩嘛?

26

ovovovovo

Mar 11

@crocoBaby #25 可以的，openclaw 部署不吃资源

27

JoeJoeJoe

OP

PRO

Mar 11

@timespy #23 哈哈哈哈 512G 内存用来干啥??? 难以想象.

我这个 128G 是因为我要干的活太杂了, 而且都比较吃内存, 有些时候需要一起打开联调, 所以才搞了这么一台机器.

28

Tink

PRO

Mar 11

这个模型聪明吗

29

diudiuu

Mar 11

那个 mac 电脑可以试下这个 MiniMax-M2.5

https://huggingface.co/tomngdev/MiniMax-M2.5-REAP-139B-A10B-GGUF/tree/main

128g 可以 UD-Q3_K_XL 这个类型的
512g 上大的

我已经更换这个 gpt 120b oss 换成这个 MiniMax-M2.5 UD-Q3_K_XL,推理会更好点

30

diudiuu

Mar 11

@Tink 推理差点意思

31

zhangqilin

Mar 11

m3max 64g 可以跑这个吗

32

JoeJoeJoe

OP

PRO

Mar 11

@Tink 感觉不太行

33

JoeJoeJoe

OP

PRO

Mar 11

@zhangqilin 应该行, 但是可能电脑会卡, 我用活动监测看了下内存占用大概是 65G

34

fbcskpebfr

Mar 11 via iPhone

确实快，我在实验里生成同样的东西 gptoss120b 比 qwen2.5 72b 和 llama 3.1 70b 都快

35

JoeJoeJoe

OP

PRO

Mar 11

@diudiuu #29 我试验一下

36

JoeJoeJoe

OP

PRO

Mar 11

@fbcskpebfr 但是感觉推理好像有点问题

37

diudiuu

Mar 11

mac 上我建议使用 LM Studio,参数调整比较方便.

我现在都是 llama.cpp 直接启动.

模型响应快慢试出来的
llama.cpp > LM Studio > Ollama(扔到垃圾桶吧)

38

JoeJoeJoe

OP

PRO

Mar 11

@diudiuu #37 哈哈哈感谢分享, 这就去试试

39

iTea

Mar 11 via iPhone

试试这个？ Qwen3.5-122B-A10B-4bit
再加上这个： https://github.com/jundot/omlx

40

arihca

PRO

Mar 11

我也想要本地 openclaw ，求推荐模型，m1max 64g+1T 满 GPU

41

JoeJoeJoe

OP

PRO

Mar 11

@iTea 容我再研究一下, 好像自己部署的大模型效果不太好.

@arihca 哈哈哈, 坐等大佬推荐, 反正我帖子里的这几个效果不太理想.

42

crime1024

Mar 11

@iTea 这个只 mac ? win 下没有么--

43

ellye

Mar 11

不好用，这个是之前 openai 发布的模型了，之前用 8 卡 A100 跑的，快是快，智商是真的低，最基础的翻译都有问题。

44

iTea

Mar 11 via iPhone

@crime1024 是的，只有 mac M 系列
https://omlx.ai/benchmarks

45

killadm

Mar 11 via Android

本地部署还是 qwen 3.5 吧，chatgpt 的这个模型出来的时间有点长了，不过 qwen 3.5 官方模型好像调用工具有问题，跑龙虾可以试试 unsloth 的，据说有改善。我 12g 显存 qwen3.5 35b-a3b 4bit 量化 96k 上下文能跑 50token/s 左右，算了下按这个速度 1 亿 token 需要跑 20 多天，打消了本地跑龙虾的念头😂

46

akadanjuan101

Mar 11

这个发布挺久的效果还不错

47

JoeJoeJoe

OP

PRO

Mar 11

@sayyiku 我切成 3.5 了

@killadm 为啥要跑 1 亿 Token😂

@akadanjuan101 速度是真的快!

48

sampeng

Mar 11 via iPhone

重要的不是速度。是效果…效果不好他就是闪电都没用

49

podel

Mar 11

建议不如跑 QWEN3.5 35B/122B 的 35Bopenclaw 智能水平完爆 GPT-OSS-120B

50

JoeJoeJoe

OP

PRO

Mar 12

@sampeng 让我想起了算数的大爷

@podel 确实是这样的