顺便贴一下从网上随便找了一个测试 Token 生成速度的代码跑了下, 测试结果如下

1
zenfsharp 2 天前
我勒个槽 120B ,我只敢部署 20B 的。
大概半年前 OpenAI 丢出来的开源模型,我试了 20B 的大概才 GPT-4mini 的水平,远不如如今线上小模型。 |
2
niboy 2 天前
好羡慕,电脑都啥配置?
|
3
liu731 PRO 我 4090+96GB RAM 都跑不起来,可以想象 OP 的配置
|
6
bitkuang 1 天前 via Android
这模型在海外评价挺高的
|
7
crocoBaby 1 天前
这个玩小龙虾足够了
|
8
JoeJoeJoe OP PRO |
9
Solix 1 天前
CloseAI 最近几年出的唯一的 Open 模型,当然火了,大家都用它做翻译
|
11
ovovovovo 1 天前 @crocoBaby #10 3080 10g, qwen3 7b/14b 我本地试了试,context 32k ,出现自己找不到 skills 以及误以为自己没有本地文件读取权限的症状。必须一字一句引导使用 skills 才行
|
12
cyp0633 1 天前
因为 gpt-oss 有原生 mxfp4 吧
|
13
Hansah 1 天前
你用 qwen 3.5 9B 或者 24B 可能都比他厉害
|
14
Hilong 1 天前 @crocoBaby #10 我测试过,m1 max 64g+ 1T 的 mac studio ,4b 以上的跑龙虾都不太行,因为龙虾的上下文信息窗口太大了。本地模型跑起来很吃力。
|
17
justfindu 1 天前
Antigravity 里面不就有么
|
20
timespy 1 天前
我有个 512G 的 mac ,有更好的模型推荐吗,想玩玩
|
22
ovovovovo 1 天前
@crocoBaby #15 7b 没有检测到上下文溢出,14b 如果不想达到显存极限就只能降低点上下文。像我一样只有 10g 的显存就别试了,不太能做什么 agentic 的任务。
|
27
JoeJoeJoe OP PRO |
28
Tink PRO 这个模型聪明吗
|
29
diudiuu 1 天前
那个 mac 电脑可以试下这个 MiniMax-M2.5
https://huggingface.co/tomngdev/MiniMax-M2.5-REAP-139B-A10B-GGUF/tree/main 128g 可以 UD-Q3_K_XL 这个类型的 512g 上大的 我已经更换这个 gpt 120b oss 换成这个 MiniMax-M2.5 UD-Q3_K_XL,推理会更好点 |
31
zhangqilin 1 天前
m3max 64g 可以跑这个吗
|
33
JoeJoeJoe OP PRO @zhangqilin 应该行, 但是可能电脑会卡, 我用活动监测看了下内存占用大概是 65G
|
34
fbcskpebfr 1 天前 via iPhone
确实快,我在实验里生成同样的东西 gptoss120b 比 qwen2.5 72b 和 llama 3.1 70b 都快
|
36
JoeJoeJoe OP PRO @fbcskpebfr 但是感觉推理好像有点问题
|
37
diudiuu 1 天前
mac 上我建议使用 LM Studio,参数调整比较方便.
我现在都是 llama.cpp 直接启动. 模型响应快慢试出来的 llama.cpp > LM Studio > Ollama(扔到垃圾桶吧) |
39
iTea 1 天前 via iPhone
试试这个? Qwen3.5-122B-A10B-4bit
再加上这个: https://github.com/jundot/omlx |
40
arihca PRO 我也想要本地 openclaw ,求推荐模型,m1max 64g+1T 满 GPU
|
43
sayyiku 1 天前
不好用,这个是之前 openai 发布的模型了,之前用 8 卡 A100 跑的,快是快,智商是真的低,最基础的翻译都有问题。
|
44
iTea 1 天前 via iPhone
|
45
killadm 1 天前 via Android
本地部署还是 qwen 3.5 吧,chatgpt 的这个模型出来的时间有点长了,不过 qwen 3.5 官方模型好像调用工具有问题,跑龙虾可以试试 unsloth 的,据说有改善。我 12g 显存 qwen3.5 35b-a3b 4bit 量化 96k 上下文能跑 50token/s 左右,算了下按这个速度 1 亿 token 需要跑 20 多天,打消了本地跑龙虾的念头😂
|
46
akadanjuan101 1 天前
这个发布挺久的效果还不错
|
47
JoeJoeJoe OP PRO |
48
sampeng 1 天前 via iPhone
重要的不是速度。是效果…效果不好他就是闪电都没用
|
49
podel 1 天前
建议不如跑 QWEN3.5 35B/122B 的 35Bopenclaw 智能水平完爆 GPT-OSS-120B
|