V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
JoeJoeJoe
71.46D
V2EX  ›  分享发现

用 Ollama 部署了一个我之前没听过的大模型 gpt-oss:120b, 发现速度还挺快, 不知道能不能用在 openclaw 上.然后跟 Qwen 做了一下生成速度对比, 可能不太客观.

  •  
  •   JoeJoeJoe ·
    PRO
    · 2 天前 · 2937 次点击

    顺便贴一下从网上随便找了一个测试 Token 生成速度的代码跑了下, 测试结果如下

    50 条回复    2026-03-12 14:28:14 +08:00
    zenfsharp
        1
    zenfsharp  
       2 天前
    我勒个槽 120B ,我只敢部署 20B 的。
    大概半年前 OpenAI 丢出来的开源模型,我试了 20B 的大概才 GPT-4mini 的水平,远不如如今线上小模型。
    niboy
        2
    niboy  
       2 天前
    好羡慕,电脑都啥配置?
    liu731
        3
    liu731  
    PRO
       2 天前
    我 4090+96GB RAM 都跑不起来,可以想象 OP 的配置
    JoeJoeJoe
        4
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @zenfsharp 主要是没听说过这个都, 看了下下载量还很高

    @niboy
    @liu731 Apple M4 Max 128G
    magiccode
        5
    magiccode  
    PRO
       1 天前
    @JoeJoeJoe 这设备好顶,公司给配的么?
    bitkuang
        6
    bitkuang  
       1 天前 via Android
    这模型在海外评价挺高的
    crocoBaby
        7
    crocoBaby  
       1 天前
    这个玩小龙虾足够了
    JoeJoeJoe
        8
    JoeJoeJoe  
    OP
    PRO
       1 天前   ❤️ 1
    @magiccode 必然, 家里还备着一台 21 年的 MBP 和 一台顶配 Mini, 公司这台装着 Rustdesk, 从此过上了不背双肩包的日子.

    @bitkuang 真第一次听说, 我体验一下看看

    @crocoBaby 今天准备尝试一下
    Solix
        9
    Solix  
       1 天前
    CloseAI 最近几年出的唯一的 Open 模型,当然火了,大家都用它做翻译
    crocoBaby
        10
    crocoBaby  
       1 天前
    @JoeJoeJoe 期待测试 7B 和 13B 这两个主流本地部署大模型在 openClaw 上面的表现
    ovovovovo
        11
    ovovovovo  
       1 天前   ❤️ 1
    @crocoBaby #10 3080 10g, qwen3 7b/14b 我本地试了试,context 32k ,出现自己找不到 skills 以及误以为自己没有本地文件读取权限的症状。必须一字一句引导使用 skills 才行
    cyp0633
        12
    cyp0633  
       1 天前
    因为 gpt-oss 有原生 mxfp4 吧
    Hansah
        13
    Hansah  
       1 天前
    你用 qwen 3.5 9B 或者 24B 可能都比他厉害
    Hilong
        14
    Hilong  
       1 天前   ❤️ 1
    @crocoBaby #10 我测试过,m1 max 64g+ 1T 的 mac studio ,4b 以上的跑龙虾都不太行,因为龙虾的上下文信息窗口太大了。本地模型跑起来很吃力。
    crocoBaby
        15
    crocoBaby  
       1 天前 via iPhone
    @ovovovovo 感谢测试,也就是说不能用了
    crocoBaby
        16
    crocoBaby  
       1 天前 via iPhone
    @Hilong 感谢测试,果然还得是烧 token
    justfindu
        17
    justfindu  
       1 天前
    Antigravity 里面不就有么
    JoeJoeJoe
        18
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @Solix 哈哈哈哈 我也尝试一波
    @cyp0633 处理速度确实快很多
    @Hansah 容我试验一下!
    JoeJoeJoe
        19
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @justfindu 😂没用过 Antigravity
    timespy
        20
    timespy  
       1 天前
    我有个 512G 的 mac ,有更好的模型推荐吗,想玩玩
    JoeJoeJoe
        21
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @timespy 我也是小白, 坐等大佬推荐
    ovovovovo
        22
    ovovovovo  
       1 天前
    @crocoBaby #15 7b 没有检测到上下文溢出,14b 如果不想达到显存极限就只能降低点上下文。像我一样只有 10g 的显存就别试了,不太能做什么 agentic 的任务。
    timespy
        23
    timespy  
       1 天前
    @JoeJoeJoe 120G 无法发挥这个 512 的实力,哈哈哈
    ovovovovo
        24
    ovovovovo  
       1 天前
    @crocoBaby #16 试试 openrouter 的 stepfun free 模型,目前都很好用,使劲蹬了好几天了
    crocoBaby
        25
    crocoBaby  
       1 天前
    @ovovovovo 8G 能玩嘛?
    ovovovovo
        26
    ovovovovo  
       1 天前
    @crocoBaby #25 可以的,openclaw 部署不吃资源
    JoeJoeJoe
        27
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @timespy #23 哈哈哈哈 512G 内存用来干啥??? 难以想象.

    我这个 128G 是因为我要干的活太杂了, 而且都比较吃内存, 有些时候需要一起打开联调, 所以才搞了这么一台机器.
    Tink
        28
    Tink  
    PRO
       1 天前
    这个模型聪明吗
    diudiuu
        29
    diudiuu  
       1 天前
    那个 mac 电脑可以试下这个 MiniMax-M2.5

    https://huggingface.co/tomngdev/MiniMax-M2.5-REAP-139B-A10B-GGUF/tree/main

    128g 可以 UD-Q3_K_XL 这个类型的
    512g 上大的

    我已经更换这个 gpt 120b oss 换成这个 MiniMax-M2.5 UD-Q3_K_XL,推理会更好点
    diudiuu
        30
    diudiuu  
       1 天前
    @Tink 推理差点意思
    zhangqilin
        31
    zhangqilin  
       1 天前
    m3max 64g 可以跑这个吗
    JoeJoeJoe
        32
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @Tink 感觉不太行
    JoeJoeJoe
        33
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @zhangqilin 应该行, 但是可能电脑会卡, 我用活动监测看了下内存占用大概是 65G
    fbcskpebfr
        34
    fbcskpebfr  
       1 天前 via iPhone
    确实快,我在实验里生成同样的东西 gptoss120b 比 qwen2.5 72b 和 llama 3.1 70b 都快
    JoeJoeJoe
        35
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @diudiuu #29 我试验一下
    JoeJoeJoe
        36
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @fbcskpebfr 但是感觉推理好像有点问题
    diudiuu
        37
    diudiuu  
       1 天前
    mac 上我建议使用 LM Studio,参数调整比较方便.

    我现在都是 llama.cpp 直接启动.

    模型响应快慢试出来的
    llama.cpp > LM Studio > Ollama(扔到垃圾桶吧)
    JoeJoeJoe
        38
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @diudiuu #37 哈哈哈 感谢分享, 这就去试试
    iTea
        39
    iTea  
       1 天前 via iPhone
    试试这个? Qwen3.5-122B-A10B-4bit
    再加上这个: https://github.com/jundot/omlx
    arihca
        40
    arihca  
    PRO
       1 天前
    我也想要本地 openclaw ,求推荐模型,m1max 64g+1T 满 GPU
    JoeJoeJoe
        41
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @iTea 容我再研究一下, 好像自己部署的大模型效果不太好.

    @arihca 哈哈哈, 坐等大佬推荐, 反正我帖子里的这几个效果不太理想.
    crime1024
        42
    crime1024  
       1 天前
    @iTea 这个只 mac ? win 下没有么--
    sayyiku
        43
    sayyiku  
       1 天前
    不好用,这个是之前 openai 发布的模型了,之前用 8 卡 A100 跑的,快是快,智商是真的低,最基础的翻译都有问题。
    iTea
        44
    iTea  
       1 天前 via iPhone
    @crime1024 是的,只有 mac M 系列
    https://omlx.ai/benchmarks
    killadm
        45
    killadm  
       1 天前 via Android
    本地部署还是 qwen 3.5 吧,chatgpt 的这个模型出来的时间有点长了,不过 qwen 3.5 官方模型好像调用工具有问题,跑龙虾可以试试 unsloth 的,据说有改善。我 12g 显存 qwen3.5 35b-a3b 4bit 量化 96k 上下文能跑 50token/s 左右,算了下按这个速度 1 亿 token 需要跑 20 多天,打消了本地跑龙虾的念头😂
    akadanjuan101
        46
    akadanjuan101  
       1 天前
    这个发布挺久的效果还不错
    JoeJoeJoe
        47
    JoeJoeJoe  
    OP
    PRO
       1 天前
    @sayyiku 我切成 3.5 了

    @killadm 为啥要跑 1 亿 Token😂

    @akadanjuan101 速度是真的快!
    sampeng
        48
    sampeng  
       1 天前 via iPhone
    重要的不是速度。是效果…效果不好他就是闪电都没用
    podel
        49
    podel  
       1 天前
    建议不如跑 QWEN3.5 35B/122B 的 35Bopenclaw 智能水平完爆 GPT-OSS-120B
    JoeJoeJoe
        50
    JoeJoeJoe  
    OP
    PRO
       19 小时 9 分钟前
    @sampeng 让我想起了算数的大爷

    @podel 确实是这样的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5668 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 01:37 · PVG 09:37 · LAX 18:37 · JFK 21:37
    ♥ Do have faith in what you're doing.