V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
guoguobaba
V2EX  ›  Local LLM

mac studio 跑大模型也就那样啊

  •  
  •   guoguobaba · 2025 年 5 月 18 日 · 4142 次点击
    这是一个创建于 242 天前的主题,其中的信息可能已经有所发展或是发生改变。

    也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s

    32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s

    如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡

    跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

    26 条回复    2025-05-19 10:49:15 +08:00
    coefu
        1
    coefu  
       2025 年 5 月 18 日
    你可以五折出给我,我不嫌弃。🐶
    dilidilid
        2
    dilidilid  
       2025 年 5 月 18 日
    本来就那样,一个是 Mac 虽然显存大但是 TOPS 少,真跑大的模型算力上力不从心,另外一个是大部分主流模型都是专门给 CUDA 做优化,很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090
    F281M6Dh8DXpD1g2
        3
    F281M6Dh8DXpD1g2  
       2025 年 5 月 18 日 via iPhone
    671b 你跟 14b 比啊
    guoguobaba
        4
    guoguobaba  
    OP
       2025 年 5 月 18 日
    @liprais 32b 没看到吗
    littlewing
        5
    littlewing  
       2025 年 5 月 18 日
    M4 是不是会提升很大?
    icyalala
        6
    icyalala  
       2025 年 5 月 18 日   ❤️ 1
    之前吹的是说这个小的单机上能加载 617b 模型,而其他消费级显卡显存不够,压根跑都跑不起来。
    你 amd + 64g 内存跑个 617b 看看呢?
    Awes0me
        7
    Awes0me  
       2025 年 5 月 18 日   ❤️ 1
    那你为什么不跟 32b 比呢
    yolyzhu
        8
    yolyzhu  
       2025 年 5 月 18 日
    本来就不快呀,NV 护城河还是有点含金量的……
    JensenQian
        9
    JensenQian  
       2025 年 5 月 18 日
    那当然
    不然老黄的卡卖给谁啊
    michaelzxp
        10
    michaelzxp  
       2025 年 5 月 18 日
    只是能跑最大模型,但是算力不行,所以没有想的那么好
    june4
        11
    june4  
       2025 年 5 月 18 日
    @icyalala 之前有个文章,花 3w 组 768G 内存 amd pc 跑 617b Q8 ,CPU 硬跑 7 token/s 。这价格比 mac 少一倍,但速度也慢。
    felixcode
        12
    felixcode  
       2025 年 5 月 18 日 via Android
    他们说了你真信啊,谁说的找谁呗
    MacsedProtoss
        13
    MacsedProtoss  
       2025 年 5 月 18 日 via iPhone
    现在消费级硬件跑的本地模型就没一个效果够好的 个人使用没有必要本地 ai 意义很小
    lululau
        14
    lululau  
       2025 年 5 月 18 日
    @june4 少一半,少一倍就是零元购了
    234ygg
        15
    234ygg  
       2025 年 5 月 18 日
    哈哈,那帮博主只字不提回答问题的时候吐出第一个字要多久,更不提上下文变长了之后的速度。。
    目前综合来说,普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了,但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0
    zhanying
        16
    zhanying  
       2025 年 5 月 18 日 via Android
    目前来看,个人本地部署大模型最大的意义就是部署本身,换句话说就是图个折腾的过程😂
    icyalala
        17
    icyalala  
       2025 年 5 月 18 日
    @june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
    A100/H100 那些显存都是贼贵的 HBM ,带宽都是几 TB/s ,MacStudio 512GB 带宽也就 800GB/s ,根本比不上
    内存方案基本就是 ktransformers ,CPU/GPU 算力足够的时候,同样也是受限于内存带宽
    PhDLuffy
        18
    PhDLuffy  
       2025 年 5 月 19 日   ❤️ 1
    你这语言能力和逻辑表达是怎么回事,说的好像你那破 4060ti 跟 m3 ultra 一个水平
    maolon
        19
    maolon  
       2025 年 5 月 19 日 via Android   ❤️ 1
    q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢? mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
    而且我也有理由相信你没解内存锁
    neteroster
        20
    neteroster  
       2025 年 5 月 19 日 via Android
    本来就是玩具水平,你在期待些什么?

    Mac 的优势只有一个,那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型,这是因为他的内存带宽高而计算能力相比起来非常非常低,因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ,上下文一长生成速度和 TTFT 更是难看。
    iamqk
        21
    iamqk  
       2025 年 5 月 19 日
    mac 就是内存/显存优势
    算力不行而已,不如 nv 的旗舰显卡
    ps:隔壁也看到了
    jfsd2000
        22
    jfsd2000  
       2025 年 5 月 19 日
    全方位吊打 nv 的话苹果肯卖你也卖不到啊。
    moooookey
        23
    moooookey  
       2025 年 5 月 19 日 via iPhone
    苹果现在的东西,娱乐一下就行了,你可别真当生产力工具啊,对自己好点
    SakuraYuki
        24
    SakuraYuki  
       2025 年 5 月 19 日
    别人说的明明是能在这个价位跑 671b 的模型,同价位显卡显存不够跑不起来,可从来没人说过 mac 跑大模型速度快的,毕竟没 cuda 加速,苹果那个 metal 生态没 cuda 好
    clemente
        25
    clemente  
       2025 年 5 月 19 日
    速度不行 但是至少能用啊
    fredweili
        26
    fredweili  
       2025 年 5 月 19 日
    能和消费级显卡比较,就不错了,至少不贵能买的到啊
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3006 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 14:50 · PVG 22:50 · LAX 06:50 · JFK 09:50
    ♥ Do have faith in what you're doing.