V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
privater
V2EX  ›  macOS

买大内存 MacBook 的一个意外好处——私人 AI 服务器

  •  
  •   privater · 1 天前 · 4170 次点击
    MacBook Pro M1 Max 64G 可以跑 DeepSeek R1 的大模型当 AI 服务器,当年想都没想过还有这个用途。



    之前本机跑 Llama 3 性能并不好,能力不如大部分收费的模型,但是如今有了 DeepSeek ,一下就山鸡变凤凰,相当于本地跑个 Chatgpt o4 mini 的水平,这就很够用了。

    当然 70B 模型虽然能跑动,回答速度是比较慢的,目测大概 3 tokens/s ,只能用来问适合思考的问题,例如我问了个黑洞视线的问题,花了大约 2 分钟才输出完毕。但是如果降低点要求用 32B 模型,输出能快到 15 tokens/s ,基本和线上服务相似,就非常可用了:

    41 条回复    2025-01-30 20:01:41 +08:00
    winson030
        1
    winson030  
       1 天前 via iPhone
    64 的可以搞搞。我这 8gb 的 air 还是 api 吧。
    qdwang
        2
    qdwang  
       1 天前   ❤️ 16
    私人本地跑大模型,没什么实际意义的。

    1 你只能跑小一些的模型,联网的同公司模型只要比你大,总归性能比你好。
    2 费内存。你模型不载入内存,每次都要冷启动,你模型载入内存,永远占去一大块。
    3 费电,如果是不插电的笔记本,很快电费完了。
    4 速度慢

    除非你
    1. 非常注重隐私
    2. 工作环境没网
    3. 大量本地 rag 需求
    dilidilid
        3
    dilidilid  
       1 天前
    没啥用,玩两次绝大部分人还是会去用线上大模型
    chiaf
        4
    chiaf  
       1 天前 via iPhone
    64G 还是太小了。

    跑 sd 的模型还是挺耗内存的。
    allpass2023
        5
    allpass2023  
       1 天前
    比较好奇,只是耗内存/显存吗? 运行的时候 CPU 和 GPU 占用是怎么样的?
    wsbqdyhm
        6
    wsbqdyhm  
       1 天前 via iPhone
    @qdwang #2 说到点子了,没什么意义。就安装的时候玩一玩,然后换到其他的,时候卸载前玩玩
    234ygg
        7
    234ygg  
       1 天前
    我用 ubuntu server 上的 4090 跑 32b ,显存占用 21864/24564MiB ,GPU 推理功耗 350w 电感唧唧叫,完成推理后不释放显存的话功耗大概 15w ,吐第一个字的等待时间较久,后续我肉眼感觉大概是三五十 token/s ,反正比我阅读速度快多了。
    纯中文对话的限定条件下,32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多,远不如网页订阅版的 4o 和 openai 官方的 4o api (请注意不是第三方假 4o api )。
    整体上我评价为可以作为非常靠谱的中文翻译模型使用了,比之前的外国宝宝们强在能稳定输出中文,其他没看到任何进步。
    ZeroClover
        8
    ZeroClover  
       1 天前
    用 Apple Silicon 跑 LLM 的都建议阅读:

    https://blog.hjc.im/apple-uma-for-llms-problems.html

    基本就属于能跑个玩,但是 Token 生成速度不具备实用价值

    如果专门买 Mac 跑 LLM ,那只能说。。。

    特别是 DeepSeek 的 API 便宜得就像不要钱
    arischow
        9
    arischow  
       1 天前 via iPhone   ❤️ 1
    模型换成社区做的 R1 distilled
    hefish
        10
    hefish  
       1 天前
    我去,我也要我也要,。。。。。我也要搞 64G 的 mac 。。。
    yukino
        11
    yukino  
       1 天前 via Android
    @ZeroClover API 能给我写小黄文吗🤪
    bybyte
        12
    bybyte  
       1 天前
    如果不是对隐私性要求特别强,官网的满血模型更好
    ShadowPower
        13
    ShadowPower  
       1 天前   ❤️ 1
    @hefish 有 64G 内存的 Mac 玩玩还可以,为了跑 LLM 买 64G 内存的 Mac 就不值得了……
    hefish
        14
    hefish  
       1 天前
    @ShadowPower 没事,老板出钱
    chiaf
        15
    chiaf  
       1 天前 via iPhone   ❤️ 2
    @hefish 老板出钱就买 128G 的,64G 还是太小了🤪
    hefish
        16
    hefish  
       1 天前   ❤️ 1
    @chiaf 这倒也是啊。。。也可以多搞几台。。。办公室一人一台嘛。。。
    Donaldo
        17
    Donaldo  
       1 天前
    速度太慢了,只能是体验一下。真要想提供“服务”,不如买 4 张 22g 的 2080ti 。。
    dji38838c
        18
    dji38838c  
       1 天前
    何必呢,要隐私的话,自己云上部署一个 GPU 的不是更好。
    haiku
        19
    haiku  
       1 天前 via Android
    有海外老哥尝试部署原版不蒸馏 r1 ,$ 6000 跑几个 token/s
    Nasei
        20
    Nasei  
       1 天前
    我用 m3pro 试过 14b 的模型,我不知道它的生成速度,但我直观感觉就是本地就图一乐,实际就不可用
    levn
        21
    levn  
       1 天前
    70b 的大小是 32b 的两倍,那么速度应该在 7t/s 左右,为什么下降那么多呢。
    ZeroClover
        22
    ZeroClover  
       1 天前
    @yukino 自己没试过就不要抖机灵

    OpenAI 官方 API / AWS Bedrock / OpenRouter 这三家黄文和 politics 都没什么问题,除了一些非常过激的模型本身拒绝回答,其他都毫无问题。

    模型训练引入的道德观念得靠 Post Training 解决,这更不是 Apple Silicon 能做到的事情
    ZeroClover
        23
    ZeroClover  
       1 天前
    @levn 因为带宽不够了
    LnTrx
        24
    LnTrx  
       1 天前   ❤️ 2
    @qdwang 还有一点是价格。用 API 容易不小心造成大额开支,但自部署可以利用原本闲置的设备,电费、折旧成本相对可控。蒸馏模型虽然知识不行,但目前推理、翻译等已经有一定能力了,可以搞一些很费 token 的活。
    youthfire
        25
    youthfire  
       1 天前 via iPhone
    我是 m3 96gb ,实际跑 deepseek r1:32b 还是觉得太慢了,别说 70b 了
    buruoyanyang
        26
    buruoyanyang  
       1 天前
    公司好像有个 a6000 在吃灰,来年了我也去跑个本地的试试
    GabrielleBellamy
        27
    GabrielleBellamy  
       1 天前   ❤️ 1
    我是 M4 Max 128GB 内存,跑 DeepSeek 32b 非常流畅。
    qiaobeier
        28
    qiaobeier  
       1 天前
    @yukino 现在所有 AI 都只能写些低年级小学生作文,我女儿四年级就没法用了,1 ~ 2 年级我经常用 GPT 写范文再让她改改,三年级就被老师发现用了 AI😂
    davidqw
        29
    davidqw  
       1 天前
    32b 的蒸馏日常可用,但不如 671b 本体
    fcten
        30
    fcten  
       1 天前
    这居然是意外好处吗,我以为买大内存 mac 设备的都是为了本地跑 LLM 的。毕竟 mac 的金子内存一般人没需求是不会拉满的...
    除了跑 LLM 还有哪些需求会用到大内存?视频剪辑?
    youthfire
        31
    youthfire  
       1 天前
    @GabrielleBellamy 差别那么大?我是 m3 max 96gb 。跑 32b ,按道理显存也足够,甚至还富裕,但是我觉得回答很慢。用的 Open webui ,还经常 network problem ,不过答案仍然会出来。
    youthfire
        32
    youthfire  
       1 天前
    我发现直接用 ollama 速度很快,用 open webui 调用 ollama 却回答非常慢
    privater
        33
    privater  
    OP
       21 小时 21 分钟前
    @fcten 21 年的时候,哪有什么 AI 模型的概念啊,都是研究员的玩物,大内存是应对全栈开发的,直到 2022 年底 chatgpt 爆火后才慢慢进入视线,实际能轻松跑,还有后面的 pytorch 等库对 M1 系列支持开始。

    这台电脑现在 1 分钟就能解决完所有安装和库的兼容性,下载完模型就能用,这种易用性跟装个浏览器差不多了,21 年想都没法想,我其实感概的是这点
    PandaIsGood
        34
    PandaIsGood  
       20 小时 18 分钟前
    @fcten IDE 吃内存还是挺厉害的,加上常年开一堆浏览器 tab
    feikaras
        35
    feikaras  
       14 小时 2 分钟前
    懂电脑的越来越少了。可惜。
    就 mac 那个速度,你给他 192g 都不顶用啊。
    xiaoqi6pi112
        36
    xiaoqi6pi112  
       12 小时 24 分钟前
    @ZeroClover 我之前看有人用 mac mini 做了一个集群
    moudy
        37
    moudy  
       7 小时 49 分钟前
    @qdwang #2 4. 想玩 nsfw ??
    yunpeng2015
        38
    yunpeng2015  
       6 小时 50 分钟前
    m3 max 36G ,跑 r1 14b 很流畅,32b 可以运行但输出比较慢
    Vitta
        39
    Vitta  
       4 小时 44 分钟前
    64g 的 intel 人都麻了
    ZeroClover
        40
    ZeroClover  
       2 小时 39 分钟前
    @xiaoqi6pi112 自媒体哗众取宠搞的,不具备任何生产价值和成本优势。同样的成本拿传统显卡方案搞更便宜更通用更可靠

    如果捡垃圾那就更便宜了

    https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html
    hedwi
        41
    hedwi  
       2 小时 38 分钟前
    deepseek 100 万 token 1 块钱 你闲的吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1994 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 14:40 · PVG 22:40 · LAX 06:40 · JFK 09:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.