V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
whyorwhynot
V2EX  ›  程序员

目前部署 deepseek r1 671b 有生产力的性价比方案

  •  
  •   whyorwhynot · 35 天前 · 425 次点击
    这是一个创建于 35 天前的主题,其中的信息可能已经有所发展或是发生改变。

    业余大模型选手,最近在折腾 deepseek r1 671b 的性价比部署,目标是部署官方满血 fp8 版本( A100 、3090 等不支持 fp8 的老架构就不考虑了),目前调研出的一些方案如下:

    • 1 、纯 CPU 部署方案,基本是 epyc 搭配高频内存,不过性能可能不符合生产力需求
    • 2 、清华的 ktransformers ,大体看了下,貌似推的是 4bit 量化版本的,看有些评论其性能也不是想象中那么高,有不少限制,专家数是否和官方的一致,并发推理问题,没有深入了解,4bit 量化不符合我们的目标了
    • 3 、L40S 48GB/4090 48GB/ RTX 5880 Ada 48GB 搞分布式部署,2 台 8 卡机器共 16 卡 ,768GB 显存,貌似支持满血的部署,就是不知道性能如何,4090 48GB 的确便宜但是据说稳定性一般般?
    • 4 、4090 24GB 搞 32 卡,4 机分布式部署,性能还是不清楚,不会只有 5token/s 吧,对太多机器的分布式方案性能有顾虑。
    • 5 、amd 的 mi300x 192GB ,显存挺大,貌似 4 卡就可以推理,但是是 rocm ,还是有所顾忌。
    • 6 、H20 96GB (141GB) 搞单机 8 卡,96GB 100 万出头就可以解决,貌似是 deepseek 推理的主流方案?
    • 7 、H100 、H200 、H800 等,太贵了,100 万左右最好
    • 8 、其它国产计算卡,没有深入了解,但是一般不考虑

    因为各种限制,目前倾向于 RTX 5880 Ada 搞双机 8 卡推理,这个方案有问题吗?还有什么别的方案吗?

    BobMaster
        1
    BobMaster  
       35 天前 via Android
    今天看到 Intel 的某方案

    DeepSeek-R1-671B-Q4_K_M with 1 or 2 Arc A770 on Xeon

    https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md
    whyorwhynot
        2
    whyorwhynot  
    OP
       35 天前
    刚刚发现 M3 Ultra 512GB 推出了,两台跑 int8 算是最性价比的方案了,可惜就是不支持 fp8
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5060 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 17ms · UTC 03:43 · PVG 11:43 · LAX 20:43 · JFK 23:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.