目前部署 deepseek r1 671b 有生产力的性价比方案

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 510 days ago, the information mentioned may be changed or developed.

业余大模型选手，最近在折腾 deepseek r1 671b 的性价比部署，目标是部署官方满血 fp8 版本（ A100 、3090 等不支持 fp8 的老架构就不考虑了），目前调研出的一些方案如下：

1 、纯 CPU 部署方案，基本是 epyc 搭配高频内存，不过性能可能不符合生产力需求
2 、清华的 ktransformers ，大体看了下，貌似推的是 4bit 量化版本的，看有些评论其性能也不是想象中那么高，有不少限制，专家数是否和官方的一致，并发推理问题，没有深入了解，4bit 量化不符合我们的目标了
3 、L40S 48GB/4090 48GB/ RTX 5880 Ada 48GB 搞分布式部署，2 台 8 卡机器共 16 卡，768GB 显存，貌似支持满血的部署，就是不知道性能如何，4090 48GB 的确便宜但是据说稳定性一般般？
4 、4090 24GB 搞 32 卡，4 机分布式部署，性能还是不清楚，不会只有 5token/s 吧，对太多机器的分布式方案性能有顾虑。
5 、amd 的 mi300x 192GB ，显存挺大，貌似 4 卡就可以推理，但是是 rocm ，还是有所顾忌。
6 、H20 96GB (141GB) 搞单机 8 卡，96GB 100 万出头就可以解决，貌似是 deepseek 推理的主流方案？
7 、H100 、H200 、H800 等，太贵了，100 万左右最好
8 、其它国产计算卡，没有深入了解，但是一般不考虑

因为各种限制，目前倾向于 RTX 5880 Ada 搞双机 8 卡推理，这个方案有问题吗？还有什么别的方案吗？

2 replies

BobMaster

Mar 6, 2025 via Android

whyorwhynot

Mar 6, 2025

刚刚发现 M3 Ultra 512GB 推出了，两台跑 int8 算是最性价比的方案了，可惜就是不支持 fp8