业余大模型选手,最近在折腾 deepseek r1 671b 的性价比部署,目标是部署官方满血 fp8 版本( A100 、3090 等不支持 fp8 的老架构就不考虑了),目前调研出的一些方案如下:
- 1 、纯 CPU 部署方案,基本是 epyc 搭配高频内存,不过性能可能不符合生产力需求
- 2 、清华的 ktransformers ,大体看了下,貌似推的是 4bit 量化版本的,看有些评论其性能也不是想象中那么高,有不少限制,专家数是否和官方的一致,并发推理问题,没有深入了解,4bit 量化不符合我们的目标了
- 3 、L40S 48GB/4090 48GB/ RTX 5880 Ada 48GB 搞分布式部署,2 台 8 卡机器共 16 卡 ,768GB 显存,貌似支持满血的部署,就是不知道性能如何,4090 48GB 的确便宜但是据说稳定性一般般?
- 4 、4090 24GB 搞 32 卡,4 机分布式部署,性能还是不清楚,不会只有 5token/s 吧,对太多机器的分布式方案性能有顾虑。
- 5 、amd 的 mi300x 192GB ,显存挺大,貌似 4 卡就可以推理,但是是 rocm ,还是有所顾忌。
- 6 、H20 96GB (141GB) 搞单机 8 卡,96GB 100 万出头就可以解决,貌似是 deepseek 推理的主流方案?
- 7 、H100 、H200 、H800 等,太贵了,100 万左右最好
- 8 、其它国产计算卡,没有深入了解,但是一般不考虑
因为各种限制,目前倾向于 RTX 5880 Ada 搞双机 8 卡推理,这个方案有问题吗?还有什么别的方案吗?