业余大模型选手,最近在折腾 deepseek r1 671b 的性价比部署,目标是部署官方满血 fp8 版本( A100 、3090 等不支持 fp8 的老架构就不考虑了),目前调研出的一些方案如下:
因为各种限制,目前倾向于 RTX 5880 Ada 搞双机 8 卡推理,这个方案有问题吗?还有什么别的方案吗?
1
BobMaster 35 天前 via Android
今天看到 Intel 的某方案
DeepSeek-R1-671B-Q4_K_M with 1 or 2 Arc A770 on Xeon https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md |
2
whyorwhynot OP 刚刚发现 M3 Ultra 512GB 推出了,两台跑 int8 算是最性价比的方案了,可惜就是不支持 fp8
|