Deepseek R1 671B 本地部署方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

公司让部署满血的 Deepseek R1 671B 目前机器有四台每台机器八张 4090 每张显卡 24G 有大佬能推荐一下部署方案嘛

DeepSeek

14 条回复

Marshaii

10 天前 via iPhone

https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw 刚看到个

mcsddjyd

10 天前

@Marshaii 感谢我先看看

mcsddjyd

10 天前

@Marshaii 这个好像是 cpu 的部署方案

Marshaii

10 天前 via iPhone

@mcsddjyd sorry ，在地铁上刷到直接收藏还没来得及看。无视我吧，Orz

waityan

10 天前

别想了，这最大只能部署 1.58 -bit 的版本吧，用处不大。不如直接用 QWQ-32B 吧

mcsddjyd

10 天前

@waityan 老板要求部署我也没法现在就卡在四台机器上的 4090 加载模型的时候无法通信使用的是 ray+vllm

pkoukk

10 天前

@mcsddjyd #6 一般的以太网承载不了显卡间通信的带宽吧，多卡机器通信要用 InfiniBand 或者 ROCE 吧

ychost

10 天前

建议 QWQ 吧，你这个部署低级量化版本效果不理想

Chihaya0824

10 天前

4*8*24=768G
这显存应该够，为啥只能部署低精度的...
神奇，ray+vllm 不能用，ray list nodes 正常吗？
那要不试一下 llama.cpp rpc mode?
https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md

Clannad0708

10 天前

ollama 吧看看，网上不是很多方案吗

dayanshenjun

10 天前

@mcsddjyd #6 7 楼老哥说的是对的，但是 RoCE 的话带宽估计也不行，我们也在研究，想要部署 671B FP8 版本的话，单台八卡至少是 H20 96G 的，集群的话，供应商推荐至少是 400G 的 IB 网卡起步，初步算至少 200W 吧😂

SeaRecluse

10 天前

没有 NVLink 还想部署，老老实实换 X100 系列

kd9yYw2RyhQwAwzn

10 天前

单纯跑起来的话 sglang 或者 ray cluster 就行

Zaden

10 天前

4090 没法做服务器之间集群的，普通的 pcie 连接带宽不够，需要 nvlink 、hccs 之类专用总线