比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器
好奇问一下,想学习学习
为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。
现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。
1
makictos PRO 每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
|
2
minami 1 小时 26 分钟前 via Android
关键字:NvLink 、NvSwitch 、InfiniBand
|
3
ptstone 1 小时 7 分钟前
网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑
|
4
liaohongxing 1 小时 4 分钟前
|
6
catazshadow 56 分钟前 via Android
@stoneabc 延迟要炸的
|
7
geekvcn 42 分钟前
目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧
|
8
thevita 42 分钟前
单台机内 nvlink
跨机器 RDMA 呗 网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP ) 跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟 不是搞这个的,仅仅是个人粗浅的理解 |
9
mingtdlb OP |
10
roygong 23 分钟前 via iPhone
Infiniband 是一个专门的硬件,有了就可以跨机跑模型
|
12
neteroster 17 分钟前
除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的
|
13
Muniesa 12 分钟前 via Android
sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/ |
14
stoneabc 3 分钟前
@catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了
|