测试结果
671b: 6.2 tps
70b: 19 tps
32b: 38 tps
硬件环境
CPU 7955wx
64G x 8 512G 内存(读 100GB/s,写 200GB/s, 2CCDs 的原因)
4090 48G x 1
671b 软件环境
ubuntu 20.04
python 3.11 + ktransformer 0.2.2rc1
CUDA 12.4
Torch 2.6
单看 671b 速度并不算快,占用了 390G 内存,14G 显存。显卡使用率长期低于 50%,功耗 100W 。用于生成代码和 chatgpt 速度还是有明显的差距。b 站上有人用 9275fx2+4070ti 跑出了 18.5tps 速度,这个已经非常可用了