现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:
推理速度极慢,具体表现如下:
查阅官方论坛及社区资料后发现:
Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。
或者上面的我说的不对,我有看专门设置,但是实际就是很烂
有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:
希望有经验的老哥帮我指点一二!🙏
1
coefu 1 天前
1,你小子真舍得,牛逼。
2 ,我没有设备,你的问题没办法回答。 3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。 |
2
diudiuu OP |
3
coefu 1 天前
|
5
diudiuu OP @coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
|
6
coefu 1 天前
@diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。
mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。 |