[求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

This topic created in 79 days ago, the information mentioned may be changed or developed.

现在手上有一台 NVIDIA DGX Spark（对就是 3 万多的那个，闭眼别问为啥），目前已完成以下配置：

✅ OpenClaw 已部署并正常运行
✅ Ollama 已部署，加载了本地 70B 模型

问题描述

推理速度极慢，具体表现如下：

发送 "Hello" 这类简单问候，响应时间长达 30 秒以上
尝试换用 8B 小模型，速度几乎没有改善，与 70B 差异微乎其微

排查结论

查阅官方论坛及社区资料后发现：

Ollama 的部署方式并未针对 DGX Spark 做专项优化，社区普遍推荐在该平台上改用 llama.cpp 直接部署，以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

或者上面的我说的不对,我有看专门设置,但是实际就是很烂

求助

有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥？希望得到以下指点：

具体部署步骤 或踩坑经验分享
相比 Ollama ，推理速度提升是否明显？
是否有其他更适合 DGX Spark 的推理框架推荐？（如 vLLM 、MLX 等）

希望有经验的老哥帮我指点一二！🙏

Supplement 1 · Apr 13

说实话大家不要买了这个机子跑本地模型了

带宽太低了,出水口太细了,模型再厉害也顶不住这个带宽小

有问题,希望牛逼的大哥来给小弟指教一下

dgx

Ollama

llama.cpp

48 replies • 2026-05-19 09:35:44 +08:00

coefu

Mar 5

1,你小子真舍得，牛逼。
2 ，我没有设备，你的问题没办法回答。
3 ，如果你愿意共享出来，还是能帮你 debug 试一下的。

diudiuu

Mar 5

@coefu
🤫🤫🤫🤫

https://2libra.com/post/ai-applications/vc337z0

快来先学习,已经解决了

coefu

Mar 5

@diudiuu https://www.v2ex.com/t/1126516

小伙子，在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。

diudiuu

Mar 5

@coefu 牛逼牛逼牛逼我屮艸芔茻
你这这个分析挺厉害,大哥受小弟一拜.

diudiuu

Mar 5

@coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答

coefu

Mar 5

@diudiuu #5 不差钱的话，全都买啊。mac studio m3 ultra 要是不搞 512g mem ，意义不大，顶配要 10w ，比 dgx spark 贵太多了。如果预算有限，就 dgx spark 咯？反正现在小模型的智能密度很高了。你要专业性和准确性的话，用 rag 提升，当前 ocr 和 rerank 都发展的不错了。

mac studio m3 ultra 可以串起来，组一个 1T mem 的组合跑 671B 的 deepseek 。不差钱儿的话，这个肯定更好。

coefu

Mar 5

@diudiuu #5 我几百块的成本捡的垃圾，都组了一个智能密度看起来还可以的♾️tokens 。只是有时候慢一点。😄

diudiuu

Mar 5

@coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

我想把你介绍给我朋友

coefu

Mar 5

@diudiuu #8 谢谢你先，但是我没搞🦞。而且，我对🦞这个方向没什么兴趣，😄。

去年这个时候，我把 langchain/rag 那套都搞过一遍，没什么意思。LLMs 整个领域，我都只用而已。

NikoXu

Mar 10

oss 120B 快是因为激活参数才 5B

diudiuu

Mar 11

@NikoXu 已经更换本地模型了, 更换成这个了 MiniMax-M2.5 UD-Q3_K_XL,比 oss 120B 更大更快

enihcam

Apr 6 via Android

你是不是哪个地方没设置对？

https://ollama.com/blog/nvidia-spark-performance

diudiuu

Apr 6

@enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516

diudiuu

Apr 6

@enihcam

diudiuu

Apr 6

@enihcam lm studio 这个你也不要试了达不到顶级的,这个里面设置的参数仿佛是假的

enihcam

Apr 6 via Android

exllamav3 是不是比 llama.cpp 更友好呢？

diudiuu

Apr 6

@enihcam 没有试过,cpp 论坛里面例子最多,问题基本都解决了.

https://github.com/NVIDIA/TensorRT-LLM 你可以看看这个,英伟达专门出的

enihcam

Apr 6

@diudiuu https://www.reddit.com/r/LocalLLaMA/comments/1oyawkl/why_is_vllm_outperforming_tensorrtllm_nvidias/

diudiuu

Apr 7

@enihcam
这个说的 vllm ，我个人理解总体是提高并发了
vllm > llama.cpp >>>> ollama 玩具

这台机子 DGX Spark 具体问题，建议去这里找
https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12

vllm 和 sglang 我在论坛里面有看过，还是用 llama.cpp 方式去部署了
https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子

部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子，懒得记录了，参数略多

enihcam

Apr 7 via Android

@diudiuu nvidia 官网说，tensorrtllm 已经预置在 dgxOS 里了，为啥你还要自己搞 llamacpp ？就好奇一下

diudiuu

Apr 7

@enihcam 摸石头过河，没人教啊，自己知道一点，比如 ollama 部署，但是吧实际效果非常不好，
然后就找原因，看到 cpp 和 vllm ，对比看具体原因，cpp 方式论坛里特别多，就抄了

后面才知道的 tensorrtllm ，现在很多人一股脑都是 ollama ，具体问题具体分析吧

多交流相互学习提升

enihcam

Apr 7 via Android

我还在纠结，DGX Spark 3 万元，除以 36 个月（假设三年以后性能过时），每月 800 多。这个钱为啥不拿来买 token plan ？ DGX Spark 还有什么额外价值？

diudiuu

Apr 7

@enihcam 你可以买那个 mac studio,还能当个常用的开发工具,这个建议你还是不要了,你真的想要可以买 github copilot pro,那个把高级额度用完可以用 chatgpt 5 mini,随便用,这个线上再烂也比本地的强.

我这个 dgx spark 现在就是跑了一个本地模型算股票,没有其他任何作用

enihcam

Apr 7 via Android

@diudiuu 我去，我也是用来算股票的。你用的 FinRobot 还是啥？

diudiuu

Apr 8

@enihcam 你这太高级了，现在就是写脚本导出抓取新闻+openclaw ，每隔一段时间就是抓取，然后形成文档，最后整理 ai 分析+我关注的股票，定时发给我，最终还是要靠自己看. 我看不懂股票，两个人合作的，我主要搞 ai 和数据，有另外一个朋友专门看数据，然后修改。

enihcam

Apr 8 via Android

@diudiuu 我正好在落地类似的产品，可以理解为新闻订阅+分析。你觉得会有付费意愿吗？海外。

diudiuu

Apr 9

@enihcam 国内人白嫖的居多
@coefu 大哥给老弟看看呗

都来看下最新部署 gemma4 31b 的效果
https://2libra.com/post/ai-applications/KT_9AES

目前结论是卡在这台 dgx spark 机子本身的带宽了，有什么建议，相互交流一下

pikko

Apr 10

@enihcam #22 三年后我是不能卖了吗。而且这个机器强项在边缘微调模型测试

enihcam

Apr 10 via Android

@pikko 属于搞笑了。问你，三年后的计算场景是啥？

diudiuu

Apr 11

@enihcam 哈哈哈哈买给我公司,我公司喜欢买别人九手的东西

coefu

Apr 13

@diudiuu #27 dgx spark 这么拉，我还想攒钱买呢，一看到

Memory：128 GB LPDDR5x unified system memory, 256-bit interface, 4266 MHz, 273 GB/s bandwidth

JD 上面要 3.4w ，就给个这。

我发现一个神卡，Nvidia tesla A16.

spark 就这尿性了，mem bandwidth 决定了的，推理引擎也救不了。还不如 amd mi250：

GPU Memory
Dedicated Memory Size
128 GB
Dedicated Memory Type
HBM2e
Memory Interface
8192-bit
Memory Clock
1.6 GHz
Peak Memory Bandwidth
3.2 TB/s
Memory ECC Support
Yes (Full-Chip)

看 mi250 这屌炸天的 3.2T mem bandwidth ，就算是 rocm 拉，也就是优化 rocm 的事情，现在 LLM coder 都能整 cuda ，难道不能整 rocm ？看好 amd ，yes ！

coefu

Apr 13

@enihcam #22 dgx spark 纯属老黄恶心人的，喜欢搞一些非 HBM 的消费级 gddrX 显存搞成超算产品。

什么 A10 ，A16 ，就是 Ampere 核心 + gddrX 显存。特别是 A16 这个奇葩，搞了 4 个弱 Ampere 核心（只有 1280 个 cuda+40 个 tensor core ）+ 16G gddr6 ，一张卡凑了 64G 。每个 Ampere 到 gddr6 有 200GB/s 的 bandwidth ，四个 core 片上走 pcie 直通，tensor parallel inference 能搞到 800GB/s 。

coefu

Apr 13

@enihcam #26 你搞到技术面，还是基本面？基本面，我有大招。远超市面上的技术。

coefu

Apr 13

@diudiuu #25 你们赚钱了没？

diudiuu

Apr 13

@coefu 赚个鸡,我现在就负责天天研究装模型,其他的不管了

https://2libra.com/post/ai-applications/ovZiTd0

上面是我装 26B 的测试结果,有两个测试结果没有写
这俩的 Q8 25token/s Q6 32token/s,现在用的 Q6 的

这个机子的带宽说实话,一言难尽,出水管太细了

enihcam

Apr 13

@coefu ”Nvidia tesla A16“+整个系统，价格超标； MI250 京东没有自营。

coefu

Apr 14

@enihcam #36 还有一个极致的 hack 128G 方案，只怕你技术不行。

amd mi50 32G * 4 。最关键是，mi50 32G 因为其折腾的门槛，海鲜市场当前 950 一张，4 张才一张 nvidia tesla v100 32G 的价格。

但是，复杂的 rocm 配置，和多卡 tensor parallel 的技术，有点门槛的。

coefu

Apr 14

@coefu #37 不过，mi50 夸张的 1.02T/s bandwidth + pcie 4.0 ，足够有吸引力了.

coefu

Apr 14

@enihcam #36 A16 这种，配合 LatentMAS ，实际上是当前最佳方案了。同一张卡有 4 个 gpu ，可以跑 4 个 qwen3.5 9B Q8 ，合作的好的话，能力提升是指数级的。

enihcam

Apr 14

@coefu 我就没有技术，这不是我的兴趣点。

puzzle1

Apr 18

MiniMax-M2.5 UD-Q3_K_XL 这个模型大概多少 token/s

diudiuu

Apr 19

@puzzle1 20 左右,这个非常消耗 128g 的,啥也不干就剩下 6%

puzzle1

Apr 19

老哥你这个多钱买的，想买一个买来玩玩，看看能不能做出什么东西你感觉有必要吗还是买 mac studio 好

diudiuu

Apr 20

@puzzle1 3 万 2 大洋京东买的，个人感觉不划算这个机子带宽太低了，gemma4 31b 16bf 完全可以使用，就是带宽太低了导致他吐出 2.5token/s

真的要买，还是要多了解后自己组装吧。mac studio 不敢推荐啊，毕竟这玩意都挺贵的

puzzle1

Apr 20

好的谢谢那就不考虑了确实带宽太低了

qazwsxkevin

Apr 22

@diudiuu 如果拿来做 c++,python 的 vibe code,review;或者给出初高中的数学物理,某题的解题思路;
就这两类事情,
DGX Spark 128G 跑个什么模型能基本应付呢?
如果有合适(或者将就)的模型情况，85%额定容量的上下文打进去,Spark 要多久时间,才有反应开始出 tokens?
每秒能吐多少 tokens?

enihcam

2 days ago

https://github.com/ollama/ollama/releases/tag/v0.30.0-rc17

`This version of Ollama will change the architecture to directly support llama.cpp instead of building on top of GGML...`

diudiuu

2 days ago

@enihcam #47 后面都没有用 ollama ，可以仔细看我这里帖子的链接。这机子不行