V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
diudiuu
0.04D
V2EX  ›  Local LLM

[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?

  •  
  •   diudiuu · 3 天前 · 298 次点击

    现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:

    • OpenClaw 已部署并正常运行
    • Ollama 已部署,加载了本地 70B 模型

    问题描述

    推理速度极慢,具体表现如下:

    • 发送 "Hello" 这类简单问候,响应时间长达 30 秒以上
    • 尝试换用 8B 小模型,速度几乎没有改善,与 70B 差异微乎其微

    排查结论

    查阅官方论坛及社区资料后发现:

    Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

    或者上面的我说的不对,我有看专门设置,但是实际就是很烂


    求助

    有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:

    1. 具体部署步骤 或踩坑经验分享
    2. 相比 Ollama ,推理速度提升是否明显
    3. 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)

    希望有经验的老哥帮我指点一二!🙏

    9 条回复    2026-03-05 17:37:31 +08:00
    coefu
        1
    coefu  
       1 天前
    1,你小子真舍得,牛逼。
    2 ,我没有设备,你的问题没办法回答。
    3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。
    diudiuu
        2
    diudiuu  
    OP
       1 天前
    @coefu
    🤫🤫🤫🤫

    https://2libra.com/post/ai-applications/vc337z0

    快来先学习,已经解决了
    coefu
        3
    coefu  
       1 天前
    @diudiuu https://www.v2ex.com/t/1126516

    小伙子,在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。
    diudiuu
        4
    diudiuu  
    OP
       1 天前
    @coefu 牛逼牛逼牛逼我屮艸芔茻
    你这这个分析挺厉害,大哥受小弟一拜.
    diudiuu
        5
    diudiuu  
    OP
       1 天前
    @coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
    coefu
        6
    coefu  
       1 天前
    @diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。

    mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。
    coefu
        7
    coefu  
       1 天前
    @diudiuu #5 我几百块的成本捡的垃圾,都组了一个智能密度看起来还可以的♾️tokens 。只是有时候慢一点。😄
    diudiuu
        8
    diudiuu  
    OP
       1 天前
    @coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

    我想把你介绍给我朋友
    coefu
        9
    coefu  
       1 天前
    @diudiuu #8 谢谢你先,但是我没搞🦞。而且,我对🦞这个方向没什么兴趣,😄。

    去年这个时候,我把 langchain/rag 那套都搞过一遍,没什么意思。LLMs 整个领域,我都只用而已。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 79ms · UTC 01:46 · PVG 09:46 · LAX 17:46 · JFK 20:46
    ♥ Do have faith in what you're doing.