V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
abc0123xyz
V2EX  ›  Local LLM

intel 显卡跑 Qwen3-14B-GGUF:Q8_0

  •  
  •   abc0123xyz · Jun 8, 2025 · 1880 views
    This topic created in 324 days ago, the information mentioned may be changed or developed.

    系统 win11

    使用
    https://www.modelscope.cn/models/Intel/ollama

    设置环境变量
    set ONEAPI_DEVICE_SELECTOR=level_zero:0
    set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
    set OLLAMA_NUM_PARALLEL=1

    start-ollama.bat

    ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0

    大概十几 tokens/s ,因为我后台还开着其他东西不确定是否有影响,但是感觉显存不够,已经占用了一部分的系统内存.


    6 replies    2025-06-10 14:31:35 +08:00
    privil
        1
    privil  
       Jun 8, 2025
    ollama ps 看一下是不是 100% GPU 你这显卡显存多大你也不说。
    abc0123xyz
        2
    abc0123xyz  
    OP
       Jun 8, 2025
    @privil 忘了😂,刚刚急着洗澡
    a770 16g 版本,占用待会我看下。
    mumbler
        3
    mumbler  
       Jun 8, 2025
    qwen3 30B MOE 模型不需要显卡,纯 CPU 就能跑出 10-15t/s 的速度,能力和 14B 差不多
    w568w
        4
    w568w  
       Jun 9, 2025
    完全没必要跑 Q8_0 。Q6 到 fp16 在日常使用几乎没有差异,可以省点显存,尝试大点的模型。Q4 以下才有显著影响
    ExplodingDragon
        5
    ExplodingDragon  
       Jun 9, 2025
    显存不够回退到内存了,Q8 模型本身有 15.6G +
    coefu
        6
    coefu  
       Jun 10, 2025
    效果很可以了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4020 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 71ms · UTC 00:52 · PVG 08:52 · LAX 17:52 · JFK 20:52
    ♥ Do have faith in what you're doing.