爱意满满的作品展示区。
intermission

LLM 推理显存显卡计算器:快速估算部署需求

  •  
  •   intermission · Feb 10, 2025 · 2774 views
    This topic created in 487 days ago, the information mentioned may be changed or developed.

    在工作中,我经常需要回答客户关于某个模型部署所需的显卡数量。但由于不同显卡的显存规格各不相同,大多数人很难记住每种配置,每次回答都需要临时查询。为了解决这个问题,我开发了一个 LLM 推理显存/显卡需求计算器:

    LLM 推理显存计算器

    它可以快速计算模型推理所需的显存,并估算所需的显卡数量,欢迎试用!

    6 replies    2025-02-11 12:38:19 +08:00
    podel
        1
    podel  
       Feb 10, 2025
    没有 FP4 量化。
    DeepSeek 也有 1.55 量化这些数据没有
    111111111111
        2
    111111111111  
       Feb 10, 2025
    计算结果参考意义不大啊

    deepseek-r1:32b 实测一个 22G 的显卡就够了,20 token/s ,吃掉 20G 内存
    intermission
        3
    intermission  
    OP
       Feb 10, 2025
    @111111111111 32B 的模型显存 22G 就够吗,参数是用 0.5 个字节存的?
    lovestudykid
        4
    lovestudykid  
       Feb 11, 2025
    实际的量化类型比你提供的选择多得多...还是直接看模型大小好了
    YsHaNg
        5
    YsHaNg  
       Feb 11, 2025 via iPhone
    ollama.com 默认都是 q4 量化另外还有 q4_0 q3_s 等等
    qieqie
        6
    qieqie  
       Feb 11, 2025
    建议 Inference 额外显存里加上最大 context length 作为参数。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2369 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 16:09 · PVG 00:09 · LAX 09:09 · JFK 12:09
    ♥ Do have faith in what you're doing.