V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
babymonster
V2EX  ›  Local LLM

我自己的电脑是 5070Ti,总感觉跑一些模型算力不够

  •  
  •   babymonster · 4h 48m ago · 2300 views

    各位大佬们,我自己电脑配置也挺高 9800x3d+5070ti,但是自己玩大模型感觉算力不够,输出速度好慢,有没有大佬推荐一下什么显卡玩大模型算力舱还比较不错的

    41 replies    2026-04-29 18:01:18 +08:00
    wander555
        1
    wander555  
       4h 45m ago
    h100 呗,dpsk 官方的推荐配置都是这个
    babymonster
        2
    babymonster  
    OP
       4h 42m ago
    @wander555 哥这个太贵了吧 玩不起啊
    mqnu00
        3
    mqnu00  
       4h 40m ago
    是算力问题吗?我感觉显存不够用。
    foolishcrab
        4
    foolishcrab  
       4h 39m ago
    可以租算力玩啊,买卡肯定是不经济的,你又不能 7*24 用它的算力
    babymonster
        5
    babymonster  
    OP
       4h 38m ago
    @mqnu00 是的 好像只有 16G
    babymonster
        6
    babymonster  
    OP
       4h 38m ago
    @foolishcrab 好像也是 有没有推荐租用的平台
    miludeerKay
        7
    miludeerKay  
       4h 38m ago via Android
    本地的统一当玩具
    bugmaker233
        8
    bugmaker233  
       4h 36m ago
    ....跑个 27b 不错了
    vinsony
        9
    vinsony  
       4h 35m ago
    5070Ti 就玩 Qwen3.6-35B-A3B
    babymonster
        10
    babymonster  
    OP
       4h 34m ago
    @miludeerKay 哈哈哈哈哈
    andforce
        11
    andforce  
       4h 32m ago
    兄弟,不是算力不够,是你的钱不够
    yidinghe
        12
    yidinghe  
       4h 30m ago
    不要谈感觉,直接去看系统资源使用,CPU 如何,GPU 如何,内存如何,显存如何,磁盘 IO 如何,这些细节分享出来才是有效的。
    junwind
        13
    junwind  
       4h 29m ago
    你这是游戏显卡,买 H800
    asdjgfr
        14
    asdjgfr  
       4h 25m ago
    我是 u7 265k+5060ti(16g),只能跑玩具模型,消费 pc 根本玩不了本地部署,老实租算力吧
    cwcc
        15
    cwcc  
       4h 21m ago
    不是算力的问题,是显存太紧张了,只能跑个 7b 左右的才能达到每秒 70-100tok 的速度,跑更大模型受限的情况瓶颈基本全在 PCIe 带宽和显存上。

    真要横向比较的话,我自己的 36G 的 MacBook Pro 能跑 qwen3.6035b-a3b 模型,每秒能到 30token ,但长上下文直接把内存撑爆死机;相比我的 5060Ti 只能直接跑小模型,或者 CPU 混合计算下利用 64G 的 RAM 能以很慢的速度跑很大的模型也不会爆内存死机。总之各有各的瓶颈,你得知道自己的硬件瓶颈在哪里。
    babymonster
        16
    babymonster  
    OP
       4h 17m ago
    @andforce 确实 钱太少了哈哈哈
    babymonster
        17
    babymonster  
    OP
       4h 16m ago
    @junwind 兄弟 钱不够啊哈哈哈
    babymonster
        18
    babymonster  
    OP
       4h 16m ago
    @cwcc 研究研究 昨天玩了一晚上 回去接着玩
    onedge
        19
    onedge  
       4h 15m ago
    目前顶流满血可用状态( 100tps 左右)你的资金要 200w 人民币以上,更小的模型你就往回减,32GB 显存你就搞个几十 B 的模型最多了,而且速度还不会太快
    zturns
        20
    zturns  
       4h 12m ago
    租 GPU 可以试试这个平台:aHR0cHM6Ly9zaG9ydHVybC5hdC85MHoyTw==
    q1169989139
        21
    q1169989139  
       4h 5m ago
    别难为 5070ti 了哈哈,买完整的 5090 无后缀吧,5070ti 规格太差了。5070ti 只有完整的 gb203 的三分之一多一点的 cuda ,放以前叫 5060se 差不多。
    babymonster
        22
    babymonster  
    OP
       3h 42m ago
    @q1169989139 阉割这么多
    zushi000
        23
    zushi000  
       2h 49m ago
    5090 都不够 还是要 6000pro
    PeterTanJJ
        24
    PeterTanJJ  
       2h 28m ago
    至少要 24G ,本地折腾显卡的话。
    FireKey
        25
    FireKey  
       2h 14m ago
    换魔改 4090 呗
    mgrddsj
        26
    mgrddsj  
       2h 8m ago
    @babymonster #6 租算力的话,国内用 AutoDL 比较多(国内网络环境,需要配置一下用镜像之类的来下载模型),国外的话就 vast.ai ,都不是特别贵。
    drafter
        27
    drafter  
       2h 2m ago
    部署什么模型 多少速度啊?我本地也想部署个 27B 的
    limon
        28
    limon  
       1h 50m ago via Android
    放弃本地吧
    MoonShot
        29
    MoonShot  
       1h 48m ago
    本地模型,就算显存够的情况下,总感觉启动有点慢
    ntdll
        30
    ntdll  
       1h 48m ago
    你买得起的任何卡,都会让你产生“算力不够”的感觉,除非你能看得上一些弱智模型。
    tootfsg
        31
    tootfsg  
       1h 43m ago via Android
    我也是 5070ti ,gemna4 26b a4b iq4xs ,速度 150t/s ,上下文开的 64k ,我觉得这个显卡算力一点也不差,差的只是显存。iq4xs 量化倒是还行,但这个量化我不太敢实践用
    tootfsg
        32
    tootfsg  
       1h 42m ago via Android
    输出慢是因为你用内存跑了,那能快吗.......
    penisulaS
        33
    penisulaS  
       1h 39m ago
    一般来说,如果你的显存充足了,对应的算力又溢出了,所以最好还是购买线上模型
    tootfsg
        34
    tootfsg  
       1h 37m ago via Android
    我感觉个人部署开源模型,唯一高性价比方案就是等 m5 macmini/studuo 出来,3w 左右的配置买一台。

    除非是训练模型,那只能用 nv 。
    laminux29
        35
    laminux29  
       1h 35m ago
    在工作场景,除非是保密性极强的场景,否则自己搭建设备是下下之策。因为你自己搭建设备,个人出资,别说 GPT 和 Gemini 的水平,你甚至连豆包的硬件水准都达不到,输出速度肯定慢,智商必然很低,联网、记忆、工作流等常见功能还要自己去折腾。

    保密性极强的场景,一般是找运营商或厂家定制设备,我了解到的一些公司,直接购买运营商定制的商用一体机,只是硬件的价格就是 150 万元起步的水准。这种硬件,以 32B + 16 并发的性能水准提供给普通用户做对话,或者以 70B + 3 并发的水准提供给领导做驾驶舱或报表,速度与智能都比豆包低很多,但因为保密是刚需,这已经是他们的最优方案了。

    当然还有 2 类场景是适合自己搭设备,第一类是游戏高级玩家买顶配显卡,顺便偶尔拿来玩玩各种小模型;还有一类是喜欢搞各种限制级的内容输出,没办法用有法律限制的商用 API 。
    levn
        36
    levn  
       1h 33m ago
    35B ,把专家卸载到内存,速度已经够快了
    27B ,就需要 32G 显存
    luny
        37
    luny  
       1h 17m ago
    性价比最高的应该是 AMD AI Max+395 迷你主机,2 万左右,标配 128G LPDDR5X 8000MT/s ,整机算例 126T 好像能跑 70B 的模型
    babymonster
        38
    babymonster  
    OP
       1h 7m ago
    @zushi000 太贵啦
    babymonster
        39
    babymonster  
    OP
       1h 7m ago
    @limon 租用吧
    babymonster
        40
    babymonster  
    OP
       1h 2m ago
    @laminux29 大佬说的太专业了
    babymonster
        41
    babymonster  
    OP
       19 mins ago
    @tootfsg 可能是用的内存
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3909 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 123ms · UTC 10:21 · PVG 18:21 · LAX 03:21 · JFK 06:21
    ♥ Do have faith in what you're doing.