本地跑 sd 和 local llm 推理, 什么显卡性价比最高？

cinlen · 2024-06-28T03:47:49Z

如题。纯推理，主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。

推理

性价比

显卡

38 replies • 2024-07-01 11:02:47 +08:00

1

justFxxk2060

Jun 28, 2024

2080ti 魔改

2

13240284671

Jun 28, 2024

3060ti 16g

3

13240284671

Jun 28, 2024

说错了，4060 16g

4

hez2010

Jun 28, 2024

本地一般是跑量化后的模型，你的显卡起码得支持 INT8 和 INT4 。

5

xiaoluxiaolu

Jun 28, 2024

应该要求不高吧，前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ，不过就是比较慢

6

cinlen

OP

Jun 28, 2024

@justFxxk2060 有看到 2080ti + 22g 的方案，这个靠谱吗？

7

cinlen

OP

Jun 28, 2024

@hez2010 最好是可以 fp16

8

my101du

Jun 28, 2024

@13240284671 非 ti 的 4060 ，好像都是 8G 的？ 618 想装机都没找到 16G 的 4060.

9

cinlen

OP

Jun 28, 2024

@netizenHan 目前我是 m1 跑小模型没啥问题。但还有 sd webui 和 sd comfyui 的需求，所以应该会攒台新机器。

10

ccloving

Jun 28, 2024

如果是 SD 和 ollama ，用 A 卡是不是就可以

11

cinlen

OP

Jun 28, 2024

@ccloving 好问题. 话说你不提我压根没想过 A 卡

12

ccloving

Jun 28, 2024

@cinlen B 站上有人搞 A 卡，你搜搜，又不炼丹，按说没问题，大显存的显卡都不贵呀。

13

ntdll

Jun 28, 2024

@netizenHan #5 8B 效果很一般，基本处于完全胡诌的状态，我用 3090 跑过，响应速度快，但是胡说八道。而 70B ，我的 3090 就跑不起来了。

14

SamLacey

Jun 28, 2024

@cinlen 矿卡老祖了，如果售后有保障，或者你动手能力强可以冲，40 系老黄刀法太好了，60superti 与 70 价格差一倍，性能也刚好差一倍，显存不爆的情况下，只有时间差别

15

SamLacey

Jun 28, 2024

反正挺推荐 4070ts 的

16

luchenwei9266

Jun 28, 2024

看预算，3000 以下无脑选 2080ti 22G

17

goxxoo

Jun 28, 2024

我算过了, 和一台 MBP 价格差不多...2w 以内

18

zysuper

Jun 28, 2024

没钱选 NVIDIA GeForce RTX 4060 Ti ，

19

billgreen1

Jun 28, 2024

M2 ULTRA 192GB,

20

cinlen

OP

Jun 28, 2024

@luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗？

21

FlintyLemming

Jun 28, 2024

@cinlen ollama 默认下的都是 int8 int4 的量化模型，根本就不会给你下 fp16 的，你显存小也没有必要跑没量化的模型

22

afeiche

Jun 28, 2024

个人感觉显存大的，新一点的，毕竟现在有些大模型必须用 cuda12 以上了，我印象中 2 系列的，不支持 12

23

cinlen

OP

Jun 28, 2024

@FlintyLemming 请教一下，如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算？和推理一样用参数量乘以数据类型占用 bit 数吗？

24

keakon

Jun 28, 2024

@cinlen https://huggingface.co/spaces/hf-accelerate/model-memory-usage

25

FlintyLemming

Jun 28, 2024

@cinlen 量化跟推理不一样，显存没上限的，越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档，然后根据设置的参数计算。

26

Greendays

Jun 28, 2024

不能接受改装的话，应该就是 4060ti 16G 了吧，或者 3060 12G

27

Champa9ne

Jun 28, 2024

居然没人推 P40 ？最廉价的 24G 显存，现在 LLM 能上大参数效果才可堪一用啊。自己一个人用，推理一次多等两分钟无所谓了吧？

28

woorz

Jun 28, 2024

轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 ！搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea

29

slowgen

PRO

Jun 29, 2024

@Champa9ne P40 太老了，带宽小，算力差，朋友拿 10 张去跑 Command R Plus 104B 8bit 推理，速度不到 2 token/s ，拿 M2 Ultra 192GB 跑起码还有 5.x token/s ，各种意义上的电子垃圾。

30

slowgen

PRO

Jun 29, 2024

@cinlen 2080ti 22g 我手头有 2 张，分别 24 小时开机 1 年和 1 年半，没啥问题。不建议买水冷版，单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大，把功耗限制在 70%左右，风扇拉一下可以得到很好的噪音/性能表现，跑 AI 性能下降在 10%左右。买了一张就会买第二张，迟早走上 4 卡/8 卡的道路。

31

rammiah

Jun 29, 2024 via Android

4090, you buy more, you save more

32

flymeto

Jun 29, 2024

2080ti 魔改，自己用一年了，没啥问题

33

cowcomic

Jun 29, 2024

建议上安培架构的显卡，也就是 30 系和 40 系
印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡

34

crackidz

Jun 29, 2024

@ccloving @cinlen 千万别用 A 卡，一堆坑，最好的还是换 N 卡，别问我怎么知道的

35

crackidz

Jun 29, 2024

跑 SD 最好还是显存足够大，跑 LLM 的话量化 int4 损失也不大，但 SD 是不一样的，基本上都需要 fp16 ，这样子的话 24G 显存是最好的选择，比如 3090 。当然你要是知道魔改卡的话那就...

36

luchenwei9266

Jun 29, 2024

@cinlen #20 没什么雷，用了一年多了。建议上三风扇版本。

37

ccloving

Jul 1, 2024

@crackidz 只是 ollama 推理和 SD 作图也不行吗？

38

crackidz

Jul 1, 2024

@ccloving 主要是 SD 啊，ollama 是没什么问题的