有人用 4070、4060 显卡的笔记本测试过跑 llama3，问问题，或者读取文档做总结，需要多长时间吗？

llama3

31 replies • 2024-05-27 16:35:26 +08:00

1

rabbbit

May 26, 2024

内存太小只能跑小模型，效果不好。

2

rabbbit

May 26, 2024

举个例子，给出一段文本，让模型回答文中日期相关的问题。7b 会瞎编，72b 则没这个问题。

3

beginor

May 26, 2024 via Android

确实，13b 以下的都只能称之为小模型，用于学习其原理或者娱乐一下还可以。

真正能用的得 30b 以上的模型，最好是非量化版本的，然而 30b 以上的模型又不是一般电脑能跑得动的。

4

godqueue

OP

May 26, 2024

就是用来学习，就看看返回速度快不快而已。。其他的不重要。。

5

godqueue

OP

May 26, 2024

现在用的是 mac pro2017 笔记本，有点老。。新的 mac 好像跑这些也不太行。。
看了下 4080 、4090 的笔记本都比较贵。。想先看看 4060 、4070 之类的本能不能简单的满足学习的场景

好像除了这个，我对显卡没啥要求。。这样来看去买 4080 、4090 笔记本又感觉有很费钱。。

6

rabbbit

May 26, 2024

小的 0.5b 都有。问题是他瞎编的时候，搞不清楚到底是数据、提示词有问题，还是模型的问题。

7

haiku

May 26, 2024 via Android

1

7b 有三五十 token 一秒吧，13b 好像只有十左右了

8

godqueue

OP

May 26, 2024

@rabbbit 我还没遇到这个情况。。只是学了一下提示词、function calling 。然后自己用了下公司的知识库。。随便问回答的感觉还可以，用的 llama3 模型。一般情况下用提示词基本都能解决。。

9

sentanl869

May 26, 2024

最近用笔记本的 3070Ti 跑 llama3:8B 模型，问问题响应很快，有点出乎意料，本来以为会挺慢的；文档总结还测过；
目测模型推理使用的显存 4G 左右，长时间的推理开销也还没来得及测试；

10

rabbbit

May 26, 2024

@godqueue
这个看应用场景，如果是法律、客服类的要求是尽可能的按照知识库资料回答，很忌讳模型不跟据资料回答，瞎编内容。
你用的多少 b 的模型？

11

rabbbit

May 26, 2024

试试这个

根据已知资料,回答用户问题.不要回答已知资料中没有的内容. \n 已知资料: 爱达·魔都号（英语：Adora Magic City ）是中国第一艘国产大型邮轮，由上海外高桥造船于 2019 年 10 月 18 日开始建造，2023 年 11 月 4 日交付中船嘉年华，2024 年 1 月 1 日正式营运，将以上海为母港，执航日本及东南亚航线。该船长 323.6 米，宽 37.2 米，总吨 13 万 5500 吨，有 24 层楼高，2125 间客房，可载乘客 5246 人。船上有豪华酒店、影院剧场、水上乐园、健身房、篮球场、免税店、海上探索营等设施，全船有 5G 信号覆盖。船上一共配备了 20 艘救生艇。 \n 用户问题: 魔都号的尺寸是多少?

12

lrigi

May 26, 2024 via iPhone

1

@rabbbit 我测了一下 mac 上 ollama 默认模型,均为 4bit 量化
wizardlm2:8b
根据已知资料，爱达·魔都号（ Adora Magic City ）的尺寸为：长度 323.6 米，宽度 37.2 米。
phi3:4b
魔都号的尺寸为 323.6 米长，37.2 米宽。
Llama3:8b
根据已知资料，爱达·魔都号（ Adora Magic City ）的尺寸是：

* 长 323.6 米
* 宽 37.2 米

因此，这艘邮轮的长宽为 323.6 米 x 37.2 米。

13

BernieDu

May 26, 2024

@lrigi 这还用测吗，你看模型大小就看出来了啊，70b 的才 40g 大小。

14

gpt5

May 26, 2024

大几十 b 的模型，大概需要什么配置跑？

15

BernieDu

May 26, 2024

@lrigi 看了一眼只是默认是 4bit ，可以选 q6 fp16 的 branch 。

16

Ayahuasec

May 26, 2024

用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ，卸载了 20 层到 GPU 上，把 context 限制在 2048 的话，跑 q4km 量化的 14b 模型，日志文件里记录的一次速度如下：
llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

有 GPU 加速的话 Prompt Eval 的速度会非常快，基本上发出几百个字的文本给模型以后，马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右，体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复（ 500 字可能要等半分钟的样子）。

但是 RTX4050 的显存比较小，如果要开启比较大的 context 的话，就只能往显存上放更少的层，模型的输出速度就会慢下来。不过我感觉可用性还是挺好的，至少出门在动车上的时候连不上网就可以直接问本地模型了。

17

kenvix

May 26, 2024

@beginor #3 量化影响不大，参数量才是关键

18

godqueue

OP

May 27, 2024

@Ayahuasec amd cpu 不影响跑大模型吗？现在 amd 的 cpu 咋样，还有啥东西会存在兼容问题之类的么？
跑虚拟机或者安装 linux 系统会有影响吗？

我是用 ollama run llama3 "summarize this file $(cat test.txt)" --verbose 这个命令来看速度的

total duration:4m16.4180938s
load duration:524.8u
。。。。。

19

beginor

May 27, 2024 via Android

@kenvix 也有影响的，70b 的话 q5_k_m 跑不动，提示超内存，q4_k_m 勉强能跑起来

20

lrigi

May 27, 2024 via iPhone

@BernieDu 我知道，楼主或其他人不一定知道默认是 4bit 啊，我不看我也知道有 fp16 ，但有 fp16 又怎样？你能说一下 4bit 和 fp16 在实际中区别在哪吗？我测一下只是为了说明这种任务模型不一定非要 70b ，

21

godqueue

OP

May 27, 2024

@rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧

22

godqueue

OP

May 27, 2024

@lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。

23

looveh

May 27, 2024

macM1 跑 8B 都有点卡，我试了一下服务器上的 3090 ，跑 8B 完全没问题，跑 70B 也很卡

24

godqueue

OP

May 27, 2024

你们不会拿笔记本显卡跑 70b,如此大模型吧。。

25

rabbbit

May 27, 2024

@godqueue
没错，能输出长宽就是符合要求的。
可以按小时租 gpu ，便宜的几块钱一小时，不用的时候关掉。

26

Ayahuasec

May 27, 2024 via Android

@godqueue 现在软件兼容性上，AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话，CPU 跑起来 int4 的 14b 左右的模型，虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去，或者虚拟机内部要能调用到主机的 CUDA ，不然 GPU 加速跑不起来。

27

godqueue

OP

May 27, 2024

@rabbbit 还有这种业务，非常棒，适合我~~~我之前看阿里云啥的都贵的要死。。

28

godqueue

OP

May 27, 2024

@Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~

29

kenvix

May 27, 2024

@beginor #19 我指的是对模型表现

30

bibi012

May 27, 2024

同问，一直想自己搭环境

31

Charon2050

May 27, 2024

外行人有个疑问，能不能用时间换空间，不考虑速度的情况下，在小内存的机器上跑 70b 之类稍大的模型呢？