V2EX › KaiWuBOSS 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

11 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hongdengdao 哥跑一下 nvidia-smi 看输出是一个显卡还是 2 个我这个读驱动的有代码支持的

18 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hongdengdao 奇怪我特意在我双 4090 电脑测试能识别的我去看看代码

1 小时 25 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

第一次发仓库项目没经验 😰

1 小时 27 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

0.1.1 版 ios3 脚本没上传上正在编译 0.1.2 估计三个小时后发布

1 小时 30 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@sentinelK 我也参考了他的 fiton 但他没有涡轮量化另外我还做了上下文优化相比而言我这个不用调参而且是硬件最大上下文最优显存
-fit on 是随机削层，Kaiwu 是精准分层。

--fit on：显存不够就把后面几层丢给 CPU ，
不管是什么层，速度损失大。

Kaiwu：专门识别 MoE 的专家层，
只把专家层放 CPU ，注意力层全在 GPU ，
速度损失极小——这就是为什么
同样 8GB 显存，Kaiwu 能跑出 21 tok/s ，
LM Studio 只有 3 tok/s 。

1 小时 33 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@ntdll 是的得等新的 cude 现在只支持 n 卡 llama-server-cuda.exe：
用 CUDA 编译的，只能跑在 N 卡
Release 包里只有这一个版本

1 小时 35 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@zrlhk 我的错我的上传脚本有问题晚点推 0.1.2 你要方便可以试试 qwen3 应该没问题

1 小时 45 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@damontian 换 Qwen3-30B-A3B
这个模型专为低显存优化
3080 10GB 跑起来没问题

1 小时 54 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@damontian 直接上 30b 模型你选你喜欢的 50 系列看 nvfp 的