KaiWuBOSS 最近的时间轴更新
KaiWuBOSS
ONLINE

KaiWuBOSS

V2EX 第 794716 号会员,加入于 2026-03-18 09:14:31 +08:00
今日活跃度排名 3363
KaiWuBOSS 最近回复了
@hongdengdao 哥 跑一下 nvidia-smi 看输出是一个显卡还是 2 个 我这个读驱动的有代码支持的
@hongdengdao 奇怪 我特意在我双 4090 电脑测试能识别的 我去看看代码
第一次发仓库项目 没经验 😰
0.1.1 版 ios3 脚本没上传上 正在编译 0.1.2 估计三个小时后发布
@sentinelK 我也参考了他的 fiton 但他没有涡轮量化 另外我还做了上下文优化 相比而言 我这个不用调参 而且是硬件最大上下文 最优显存
-fit on 是随机削层,Kaiwu 是精准分层。

--fit on:显存不够就把后面几层丢给 CPU ,
不管是什么层,速度损失大。

Kaiwu:专门识别 MoE 的专家层,
只把专家层放 CPU ,注意力层全在 GPU ,
速度损失极小——这就是为什么
同样 8GB 显存,Kaiwu 能跑出 21 tok/s ,
LM Studio 只有 3 tok/s 。
@ntdll 是的 得等新的 cude 现在只支持 n 卡 llama-server-cuda.exe:
用 CUDA 编译的,只能跑在 N 卡
Release 包里只有这一个版本
@zrlhk 我的错 我的上传脚本有问题 晚点推 0.1.2 你要方便可以试试 qwen3 应该没问题
@damontian 换 Qwen3-30B-A3B
这个模型专为低显存优化
3080 10GB 跑起来没问题
@damontian 直接上 30b 模型你选你喜欢的 50 系列看 nvfp 的
@zrlhk 我正在对你这个进行修复 1 你是正常 0.1.1 吗 我看代码 怎么显示你没编译涡轮量化 2 我回退策略太大了 我调整一版 我无论如何让你跑起来 顺畅跑起来
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2910 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 14:08 · PVG 22:08 · LAX 07:08 · JFK 10:08
♥ Do have faith in what you're doing.