V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  KaiWuBOSS  ›  全部回复第 1 页 / 共 1 页
回复总数  13
@hongdengdao 哥 跑一下 nvidia-smi 看输出是一个显卡还是 2 个 我这个读驱动的有代码支持的
@hongdengdao 奇怪 我特意在我双 4090 电脑测试能识别的 我去看看代码
第一次发仓库项目 没经验 😰
0.1.1 版 ios3 脚本没上传上 正在编译 0.1.2 估计三个小时后发布
@sentinelK 我也参考了他的 fiton 但他没有涡轮量化 另外我还做了上下文优化 相比而言 我这个不用调参 而且是硬件最大上下文 最优显存
-fit on 是随机削层,Kaiwu 是精准分层。

--fit on:显存不够就把后面几层丢给 CPU ,
不管是什么层,速度损失大。

Kaiwu:专门识别 MoE 的专家层,
只把专家层放 CPU ,注意力层全在 GPU ,
速度损失极小——这就是为什么
同样 8GB 显存,Kaiwu 能跑出 21 tok/s ,
LM Studio 只有 3 tok/s 。
@ntdll 是的 得等新的 cude 现在只支持 n 卡 llama-server-cuda.exe:
用 CUDA 编译的,只能跑在 N 卡
Release 包里只有这一个版本
@zrlhk 我的错 我的上传脚本有问题 晚点推 0.1.2 你要方便可以试试 qwen3 应该没问题
@damontian 换 Qwen3-30B-A3B
这个模型专为低显存优化
3080 10GB 跑起来没问题
@damontian 直接上 30b 模型你选你喜欢的 50 系列看 nvfp 的
@zrlhk 我正在对你这个进行修复 1 你是正常 0.1.1 吗 我看代码 怎么显示你没编译涡轮量化 2 我回退策略太大了 我调整一版 我无论如何让你跑起来 顺畅跑起来
我马上优化一版 空了再试试 gemma4 支持 ios3 的呀 判定有问题
哥 您多大显存?
llmbbs.ai 欢迎交流。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2905 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 14:09 · PVG 22:09 · LAX 07:09 · JFK 10:09
♥ Do have faith in what you're doing.