V2EX › zrlhk 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2

❮

❯

5 小时 59 分钟前

回复了 qiudemad 创建的主题 › 推广 › 新上中转站送 Token 纯血 gpt-5.5 分组倍率 0.15x

enJsaGtAMTYzLmNvbQ== 谢谢~

4 月 29 日

回复了 Hermitist 创建的主题 › Hermes Agent › 第五次重装 hermes, 有些经验希望给准备用的人参考一下.

hermes 的 dashboard 就是半成品，还得自己弄 ui 真的折腾。谢谢 op,这个 ui 的确不错。

4 月 28 日

回复了 shoushen 创建的主题 › 奇思妙想 › 下一代“编程语言”的瞎想

下一代，AI 直接生成二进制

4 月 28 日

回复了 leave8080 创建的主题 › 程序员 › Xiaomi MiMo Token 激励计划

有效期一个月吗？

4 月 28 日

回复了 Alander 创建的主题 › 电动汽车 › 换辆什么车呢？

q05 极狐 t1 A10 ；或者上笛子闪充

4 月 27 日

回复了 tomclancy 创建的主题 › 问与答 › 提问远程控制软件/组网软件推荐

easytier~

4 月 26 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

关于量化的版本，op 指的是 gguf 的版本吗？这种我已经在 lm studio 中下载跑起来了。
但是现在想使用 turboquant 技术，提升上下文和速度。不知道 op 的工具是不是有这个效果。

4 月 25 日

回复了 San2025 创建的主题 › AI Agent 智能体 › 有什么龙虾、养虾 OpenClaw 论坛推荐吗？

我用 hermes 很不顺手啊，还是小龙虾好用。求问最好用的 agent 是哪个？

4 月 24 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@KaiWuBOSS 嗯，是 0.1.1 版本。是的，就是编译涡轮量化不知道怎么弄

4 月 24 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@KaiWuBOSS 是 win10, 显存 10G ，内存 48G ，我在下载 qwen3-30b 试试看

4 月 24 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

看起来显卡还是不够...:
本地大模型部署器 vv0.1.1 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce RTX 3080 (SM86, 10240 MB VRAM, 760 GB/s)
RAM: 47 GB UNKNOWN
OS: windows amd64

[2/6] Selecting configuration...
Model: Gemma 4 26B A4B It (moe, 19B total / 1B active)
Quant: Q3_K_S (11.4 GB)
Mode: moe_offload (experts on CPU)
Accel: Flash Attention

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: gemma-4-26B-A4B-it.Q3_K_S.gguf [cached]

[4/6] Preflight check...
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=256K ... OOM
Probe 2: ctx=128K ... OOM
Probe 3: ctx=64K ... OOM
Probe 4: ctx=32K ... OOM
Probe 5: ctx=16K ... OOM
Probe 6: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
llama-server 不支持 iso3 ，回退到 q8_0/q4_0
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足，降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败，即使最小上下文(4K)也无法运行
建议：选择更小的量化或使用 MoE offload 模型
Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小（ 0=自动）
--fast Skip warmup, use cached profile
-h, --help help for run
--reset 清除缓存，重新 warmup 探测最优参数

4 月 24 日

回复了 DejavuMoe 创建的主题 › 云计算 › 2026 年，选择 Podman 还是 Docker

我用的是 incus

4 月 20 日

回复了 roc595 创建的主题 › 生活 › 多子家庭的家庭托举。

建议吉利星愿、极狐 T1 、领跑 A10 ，剩余的给与大家庭需求考虑。
字少，但字字真心。

4 月 17 日

回复了 dwhzy 创建的主题 › 推广 › 继续送！ codex 中转，留邮箱就送。（老板去找老黑收 kyc 去了）

YUBxdXJsLmNj
确定是一日卡吗~

4 月 17 日

回复了 kfpenn 创建的主题 › 职场话题 › v2er 大佬们， offer 选择求助

从发展的角度，选 B 哦。A 没有啥优势，A 能做出爆款发横财才有价值，但机率很小吧