V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  zrlhk  ›  全部回复第 1 页 / 共 2 页
回复总数  30
1  2  
5 小时 59 分钟前
回复了 qiudemad 创建的主题 推广 新上中转站送 Token 纯血 gpt-5.5 分组倍率 0.15x
enJsaGtAMTYzLmNvbQ== 谢谢~
hermes 的 dashboard 就是半成品,还得自己弄 ui 真的折腾。谢谢 op,这个 ui 的确不错。
4 月 28 日
回复了 shoushen 创建的主题 奇思妙想 下一代“编程语言”的瞎想
下一代,AI 直接生成二进制
4 月 28 日
回复了 leave8080 创建的主题 程序员 Xiaomi MiMo Token 激励计划
有效期一个月吗?
4 月 28 日
回复了 Alander 创建的主题 电动汽车 换辆什么车呢?
q05 极狐 t1 A10 ;或者上笛子闪充
4 月 27 日
回复了 tomclancy 创建的主题 问与答 提问远程控制软件/组网软件推荐
easytier~
关于量化的版本,op 指的是 gguf 的版本吗?这种我已经在 lm studio 中下载跑起来了。
但是现在想使用 turboquant 技术,提升上下文和速度。不知道 op 的工具是不是有这个效果。
我用 hermes 很不顺手啊,还是小龙虾好用。求问最好用的 agent 是哪个?
@KaiWuBOSS 嗯,是 0.1.1 版本。是的,就是编译涡轮量化不知道怎么弄
@KaiWuBOSS 是 win10, 显存 10G ,内存 48G ,我在下载 qwen3-30b 试试看
看起来显卡还是不够...:
本地大模型部署器 vv0.1.1 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce RTX 3080 (SM86, 10240 MB VRAM, 760 GB/s)
RAM: 47 GB UNKNOWN
OS: windows amd64

[2/6] Selecting configuration...
Model: Gemma 4 26B A4B It (moe, 19B total / 1B active)
Quant: Q3_K_S (11.4 GB)
Mode: moe_offload (experts on CPU)
Accel: Flash Attention

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: gemma-4-26B-A4B-it.Q3_K_S.gguf [cached]

[4/6] Preflight check...
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=256K ... OOM
Probe 2: ctx=128K ... OOM
Probe 3: ctx=64K ... OOM
Probe 4: ctx=32K ... OOM
Probe 5: ctx=16K ... OOM
Probe 6: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
llama-server 不支持 iso3 ,回退到 q8_0/q4_0
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行
建议:选择更小的量化或使用 MoE offload 模型
Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--reset 清除缓存,重新 warmup 探测最优参数
4 月 24 日
回复了 DejavuMoe 创建的主题 云计算 2026 年,选择 Podman 还是 Docker
我用的是 incus
4 月 20 日
回复了 roc595 创建的主题 生活 多子家庭的家庭托举。
建议吉利星愿、极狐 T1 、领跑 A10 ,剩余的给与大家庭需求考虑。
字少,但字字真心。
YUBxdXJsLmNj
确定是一日卡吗~
4 月 17 日
回复了 kfpenn 创建的主题 职场话题 v2er 大佬们, offer 选择求助
从发展的角度,选 B 哦。A 没有啥优势,A 能做出爆款发横财才有价值,但机率很小吧
YUBxdXJsLmNj
使用了一下,录屏功能很不错,期待
4 月 14 日
回复了 5wunian 创建的主题 Go 编程语言 Tikrok v5.0 新的的底层实现
已 Star ,期待相关应用出现
todesk 本身有流量优化,还可能充当了节点
2025 年 6 月 20 日
回复了 CharlieYu 创建的主题 Java 通过 AI 实现各种框架的基础版本(如 tiny-xxx)
AI 来写 边写边问;用啥 AI 工具可以这样方便?
2024 年 4 月 1 日
回复了 dafengzhen 创建的主题 分享创造 Youdeyiwu 一个开源轻量级论坛
后台用 java 跑个论坛,有点重了
1  2  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   986 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 23:04 · PVG 07:04 · LAX 16:04 · JFK 19:04
♥ Do have faith in what you're doing.