1
zsj1029 OP |
2
Seanfuck Apr 27
上下文设置小一点会快些
|
4
Orangeee Apr 27
看着效果还凑合,一般任务应该够用
|
5
pedclub Apr 27

 3.6 进步挺大的 |
6
sentinelK Apr 27 qwen3.6 35B A3B 的跑分还是挺好看的,智力和满血 DeepseekV3.2 不相上下,但 Agent 能力比 DeepseekV3.2 强很多。和我在 hermes agent 上的体感一致。
从这个角度看,最近这一年,localLLM 的进步,比大模型大很多。 我用家里的 8GVRAM ,64GBRAM 的老爷机用 llama.cpp 跑了一下 Q4 量化,驱动 hermes agent 的普通业务没什么问题,就是有点慢。在--on fit 配置下,大概是 20 多 token 每秒。 等 M5 MAX 的 mac studio 上线,我也打算买一台。 |
7
sentinelK Apr 27
主要是 localLLM 强大之后,Agent 玩法才真正的被盘活。
隐私/便利的鱼熊悖论也就被打破了。 |
9
wumoumou Apr 27
好厉害,能不能做成 API 卖钱
|
10
mgsv2047 Apr 27
为啥我用 windows 的 lm studio 跑这个模型,又慢又蠢? 4090D + 32g 内存
|
12
evan1 PRO a100……门槛还是太高了。
|
14
furlxy Apr 27
为啥都在用钟表、天气来测试?
|
16
darrh00 Apr 27
vscode 上有没有好用的连接本地模型的插件?
|
21
zsj1029 OP @sentinelK 就是 llamacpp 跑的,fiton ,显存不够,cpu 卸载,a100 可以全部加载到显卡的,不需要,其次开启 q4 kv-cache 量化后,能跑更多并发,更省显存
|
22
kenpuluma Apr 27
这个不算小模型了吧,活跃参数量比 qwen3-235b 都大~
|
24
listenerri Apr 27 via Android
@darrh00 #16 vscode 上用 unify chat provider 插件接自定义模型体验不错
|
25
peyppicp Apr 27
Trae 是怎么链接本地 LLM 的?我看免费版都不能指定本地模型了
|
26
stefwoo Apr 27
Qwen3.6 A35B-A3B 4bit 在我的 3090 下运行也飞快啊
|
28
zushi000 Apr 27
满血版吧
|
31
xiaomushen Apr 27
qwen3.6 大模型是拉了,没想到小模型这个给力。
|
36
jerseyhero Apr 27
佬,试试 Gemma4 26B-A4B 效果如何呢
|
37
zsj1029 OP @jerseyhero 早些试过,工具调用标签自成一派,神经病一样,agent 兼容不了,后面发布 qwen3.6 27b ,看模型评测,完全吊打,不想碰了
|
38
zcf2009 Apr 27
这个可以直接文生图?
|
40
germain Apr 27 via iPhone @jerseyhero 很拉,本地炼丹最强的就是 qwen 几个中小模型了,DeepSeek 3.2 API 也不错,白菜价炼丹。
|
45
xiaomushen Apr 28
有些超乎想象得强
|
47
goodryb Apr 28
在 mac 上也跑过这个模型 Q4K_M 量化版,用 qwen CLI 搞个赛车游戏 ,速度比较慢,但是结果还是可以的,需求的理解基本上没有偏差
|
49
simo Apr 28
前几天试过,效果挺好的,32G m4 mini ,35B 量化版,50t/s
这几天在考虑 搞个 AI Max 385 主机试试,不到 2w ,看带宽有点低,不知道效果如何。专门跑本地模型用 |
52
superhack Apr 28
5090 27B ,vllm 峰值 120 tok/s, 平均 85 tok/s 上下
|
54
Hermitist Apr 29
楼上各位有没有兴趣基于 vibe coding 帮我开发点程序? 主要是小型的进销存/单证/CRM 系统? 有意者可以加我 ID 微信, 也算可以给你们回点血.
|
55
superhack Apr 29
@zsj1029
``` services: vllm-qwen36-27b: image: vllm/vllm-openai:v0.20.0 container_name: vllm-qwen36-27b restart: "unless-stopped" ports: - "8085:8000" volumes: - models/huggingface/qwen3.6-27b-autoround-int4:/model environment: - CUDA_VISIBLE_DEVICES=0 - VLLM_WORKER_MULTIPROC_METHOD=spawn - PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True shm_size: "16gb" deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] command: - --model - /model - --served-model-name - qwen3.6-27b - --quantization - auto-round - --dtype - float16 - --gpu-memory-utilization - "0.92" - --max-model-len - "160000" - --kv-cache-dtype - fp8_e5m2 - --max-num-seqs - "1" - --trust-remote-code - --reasoning-parser - qwen3 - --enable-auto-tool-choice - --tool-call-parser - qwen3_xml - --enable-prefix-caching - --speculative-config - '{"method":"mtp","num_speculative_tokens":2}' - --host - "0.0.0.0" - --port - "8000" ``` |
58
nasmatic Apr 30
我拿了两张 H20 141G 跑这个,是不是有点奢侈了😂
|
60
nasmatic Apr 30
我尝试了上面哥们发的投机推理的配置,py3.13 ,直接报错,又回退了,好像是两张卡通信有 bug ,互相询问不到对方剩的 vram
|
62
zsj1029 OP vllm serve \
/models/qwen3.6-27b-int4-autoround \ --max-model-len 131072 \ --kv-cache-dtype fp8_e5m2 \ --reasoning-parser qwen3 \ --max-num-seqs 3 \ --served-model-name Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \ --quantization auto-round \ --enable-auto-tool-choice \ --max-num-batched-tokens 8192 \ --tool-call-parser qwen3_xml \ --enable-prefix-caching \ --trust-remote-code \ --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \ --tool-call-parser qwen3_coder \ --gpu-memory-utilization 0.88 \ --dtype half \ --host 0.0.0.0 \ --port 8011 |