qwen3.6 27b 本地编码测试

zsj1029 · 2026-04-27T06:36:20Z

搞了一上午，本地 a100 40g ，输出也慢 40t/s 大概的提示词劳力士风格，罗马数字，月相日历，高贵典雅 https://i.imgur.com/PbqajDk.png 月相那块搞了好多轮结论: 小参数的模型智力不差，Trae IDE agent 连接本地模型，coding 完全可用

模型

本地

编码

62 replies • 2026-05-02 20:36:52 +08:00

1

zsj1029

OP

Apr 27

是有动画效果的，星星会明暗，上下左右还有钻石闪烁效果，不太明显
日期，月相跟着时间会变

2

Seanfuck

Apr 27

上下文设置小一点会快些

3

zsj1029

OP

Apr 27

@Seanfuck 目前 128 ，256 也试过，llamacpp 的后端，开始都是快的，多轮会话，kv-cache 累计推理感觉就慢了

4

Orangeee

Apr 27

看着效果还凑合，一般任务应该够用

5

pedclub

Apr 27

![qwen 3.5]( https://img.cdn1.vip/i/69ef0fc713d8b_1777274823.webp)
![qwen 3.6]( https://img.cdn1.vip/i/69ef0fca7692e_1777274826.webp)
3.6 进步挺大的

6

sentinelK

Apr 27

1

qwen3.6 35B A3B 的跑分还是挺好看的，智力和满血 DeepseekV3.2 不相上下，但 Agent 能力比 DeepseekV3.2 强很多。和我在 hermes agent 上的体感一致。

从这个角度看，最近这一年，localLLM 的进步，比大模型大很多。
我用家里的 8GVRAM ，64GBRAM 的老爷机用 llama.cpp 跑了一下 Q4 量化，驱动 hermes agent 的普通业务没什么问题，就是有点慢。在--on fit 配置下，大概是 20 多 token 每秒。

等 M5 MAX 的 mac studio 上线，我也打算买一台。

7

sentinelK

Apr 27

主要是 localLLM 强大之后，Agent 玩法才真正的被盘活。
隐私/便利的鱼熊悖论也就被打破了。

8

zsj1029

OP

Apr 27

@sentinelK 是的，今年是 agent 大规模应用的元年

9

wumoumou

Apr 27

好厉害，能不能做成 API 卖钱

10

mgsv2047

Apr 27

为啥我用 windows 的 lm studio 跑这个模型，又慢又蠢? 4090D + 32g 内存

11

zsj1029

OP

Apr 27

@mgsv2047 我这是公司的 a100 ，设备不行吧，还得是专业卡，35b 的那个专家模型，能跑 120t/s

12

evan1

PRO

Apr 27

a100……门槛还是太高了。

13

zsj1029

OP

Apr 27

@evan1 我不知道啊，80g 的，咸鱼问的 5w 不到，2 块 5090 ？算力翻倍至少吧

14

furlxy

Apr 27

为啥都在用钟表、天气来测试？

15

zsj1029

OP

Apr 27

@furlxy 因为那个二叉树，很简单就过了，这个至少有点工作场景，写后端更没问题，比前端还快，毕竟不用调样式

16

darrh00

Apr 27

vscode 上有没有好用的连接本地模型的插件？

17

evan1

PRO

Apr 27

@zsj1029 #13 又学到了，咸鱼真厉害

18

zsj1029

OP

Apr 27 via iPhone

@sentinelK mac 速度也慢，只能能加载大模型，显存带宽制约的，a100 。1.8t ，mac 只有 700g 好像

19

zsj1029

OP

Apr 27 via iPhone

@darrh00 cline 最舒服，其实有很多，都可以下载试试

20

sentinelK

Apr 27

@mgsv2047 试试用 llama.cpp 来运行试试，上下文开 128K ，带-- fit on 参数

21

zsj1029

OP

Apr 27

@sentinelK 就是 llamacpp 跑的，fiton ，显存不够，cpu 卸载，a100 可以全部加载到显卡的，不需要，其次开启 q4 kv-cache 量化后，能跑更多并发，更省显存

22

kenpuluma

Apr 27

这个不算小模型了吧，活跃参数量比 qwen3-235b 都大~

23

zsj1029

OP

Apr 27 via iPhone

@kenpuluma 确实，表达的意思就是，开源本地模型发展超预期，本地搭建不再是玩具。评测赶上了 opus 4.5

24

listenerri

Apr 27 via Android

@darrh00 #16 vscode 上用 unify chat provider 插件接自定义模型体验不错

25

peyppicp

Apr 27

Trae 是怎么链接本地 LLM 的？我看免费版都不能指定本地模型了

26

stefwoo

Apr 27

Qwen3.6 A35B-A3B 4bit 在我的 3090 下运行也飞快啊

27

kenpuluma

Apr 27

@zsj1029 今年年后是真的感觉国产开源模型一个比一个更好用了。

28

zushi000

Apr 27

满血版吧

29

sentinelK

Apr 27

@stefwoo 这回的 27B 每次执行都是 27B 满参数，所以比 35B A3B 运行速度更慢，但是智商评分更高。

30

cskeleton

Apr 27

@sentinelK #6 Gemma4 和 Qwen3.6 明显把本地模型的水平抬高了一档。另外 Qwen3.6 整个系列感觉进步明显。

31

xiaomushen

Apr 27

qwen3.6 大模型是拉了，没想到小模型这个给力。

32

cskeleton

Apr 27

@zsj1029 #13 那感觉不如 6 万+ 的 RTX Pro 6000 96G

33

cskeleton

Apr 27

@stefwoo #26 27B 是 dense ，比 35B-A3B 厉害

34

zsj1029

OP

Apr 27

@peyppicp 搜一下，配置里面找到模型，类型 openai ，然后自定义模型就可以配置本地了，窗口操作，不需要什么 config 文件

35

zsj1029

OP

Apr 27

@cskeleton 那确实是的，多卡的话 nvlink 不支持，单卡确实你说的没错

36

jerseyhero

Apr 27

佬，试试 Gemma4 26B-A4B 效果如何呢

37

zsj1029

OP

Apr 27

1

@jerseyhero 早些试过，工具调用标签自成一派，神经病一样，agent 兼容不了，后面发布 qwen3.6 27b ，看模型评测，完全吊打，不想碰了

38

zcf2009

Apr 27

这个可以直接文生图？

39

zsj1029

OP

Apr 27

@zcf2009 多模态只有图片，视频输入识别，没有图片生成

40

germain

Apr 27 via iPhone

1

@jerseyhero 很拉，本地炼丹最强的就是 qwen 几个中小模型了，DeepSeek 3.2 API 也不错，白菜价炼丹。

41

cskeleton

Apr 27

@zsj1029 #35 哦对，老卡有 nvlink

42

zsj1029

OP

Apr 27

@germain 真的，现在的小模型不是玩具，花了两晚上，把 vue 的前端项目，40+的页面，用 svelte ，qwen3.6 完美重构

43

cubecube

Apr 27

@cskeleton #30 因为 3.5 就是为了赶进度过年发。。哈哈

44

germain

Apr 27

@zsj1029 一年前这种根本不敢想（太拉跨），现在已经是现实了。这种感觉就好像我这里标准泳池每年开池全部换新水不心疼，因为自来水不要钱一样😂

45

xiaomushen

Apr 28

有些超乎想象得强

46

ccc00

Apr 28

@zsj1029 这么厉害？

47

goodryb

Apr 28

在 mac 上也跑过这个模型 Q4K_M 量化版，用 qwen CLI 搞个赛车游戏，速度比较慢，但是结果还是可以的，需求的理解基本上没有偏差

48

zsj1029

OP

Apr 28

@goodryb 嗯我跑的也是量化，模型加 kv-cache 双量化，不然显存吃不住，输出也慢

49

simo

Apr 28

前几天试过，效果挺好的，32G m4 mini ，35B 量化版，50t/s

这几天在考虑搞个 AI Max 385 主机试试，不到 2w ，看带宽有点低，不知道效果如何。专门跑本地模型用

50

zsj1029

OP

Apr 28

@simo 带宽一定要高，2t 的话，130t/s 按比例换算就好了

51

midraos

Apr 28

@zsj1029 #11 应该没优化参数吧，我在 5080 上跑 35b-a3b 这个，显存只够加载一部分层，速度有 40t/s

52

superhack

Apr 28

5090 27B ，vllm 峰值 120 tok/s, 平均 85 tok/s 上下

53

zsj1029

OP

Apr 28

@superhack 配置参数发来看看，单并发？ fp8 量化，我单卡跑不起来，不会有 cpu 卸载吧

54

Hermitist

Apr 29

楼上各位有没有兴趣基于 vibe coding 帮我开发点程序? 主要是小型的进销存/单证/CRM 系统? 有意者可以加我 ID 微信, 也算可以给你们回点血.

55

superhack

Apr 29

@zsj1029

```
services:
vllm-qwen36-27b:
image: vllm/vllm-openai:v0.20.0
container_name: vllm-qwen36-27b
restart: "unless-stopped"
ports:
- "8085:8000"
volumes:
- models/huggingface/qwen3.6-27b-autoround-int4:/model
environment:
- CUDA_VISIBLE_DEVICES=0
- VLLM_WORKER_MULTIPROC_METHOD=spawn
- PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
shm_size: "16gb"
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
command:
- --model
- /model
- --served-model-name
- qwen3.6-27b
- --quantization
- auto-round
- --dtype
- float16
- --gpu-memory-utilization
- "0.92"
- --max-model-len
- "160000"
- --kv-cache-dtype
- fp8_e5m2
- --max-num-seqs
- "1"
- --trust-remote-code
- --reasoning-parser
- qwen3
- --enable-auto-tool-choice
- --tool-call-parser
- qwen3_xml
- --enable-prefix-caching
- --speculative-config
- '{"method":"mtp","num_speculative_tokens":2}'
- --host
- "0.0.0.0"
- --port
- "8000"
```

56

zsj1029

OP

Apr 29 via iPhone

@superhack 谢谢，回头试试，这个模型看起来似乎有说头，不会是投机推理吧

57

superhack

Apr 29

@zsj1029 是投机推理

58

nasmatic

Apr 30

我拿了两张 H20 141G 跑这个，是不是有点奢侈了😂

59

zsj1029

OP

Apr 30 via iPhone

@nasmatic 太奢侈了，跑并发，30 人

60

nasmatic

Apr 30

我尝试了上面哥们发的投机推理的配置，py3.13 ，直接报错，又回退了，好像是两张卡通信有 bug ，互相询问不到对方剩的 vram

61

zsj1029

OP

21 days ago

@nasmatic 刚试了可以的，速度提升三倍了，多卡不知道是不是需要 nvlink ，我是单卡没问题的

62

zsj1029

OP

21 days ago

vllm serve \
/models/qwen3.6-27b-int4-autoround \
--max-model-len 131072 \
--kv-cache-dtype fp8_e5m2 \
--reasoning-parser qwen3 \
--max-num-seqs 3 \
--served-model-name Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
--quantization auto-round \
--enable-auto-tool-choice \
--max-num-batched-tokens 8192 \
--tool-call-parser qwen3_xml \
--enable-prefix-caching \
--trust-remote-code \
--speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
--tool-call-parser qwen3_coder \
--gpu-memory-utilization 0.88 \
--dtype half \
--host 0.0.0.0 \
--port 8011