qwen3.5 过度思考的问题

This topic created in 112 days ago, the information mentioned may be changed or developed.

看到阿里新的小模型发布，小模型支持多模态，忍不住在自己电脑（集成 GPU ）上试了一下 qwen3.5:4b 。

结果：
我说了一句 Hi ，他思考了 40 秒！！
而关闭思考之后，好像也不比上一代 qwen3 强。

还有一个小花絮：
我问他是谁，它思维链里面打印是 Google 的模型。马上又修正“wait ，我是阿里 xxxxx”。加上之前说的 sonet4.6 是 deekseek ，Gemini 是 qwen 。真是天下模型你中有我我中有你啊。

模型

思考

阿里

12 replies • 2026-03-24 09:20:49 +08:00

coefu

Mar 5

我昨天也跑了一下。我发现这个 4b 确实很好了。在 tuning 架构的卡 gddr6 的位宽下，能跑 40+ T/s ，主要是回复体现的智力中规中矩。辅以外挂 rag+mem+network 的话，还是很顶的。主要是可以在几乎完全平价的资源下，跑出来一定的效果。这还要什么自行车？

x99 贴牌新板（ 150+）+ xeon e5 14core/2thread(70+) + ddr4 16g*2 (200+,前年买的库存) + 五手矿 p106(150+,前年的价格，现在估计对半) 6g+ CMP 40HX(300+ ，前年的价格现在估计对半)8g ，1000 以内的成本，几乎♾️tokens ，还有一定的准确性和实时性。垃圾佬的胜利。✌🏻

cat9life

Mar 5

@coefu #1 智商还能接受，可以跑在电脑作为离线的备用。思考时间过长这个问题有解吗？

coefu

Mar 5

@cat9life 我昨天一天的测试，都没有出现思考时间过长，思考+回答，几乎都在 2~3s 完成，非常快了。所以我觉得，夯爆了。准备加上 rag+network 试一下质量效果。专业性和准确度完全可以靠 rag 来兜底的，实时性就靠 network 了。rag 里的最重要的就是 ocr 和 rerank ，搞好这两点，还是能打的。

jifengg

Mar 5

我选择的是关闭思考模式

cat9life

Mar 5

@coefu #3 谢谢。为啥我的思考时间这么久. 难道是 gpu 太弱..

cat9life

Mar 5

@jifengg #4 关闭思考能感觉到智力下降。大佬用在什么场景？

jifengg

Mar 5

@cat9life NSFW ，哈哈

coefu

Mar 5

@cat9life #5 我刚才加上了 open-webui ，然后在里面让它读网页 URL ，确实耗时一点，但是真能读。并且内容分析的还可以，中规中矩，没有胡说八道。确实很夯了。

coefu

Mar 5

@cat9life #5 你集成的 gpu tensor core 和 gmem bandwidth ，肯定其中有一个是瓶颈，或者两个都是。

lchynn

Mar 6

@cat9life 可能你用的是 ollama 推理的 Q4 量化版本；如果你找个稍微好点的 GPU ，推推满血版或者 FP8 的，换 Sglang 框架，或许会好一些？

codingmiao

Mar 24

这个似乎是 qwen3.5 系列太喜欢过度思考了，我这几天搞了点 deepseek-r1 的数据去微调它，让它学习 ds 的思考套路，效果好了不少 https://github.com/codingmiao/qwen35-short-cot

cat9life

Mar 24

@codingmiao #11 专业👍