V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cat9life
V2EX  ›  Local LLM

qwen3.5 过度思考的问题

  •  
  •   cat9life · 2 天前 · 364 次点击
    看到阿里新的小模型发布,小模型支持多模态,忍不住在自己电脑(集成 GPU )上试了一下 qwen3.5:4b 。

    结果:
    我说了一句 Hi ,他思考了 40 秒!!
    而关闭思考之后,好像也不比上一代 qwen3 强。

    还有一个小花絮:
    我问他是谁,它思维链里面打印是 Google 的模型。马上又修正“wait , 我是阿里 xxxxx”。加上之前说的 sonet4.6 是 deekseek ,Gemini 是 qwen 。真是天下模型你中有我我中有你啊。
    10 条回复    2026-03-06 17:38:40 +08:00
    coefu
        1
    coefu  
       1 天前   ❤️ 1
    我昨天也跑了一下。我发现这个 4b 确实很好了。在 tuning 架构的卡 gddr6 的位宽下,能跑 40+ T/s ,主要是回复体现的智力中规中矩。辅以外挂 rag+mem+network 的话,还是很顶的。主要是可以在几乎完全平价的资源下,跑出来一定的效果。这还要什么自行车?

    x99 贴牌新板( 150+)+ xeon e5 14core/2thread(70+) + ddr4 16g*2 (200+,前年买的库存) + 五手矿 p106(150+,前年的价格,现在估计对半) 6g+ CMP 40HX(300+ ,前年的价格现在估计对半)8g ,1000 以内的成本,几乎♾️tokens ,还有一定的准确性和实时性。垃圾佬的胜利。✌🏻
    cat9life
        2
    cat9life  
    OP
       1 天前
    @coefu #1 智商还能接受,可以跑在电脑作为离线的备用。思考时间过长这个问题有解吗?
    coefu
        3
    coefu  
       1 天前
    @cat9life 我昨天一天的测试,都没有出现思考时间过长,思考+回答,几乎都在 2~3s 完成,非常快了。所以我觉得,夯爆了。准备加上 rag+network 试一下 质量效果。专业性和准确度完全可以靠 rag 来兜底的,实时性就靠 network 了。rag 里的最重要的就是 ocr 和 rerank ,搞好这两点,还是能打的。
    jifengg
        4
    jifengg  
       1 天前
    我选择的是关闭思考模式
    cat9life
        5
    cat9life  
    OP
       1 天前
    @coefu #3 谢谢。为啥我的思考时间这么久. 难道是 gpu 太弱..
    cat9life
        6
    cat9life  
    OP
       1 天前
    @jifengg #4 关闭思考能感觉到智力下降。大佬用在什么场景?
    jifengg
        7
    jifengg  
       1 天前   ❤️ 1
    @cat9life NSFW ,哈哈
    coefu
        8
    coefu  
       1 天前   ❤️ 1
    @cat9life #5 我刚才加上了 open-webui ,然后在里面让它读网页 URL ,确实耗时一点,但是真能读。并且内容分析的还可以,中规中矩,没有胡说八道。确实很夯了。
    coefu
        9
    coefu  
       1 天前
    @cat9life #5 你集成的 gpu tensor core 和 gmem bandwidth ,肯定其中有一个是瓶颈,或者两个都是。
    lchynn
        10
    lchynn  
       16 小时 7 分钟前
    @cat9life 可能你用的是 ollama 推理的 Q4 量化版本; 如果你找个稍微好点的 GPU ,推推满血版或者 FP8 的,换 Sglang 框架,或许会好一些?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:46 · PVG 09:46 · LAX 17:46 · JFK 20:46
    ♥ Do have faith in what you're doing.