1
coefu 3 月 5 日 我昨天也跑了一下。我发现这个 4b 确实很好了。在 tuning 架构的卡 gddr6 的位宽下,能跑 40+ T/s ,主要是回复体现的智力中规中矩。辅以外挂 rag+mem+network 的话,还是很顶的。主要是可以在几乎完全平价的资源下,跑出来一定的效果。这还要什么自行车?
x99 贴牌新板( 150+)+ xeon e5 14core/2thread(70+) + ddr4 16g*2 (200+,前年买的库存) + 五手矿 p106(150+,前年的价格,现在估计对半) 6g+ CMP 40HX(300+ ,前年的价格现在估计对半)8g ,1000 以内的成本,几乎♾️tokens ,还有一定的准确性和实时性。垃圾佬的胜利。✌🏻 |
3
coefu 3 月 5 日
@cat9life 我昨天一天的测试,都没有出现思考时间过长,思考+回答,几乎都在 2~3s 完成,非常快了。所以我觉得,夯爆了。准备加上 rag+network 试一下 质量效果。专业性和准确度完全可以靠 rag 来兜底的,实时性就靠 network 了。rag 里的最重要的就是 ocr 和 rerank ,搞好这两点,还是能打的。
|
4
jifengg 3 月 5 日
我选择的是关闭思考模式
|
8
coefu 3 月 5 日 @cat9life #5 我刚才加上了 open-webui ,然后在里面让它读网页 URL ,确实耗时一点,但是真能读。并且内容分析的还可以,中规中矩,没有胡说八道。确实很夯了。
|
10
lchynn 3 月 6 日
@cat9life 可能你用的是 ollama 推理的 Q4 量化版本; 如果你找个稍微好点的 GPU ,推推满血版或者 FP8 的,换 Sglang 框架,或许会好一些?
|
11
codingmiao 3 月 24 日
这个似乎是 qwen3.5 系列太喜欢过度思考了,我这几天搞了点 deepseek-r1 的数据去微调它,让它学习 ds 的思考套路,效果好了不少 https://github.com/codingmiao/qwen35-short-cot
|
12
cat9life OP @codingmiao #11 专业👍
|