1
coefu 1 天前 我昨天也跑了一下。我发现这个 4b 确实很好了。在 tuning 架构的卡 gddr6 的位宽下,能跑 40+ T/s ,主要是回复体现的智力中规中矩。辅以外挂 rag+mem+network 的话,还是很顶的。主要是可以在几乎完全平价的资源下,跑出来一定的效果。这还要什么自行车?
x99 贴牌新板( 150+)+ xeon e5 14core/2thread(70+) + ddr4 16g*2 (200+,前年买的库存) + 五手矿 p106(150+,前年的价格,现在估计对半) 6g+ CMP 40HX(300+ ,前年的价格现在估计对半)8g ,1000 以内的成本,几乎♾️tokens ,还有一定的准确性和实时性。垃圾佬的胜利。✌🏻 |
3
coefu 1 天前
@cat9life 我昨天一天的测试,都没有出现思考时间过长,思考+回答,几乎都在 2~3s 完成,非常快了。所以我觉得,夯爆了。准备加上 rag+network 试一下 质量效果。专业性和准确度完全可以靠 rag 来兜底的,实时性就靠 network 了。rag 里的最重要的就是 ocr 和 rerank ,搞好这两点,还是能打的。
|
4
jifengg 1 天前
我选择的是关闭思考模式
|