mountainl
V2EX  ›  Local LLM

分享个自己在用的玩具

  •  
  •   mountainl · 15h 27m ago · 1942 views
    前段时间 qwen3.5 发布的时候,试着用 4070 跑 9b 版本,发现配合 openclaw 玩都玩不起来,而且上下文只能开到大概 32k 左右。正好这段时间没什么好折腾的了( NAS 和软路由已经稳定运行中),所以买了两块 3060 12g 和 x99 的大板和 E5 3673V3 ,另外配了个 1200w 的电源,内存用主力机拆下来的 16x2 (主力成二奶了)。
    正巧赶上 qwen3.6 发布,试着跑了 27b 和 35b 模型,最终使用 mudler/Qwen3.6-35B-A3B-APEX-GGUF 模型,开 128k 上下文,输入 2000tps ,输出在 100tps ,当然上下文达到一定程度就开始胡扯降速了。
    现在配合 hermes agent ,感觉可玩性挺高的,作为代码小白,可以帮我写一些小的脚本
    折腾完索然无味还能出掉回点血,相当于花个千把块钱让自己又爽玩了一段时间。
    6 replies    2026-06-17 21:37:23 +08:00
    thinkingpey1989
        1
    thinkingpey1989  
       15h 1m ago
    玩玩还可以,真想有生产力还是得上云端大模型
    mountainl
        2
    mountainl  
    OP
       14h 36m ago
    @thinkingpey1989 就是玩玩
    pencilq
        3
    pencilq  
       14h 19m ago
    B 站有佬两张 2080ti 跑 27b 100+ tps

    两块显卡+桥接器+小主机,一共 4500 块,差不多 3090ti 一半的价格,让 27B/31B 稠密模型纵享 100tok/s 单并发生成速度,实现了 262K 满血上下文,TQ4NC 最大 1M 上下文

    https://www.bilibili.com/video/BV1nVVr6QEFq
    Cruzz
        4
    Cruzz  
       14h 10m ago
    以后显卡还是还给游戏佬吧,真要跑模型还得统一内存的小主机。
    mountainl
        5
    mountainl  
    OP
       14h 8m ago
    @pencilq v100 和 20 系是不是不支持 fa 什么的?我不太懂,就没敢上
    coefu
        6
    coefu  
       3h 45m ago
    这个玩游戏很爽了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1287 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 17:22 · PVG 01:22 · LAX 10:22 · JFK 13:22
    ♥ Do have faith in what you're doing.