Deekseek v4 真不错，一天时间写了一个 rust 的 trojan 的服务端

zsj1029 · 2026-05-10T12:49:01Z

flash 就很好了，pro 除了慢，暂时没看出优点。如题 trojan rust grpc ，又快又稳，之前一直用的大佬写的 go 版 ws 协议，5 年了，稍微慢点也很稳，想想不如自己手搓一个。 rust 0 基础，8 小时，花了 5 块不到，又快又稳。配上年初抢的，很多人看不上 19.9 一年的的搬瓦工，晚点 8 点半，油管 2k60 帧，带宽跑到 120MB 。

Rust

trojan

服务端

61 replies • 2026-05-12 01:10:43 +08:00

1

zsj1029

OP

May 10

1

烧了 8000w token 吧

2

KingFong

PRO

May 10

有对比一下自己实现的和 go 版本的性能差异不？

3

zsj1029

OP

May 10

@KingFong 比那个快至少 1 倍，加载快很多。go 的 tcp 原版很快，上了 ws 就慢了。这个 grpc 跟 go 的 tcp 速度一样

4

KingFong

PRO

May 10

@zsj1029 #3 太牛了，你用 ClaudeCode 驱动的 DeepSeek 还是 codex ？

5

zsj1029

OP

May 10

1

@KingFong claude 搭配 flash

6

strobber16

May 10

工业级代码不是一次写成的，而是在生产上踩坑修修补补缝出来的。

7

zsj1029

OP

May 10

@strobber16 那肯定啊，8 小时就是在不断调试，debug 给 ds 修改，重复打包编译，一次性哪要这么久时间，开头一版 10 分钟就出来了，剩下大部分时间都是排查测试问题

8

ClericPy

May 10

所以一直在纠结 claude code 设置的时候
是三个 flash + 一个 pro （ opus ），
还是三个 pro + 一个 flash （ haiku ）
随便找个大模型建议用后者，但看你体验前者也没啥问题？

9

beihu

May 10

有 github 地址嘛

10

zsj1029

OP

May 10

@ClericPy 前三个 flash ，最后 opus 改 pro 就行了，不过 cc 没看到主动调用 opus ，必须手动切换模型

11

foryou2023

May 10

确实很不错，个人现在的主力也是 cc + flash,又便宜又好使。

12

zsj1029

OP

May 10

2

@beihu 怕喝茶，现在不光制作传播要判刑，马上使用人也要处罚了，没敢上传，先用几天稳定了再考虑吧。

13

zsj1029

OP

May 10

@foryou2023 嗯嗯，本地有个 a100 ，qwen3.6 27b ，日常完全够用，感觉能有个 flash 7 成功力，就是太慢，时间等不起

14

mewking

May 10

项目完成后有多少行代码？

8 小时烧了 8000w 。假设在连续生成，不考虑 debug 等中断的时间，2777.78 token/s

消费级硬件，哪怕能够 30 t/s ，连续生成 8000w 也要 30 天 😭

15

mangmaimu

May 10 via iPhone

虽然但是，建议用 singbox

16

zsj1029

OP

May 10

1

@mewking 不是这样算的，token 不只是输出的，真实输出只有 80wtoken ，用过你就知道了，高强度使用，一天随便 1E token ，deepseek 缓存命中率有 90%多，这部分费用非常便宜。

上午花了 3 小时做了其他项目，下午才开始写的，今天合计 1e 多，总共花费 6.5 元

17

mewking

May 10

啊啊啊，原来输出才 80w

我是在等 llama.cpp 支持 V4 flash ，想在在本地用 DDR5 和消费级卡玩一下，预计只有十几 t/s ，乐观估计，未来如果有 dflash ，nvfp4 等优化，或许能接近 30t/s 。用来 vibe 也只能是比较小的工具了

18

rb6221

May 10

有没有可能安全和兼容性与成熟产品差太多
兼容性还好，就你自己在用，安全性不够的话，作为梯子来讲就有点严重了

19

zsj1029

OP

May 10

@rb6221 v2ray 小火箭这两个可以用，我就满足了，没有想着其他方案，自用自建够了

20

wy315700

May 10

DeepSeek 长上下文在重构项目方面是个大优势

21

swananan

May 10

最近一直看到机场不稳定的消息，我也在想实在不行就自己写一个（当然不会放出来，只自己用），有 AI 和成熟的库，我感觉搞一个会非常快，甚至还能针对性做点去除流量特征防嗅探之类的。

22

zsj1029

OP

May 10

@swananan 对的，但是要做主流协议，不然客户端还要自己做，pc 的还好说，手机 app 上架成本就太高了

23

zsxzy

May 10

能开源详细的 spec 提示词? 我们也倒腾一个 :)

24

clauder

May 10

19.9 的搬瓦工是怎么得来的？非常好奇。

25

benen005g

May 10

19.9 的搬瓦工是怎么得来的？非常好奇。

26

zsj1029

OP

May 10

@clauder
@benen005g

就这个，开放了两天吧，去年 11 月，记错时间了，都说不好非优化线路，开始没啥人买的

27

zsj1029

OP

May 10

@zsxzy git 上有不少，找一个拿来让 ai 给优化修改就行了，然后不断测试 debug ，从 0 的话我估计也搞不定

28

Felldeadbird

May 10

啊，不知道为什么。你告诉我 5 块钱我感觉很肉痛。真付费上班了。

29

zsj1029

OP

May 10

@Felldeadbird 我今天“破处了”，之前一直用的本地 ai 和 trae ，昨天用本地 ai 写了个 7788 ，实在等不了，第一次充钱，一天 5 块，两个包子，给你一天好心情，心情投资，不香吗

30

admin926

May 10

想请问下，flash 模型后面加[1m]了吗？单个任务没处理完上下文不会超吗

31

zsj1029

OP

May 10

@admin926 好像只有 pro 有 1m 吧，200k ，能写大半了，然后自动压缩继续，压缩挺快的 2 分钟？

32

humbass

May 10

自从 Cloud 被封，就改用 DeepSeek v4 flash ，相当不错。

33

easylee

May 11

用的原生 claude code 直接干，还是加了什么帮助的 skill/plugin 吗？

34

ClericPy

May 11

@zsj1029
是啊，我以前一直是 3 个 glm5 turbo + 1 个 5.1 ，结果没见它调用过 5.1

此外 effort Level 用垃圾模型会开到 high 、max ，用 5.1 的时候默认或 auto 似乎就够了。

既然你也赞同三小一大，那我不用三大一小了，太慢。spec 写的好，需求说的清楚，根本用不着太聪明的模型

35

zsj1029

OP

May 11

@easylee 直接干，因为我不喜欢设计前置，很多时候它会给出 md 建议，可能比人思考的更全面

36

mewking

May 11

@zsj1029 本地 qwen3.6 27b ？ gemma4 31b ？这两个都搞不定是吧，比 V4 flash 差距很大？还是说本地只是慢

37

zsj1029

OP

May 11 via iPhone

@mewking qwen3.6 本地能干的，前面我让他参照 go 版用 dart 重构，最后跑通了，只是过程太久了上下文一上来会掉速度。最后发现涉及到数据包处理 cpu 密集，性能 dart 不适合，才换了 rust 和 deepseek

38

Nzelites

May 11

dsflash 真的很不错，超乎预期，极其有性价比

39

dododook

May 11 via iPhone

小白求助，用的啥客户端呀我现在就会反重力，想试试大佬说的 deekseekv4 不知道怎么弄。。

40

jaoyina

May 11

在比较关心还有啥性价比高的 vps 吗，现在机场实在太不稳定了，看视频 1080p 都不行了。还一直不停要换节点。

41

wumoumou

May 11

大佬能不能写个好用的客户端

42

suyuyu

May 11

a100 多少钱买的

43

miniliuke

May 11

太好了是梁爷爷又发力了......真的太便宜了，啥时候能赶上 glm5 就更好了

44

K332

May 11

纯文本模型现在价格很不错，就是不知道后面多模态功能添加后会不会涨价

45

zsj1029

OP

May 11

@K332 不会都是 token 处理，最多有图片视频理解，不会有视频生成

46

q1169989139

May 11

为啥我 ds 一会会，2 个提问就干了 8 块钱

47

HFX3389

May 11

> 年初抢的，很多人看不上 19.9 一年的的搬瓦工

你这个年初是哪一年...

48

FakerLeung

May 11

@mewking #14 8000w 不是这么算的，上下文 20w 一轮，跑 10 轮就是 200w ，但是总输出可能就 2k

49

jadeborner

May 11

联通？

50

utodea

May 11

价格很公道，缓存命中高，96% 上下，可用性挺高的。打算当备用了，期待官方出 coding plan 。

已经在写一个 DeepSeek-Native 的 CLI 了: https://github.com/usewhale/whale

看最近的融资消息，会不会很快官方也出 CLI 或者其他应用？

51

jinsongzhaocn

May 11

@zsj1029 本地 qwen3.6 27b 慢吗?玩过阅读代码出总结,速度比在线的 GLM 快多了. 你是用 ollama 跑还是 vllm? vllm+上 mpt 优化速度才能起来哦

52

esee

May 11

没理解，你自己写的服务端和开源的服务端在流量特征上有啥区别，被封和用啥服务端没关系吧，和你用的什么协议有关系吧

53

zsj1029

OP

May 11

@esee 我哪里说被封了，只是说 5 年没维护，太慢了 ws 协议，换个 grpc 协议，速度变快，自己维护，ai 代码质量更高了

54

zsj1029

OP

May 11

@jadeborner 对，移动电信稍微差点，速度也可以的，主要是不丢包，延迟 200 也还好

55

zsj1029

OP

May 11 via iPhone

@jinsongzhaocn 是的，开始快，200k 配上 cc ，跑个半小时你再试试，能用的，就是越往后越满

56

sentinelK

May 11

@zsj1029 借楼，A100 运行 qwen3.6-27B ，是全量版本、上下文开满吗？ prefill 和 decode 分别性能是多少？

57

zsj1029

OP

May 11 via iPhone

@sentinelK 4bit 量化，开始 mtp ，预填充，200k 上下文，40g 显存吃满了，cc 也就 2 并发，多了非常慢

58

sentinelK

May 11

@zsj1029 我在某硬件平台，租了个 5090 平台测试，Q4_K_M 版本，使用 llama.cpp 运行 262114 上下文，显存占用 26GB ，prefill 大概 3000t/s,decode 稳定在 70t/s

感觉是不是楼主的 A100 参数还有优化的空间。体感上 5090 跑 qwen3.6-27B,输出不比官网 v4-flash 慢

59

zsj1029

OP

May 11

@sentinelK 唉，不要纠结，我的 a100 ，输出有 120tps ，你要看 agent 模式工作情况，不是看最开始的简单测速啊，上下文 200k 满了后，掉速啊，不是我一个人用，公司好几个用，一并发更差了，显存不够，vllm 的 kvcache8 位量化都开了。。。

60

zsj1029

OP

May 11

@sentinelK 你以为我没用过 llamacpp 吗？单机还可以，但是缓存命中率低，总是重复预加载，三轮对话后，又要重新填充，更浪费时间

61

easylee

May 12

@zsj1029 #35 咱俩差不多的节奏，不过偶尔使用 superpowers 。

倒是我这种直接干在站内都被说成老传统或者不思进取了。

独立开发者节点

Deekseek v4 真不错，一天时间写了一个 rust 的 trojan 的服务端