之前有一个 redis 的线上事故,原因是有个脚本删除了一个 redis 的大 key ,这个 key 是一个 zset 数据结构,里面有 1000w+ 数据,导致 cpu 100%.
问题是:如果不手动删除 key ,而是设置一个过期时间,那么到了过期时间这个 key 失效了也会引发同样的问题吗?
答案来了,如果一个大 key,del 会导致 cpu 飙升,那么给它一个过期时间,过期的那一刻也是产生同样的效果,等同于 del.
For example, when we produce a redis cluster, the business slowly writes a hash key with more than 20 million fields of TTL. When the key expires, redis starts to passively clean it, which causes redis to be blocked for more than 20 seconds.
1
lesismal 2021-11-30 00:37:03 +08:00
元素数量多,实现上是 map+skiplist ,因为非数组结构(非连续内存),所以没法像操作单个元素那样删除所有元素,而是需要遍历删除每个节点,元素多,一个 op 整体删除肯定要阻塞其他请求较长时间。
你可以分批删除,比如 zremrangebyrank 一次删除 N 个,多次之间间隔 sleep 下(或者单次 op RTT 本来就有网络往返时间,一般不 sleep 也可以,看你们主业务的需要),因为是要删除的数据,删除慢点应该也无所谓,N 和是否需要 sleep 自己把握就行 |
2
lesismal 2021-11-30 00:52:21 +08:00 1
4.0+ unlink 也可以,但是 unlink redis 线程之间通知之类的会多消耗一点,如果你们业务量大对 redis 的请求很频繁,用业务服务分批删、能替 redis 节省点性能可能对整个集群更划算,根据你们实际业务来判断
|
3
gabon 2021-11-30 12:59:59 +08:00 via Android
为什么 zset 会放 10m 数据。。
|
4
daoqiongsi1101 OP @gabon 当初涉及不合理吧,这不是这个问题重点
|
5
awanganddong 2021-11-30 18:56:40 +08:00
你现在可以看下 redis 的过期策略和内存淘汰策略。这个是专门为你解惑的。
|