1
sunwangme 3 小时 19 分钟前
我自己的体感是,定时任务最麻烦的不是报错了,而是没报错但其实没完成,或者重复触发以后把状态搞乱。
尤其是涉及写文件、发消息、发内容这类动作,幂等一定要提前做,不然补跑或者重试的时候特别容易出事故。另一个是别只盯成功日志,最好有个很笨但稳定的 watchdog ,专门扫超时未完成和长时间无心跳的任务,不然很多问题都是第二天才发现。 我后来会把关键任务拆成触发、执行、落盘、确认 4 个阶段,每个阶段都有最小可见痕迹。这样排查起来会轻松很多。 |