入口是一个 shell 脚本,内容大概如下:
python a.py > $CUR_DIR/step1_$date.txt
python b.py < $CUR_DIR/step1_$date.txt > $CUR_DIR/step2_$date.txt
python c.py < $CUR_DIR/step2_$date.txt > $CUR_DIR/step3_$date.txt
python d.py < $CUR_DIR/step3_$date.txt > $CUR_DIR/step4_$date.txt
python e.py < $CUR_DIR/step4_$date.txt > $CUR_DIR/step5_$date.txt
python write_es.py < $CUR_DIR/step5_$date.txt
一个个 txt 看入参出参,一个个脚本看处理过程,有点不适应
1
winglight2016 2023-05-09 12:19:33 +08:00
这是基于 shell 的 pipeline 呀
|
2
rizon 2023-05-09 12:19:54 +08:00 via iPhone
流式数据处理
全链路可调试追踪 (狗头) |
3
v2wtf 2023-05-09 12:27:09 +08:00
不管他是有意的还是无意的做到的,其实这是非常好的用法,整个过程可以人肉监控、复查,如果其中有一步出错了,那么可以手动去重新执行出错的那步和后续步骤(相当于断点续传)。
这个做法在执行一些需要非常久的时间数据处理操作的时候非常之好用。 |
4
yuruizhe 2023-05-09 12:32:24 +08:00
挺好的,按步骤记录中间结果,除了有点费硬盘和 io 时间
|
5
burymme11 2023-05-09 18:26:58 +08:00
等出问题的时候,你会爱死这些 txt 的。
|
6
fox0001 2023-05-09 21:06:41 +08:00 via Android
要检测中间结果,还不如写 log…
|