分析数据任务的各个步骤,可以发现需要设计三条数据流水线:
一、定期(如每天)自动触发的数据任务流水线,它将完成定期的数据接入,清洗,指标计算,宽表构建,宽表输出这一系列任务。这一流水线通常是端到端可输出指标结果的流水线。
二、首次全量数据接入任务流水线,用于第一次将全量数据接入到数据平台。它应该是手动触发的。
三、与定期自动运行的流水线相同的,但只能手动触发运行的一条流水线。这一流水线的引入是必要的,因为它可以很好的应对日常数据开发运维工作。
如何实现?详情请移步: https://brightliao.com/#/NDE2MWE1
1
jones2000 2022-12-31 22:33:27 +08:00
太简单了。
1. 不同数据库( DB2, oracle ,mysql 等数据库)之间的数据同步,转档。 2. 原始数据格式化(原始数据包含 PDF, word ,excel 等等, 如果上市公司财报) 3. 双路实时数据采集,一天最少 2T 的交易数据,实时入库,对接各种分析指标, 实时预警,自动触发交易策略下单。 |