V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
ltltfuture
V2EX  ›  问与答

数据库上的数据怎么读比较有效率

  •  
  •   ltltfuture · Aug 10, 2023 · 1121 views
    This topic created in 1005 days ago, the information mentioned may be changed or developed.
    场景如下:
    供应商有一个 sql sever db 在 azure 上,我们只有读权限,上面有上 TB 的 data (比如 10TB )
    现在我要做一个 source 基于这个 db 的 ETL pipeline (用 spark 处理)
    目前看来有两种选择:
    1. 直接 spark jdbc 连接 db 在里面用 query 读数据做 transformation
    疑虑:直接在 sparksession 上写 query 会不会性能很差,或者 OOM 问题
    2. 把数据 extract 出来成 parquet 放入云储存(比如 S3),然后 spark 做 ETL
    extract 我查了一下可以用 spark 或者 sqoop
    不知道那种更合适
    不知道有没有大佬指点一下
    4 replies    2023-08-10 13:07:32 +08:00
    netnr
        1
    netnr  
       Aug 10, 2023 via Android
    推荐用 DataReader 逐行读取处理
    ltltfuture
        2
    ltltfuture  
    OP
       Aug 10, 2023 via Android
    @netnr 这个能分布式吗,速度如何?
    netnr
        3
    netnr  
       Aug 10, 2023 via Android
    那就每个节点读取分页,比如有 1 亿条数据,十个节点,每个节点读取 1 千万条
    mmdsun
        4
    mmdsun  
       Aug 10, 2023 via iPhone
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1021 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 18:30 · PVG 02:30 · LAX 11:30 · JFK 14:30
    ♥ Do have faith in what you're doing.