V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ltltfuture
V2EX  ›  问与答

数据库上的数据怎么读比较有效率

  •  
  •   ltltfuture · 2023-08-10 02:14:20 +08:00 · 720 次点击
    这是一个创建于 457 天前的主题,其中的信息可能已经有所发展或是发生改变。
    场景如下:
    供应商有一个 sql sever db 在 azure 上,我们只有读权限,上面有上 TB 的 data (比如 10TB )
    现在我要做一个 source 基于这个 db 的 ETL pipeline (用 spark 处理)
    目前看来有两种选择:
    1. 直接 spark jdbc 连接 db 在里面用 query 读数据做 transformation
    疑虑:直接在 sparksession 上写 query 会不会性能很差,或者 OOM 问题
    2. 把数据 extract 出来成 parquet 放入云储存(比如 S3),然后 spark 做 ETL
    extract 我查了一下可以用 spark 或者 sqoop
    不知道那种更合适
    不知道有没有大佬指点一下
    4 条回复    2023-08-10 13:07:32 +08:00
    netnr
        1
    netnr  
       2023-08-10 06:24:52 +08:00 via Android
    推荐用 DataReader 逐行读取处理
    ltltfuture
        2
    ltltfuture  
    OP
       2023-08-10 07:07:35 +08:00 via Android
    @netnr 这个能分布式吗,速度如何?
    netnr
        3
    netnr  
       2023-08-10 08:45:41 +08:00 via Android
    那就每个节点读取分页,比如有 1 亿条数据,十个节点,每个节点读取 1 千万条
    mmdsun
        4
    mmdsun  
       2023-08-10 13:07:32 +08:00 via iPhone
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1110 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:55 · PVG 02:55 · LAX 10:55 · JFK 13:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.