spark 怎样处理后台需要被频繁更新的数据？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2810 days ago, the information mentioned may be changed or developed.

目前在做的一个项目，用户上传 csv 文件后，可以对文件进行 ETL 操作。目前后台用 spark 处理，spark 把用户上传的文件创建 table 并缓存，用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁，文件可能从几 m~几 g 不等，修改 table 和更新缓存的开销比较大，有没有比较好的优化方案？ web 开发里多个接口会修改或访问同一个比较大的对象，一般会怎么处理？

Spark

table

文件

更新

1 replies • 2018-10-21 03:25:45 +08:00

piggybox

Oct 21, 2018

可能需要支持频繁更新的存储，比如 Kudu