This topic created in 2757 days ago, the information mentioned may be changed or developed.
目前在做的一个项目,用户上传 csv 文件后,可以对文件进行 ETL 操作。目前后台用 spark 处理,spark 把用户上传的文件创建 table 并缓存,用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁,文件可能从几 m~几 g 不等,修改 table 和更新缓存的开销比较大,有没有比较好的优化方案? web 开发里多个接口会修改或访问同一个比较大的对象,一般会怎么处理?
1 replies • 2018-10-21 03:25:45 +08:00
 |
|
1
piggybox Oct 21, 2018
可能需要支持频繁更新的存储,比如 Kudu
|