rt... 头发快掉完了
1
opengps 2019-11-25 20:27:36 +08:00 via Android
4 亿的体积是多大
|
2
MinQ 2019-11-25 20:32:47 +08:00 via Android
spark 应该可以吧
|
4
lihongjie0209 2019-11-25 20:42:15 +08:00
计算一下 io 速度不就知道了吗
|
5
mengzhuo 2019-11-25 20:42:57 +08:00
很简单啊,分而治之
先测一台实例能承接多少 qps,能不能分库。 假设数据平均的话,400M/4/100/3600 ≈ 277 qps 而已 |
6
mengzhuo 2019-11-25 20:43:47 +08:00
insert 太慢的话,可以接受的话,索引先全关掉,然后再建
|
7
dackh OP @lihongjie0209 怎么计算?
|
9
cedoo22 2019-11-25 21:09:35 +08:00
分库? 同时做数据同步?
|
11
lcy630409 2019-11-25 21:14:46 +08:00
如果是阿里云 可以买个临时服务器 上 essd,最高配置(配置越高 磁盘速度越高)
|
12
dusu 2019-11-25 21:37:40 +08:00 via iPhone
1. 关所有 log/binlog
2. batch insert 3. 多进 /线程 4. tmp 目录指 /dev/shm 目录 5. 上 ssd 插入速度取决于你的硬盘读写速度。 4e 问题不大 |
13
jugelizi 2019-11-25 21:59:43 +08:00
可以 不要用 insert 直接用 mysql 组装数据
|
14
csunny 2019-11-25 22:03:24 +08:00
bigquery
|
15
husinhu 2019-11-25 23:28:20 +08:00 via Android
load data infile
|
16
liuzhaowei55 2019-11-25 23:41:24 +08:00 via Android
方便的话可以说一下具体的场景啊,有可能并不需要一匹跑的更快的马,而是需要一部电话。
|
17
66450146 2019-11-26 01:54:22 +08:00
按照数据的类型想出一个分类手段让数据能够大致平均分成四份(例如按照 timestamp 最后两位 mod 25 ),然后创建四个 view
|
19
fluorinedog 2019-11-26 07:37:30 +08:00 via Android
这需求闭着眼睛写啊.... sort by hash value, 然后直接 select 出来
|
20
JunoNin 2019-11-26 08:28:42 +08:00 via Android
我感觉如果是 insert 到 4 个库里。。磁盘的 io 是瓶颈
|
21
realpg 2019-11-26 15:14:40 +08:00
数据库总占用空间多大?
要是一条记录没多大,那这任务非常简单了。。 盘足够快就完事。 比这数据量还大的物理库上云我都搞过 |
22
realpg 2019-11-26 15:36:46 +08:00
之前做的一个项目
MYSQL 5.x,11 亿条数据,数据量不均衡的分布在 47 个表(有的表只有几万条记录,不均衡分布),数据库文件大小 148GiB,数据以 int bigint 类型居多 导出 sql 文件,然后到新服务器导入大约 20 分钟。 新服务器是自建私有云,IPSAN 后端存储+NVME 本地缓存 |
25
dackh OP |
26
artandlol 2019-11-26 16:42:55 +08:00 via Android
没有 ssd 程序再快也白搭
|