我本身有 200G 的文本数据,每一条是一个 json,我需要把这个 json 二次处理一下再插进去,处理之后文本稍微大了那么一丢丢,_id 字段我也重新定义了,长度大约 32 位。 只做了这样的操作,为什么导入 mongo 之后,占用的空间还是 200G 呢?完全没压缩。。我的前缀和文档压缩也配置了。。。用的 pymongo insert_many 插入的,而且速度极慢,10 秒才能插入 3000 条。
如果我直接用 mongoimport 命令导入数据,实际占用空间只有 20G 。速度每秒一万五千条。 速度和压缩率和我使用 pymongo 相比差距很大,我也单独打印了我代码里数据处理时间,数据处理的时间大约 100 毫秒,几乎可以不计,耗时最大的就是执行 insert_many 的时候。
为什么差距会这么大呢?