'''
def save(dic):
if table.find_one(dic):
print('已经有数据 ,跳过',dic['info_title'])
return
table.insert(dic)
print('保存成功', dic['info_title'])
'''
1
itskingname 2020-06-11 18:56:09 +08:00
不要用太多的字段去查下。如果一个字段就能查到,那么只用这一个字段。
并且给重复的字段加个索引。 |
2
gabon 2020-06-11 19:03:29 +08:00 via Android
布隆过滤器了解一下
|
3
njshiyanhz 2020-06-12 11:13:50 +08:00
看上去像是用所有字段来去重的;
建议只用 url 或者标题等,能标识该数据唯一的字段进行查询,并把该字段加上索引; 如果还是要用所有字段去重,那就把所有字段的值 md5 一下,拿 md5 查询,索引别忘 |
4
sadfQED2 2020-06-12 17:08:07 +08:00 via Android
你没加索引吧,另外,只是查重的话考虑布隆过滤器
|
5
llsquaer OP @njshiyanhz 总共 6 个字段,分析了 6 个字段必须要同时查,,不然会出现某个字段是重复,其他不重复的情况,,会跳过一部分内容,,MongoDB 用的默认的配置,,没研究过怎么建立索引..我去研究下...谢谢..
|