google 是如何存储上亿 simhash 的?目标:存储并可快速匹配

This topic created in 3381 days ago, the information mentioned may be changed or developed.

simhash 算法简单又高效.

但是问题来了,如何对亿级 hash 进行存储,同时达到高效查找的目的

目前的做法:

将 64bit 的 hash 分为 8 片, 然后分别以每片的值做 key,其余所有作为 set 的 value 存储在 redis 中,

每次新来一个 hash 就将其分片,去 redis 查 8 次,然后遍历所有再进行抑或得到海明距离小于 2 的结果.

这样下来每次查询都需要 100ms 左右, 请问有更好的方式么?

7 replies • 2017-03-24 11:03:24 +08:00

solos

Mar 23, 2017

可以分表吧

paradoxs

Mar 23, 2017 via iPhone

hadoop

xiusedelang

Mar 23, 2017 via Android

这个查询技巧在谷歌的论文里也给出来了吧

mooncakejs

Mar 23, 2017 via iPhone

用 8 个 redis

wzha2008

Mar 24, 2017

996635

Mar 24, 2017

@wzha2008 #5 这篇的回答被推翻了

996635

Mar 24, 2017