101
moeeducn 2016-04-05 17:24:28 +08:00 via iPad
[email protected] ,请楼主好心分享一份
|
102
hongcha 2016-04-05 18:04:11 +08:00
同 es 楼主好人 [email protected]
|
103
xngnln 2016-04-05 18:12:50 +08:00
同求,楼主好人, [email protected]
|
104
BooksE 2016-04-05 18:41:04 +08:00
lz 好人。
[email protected] |
105
gancl 2016-04-05 18:45:57 +08:00
这是求种吗? 为什么都留 email
|
106
keysona 2016-04-05 18:50:55 +08:00
|
107
cstj0505 2016-04-05 18:51:47 +08:00
lz 好人,同求一份 tonytao0505@outlookcom
|
108
thisisvoa 2016-04-05 19:50:14 +08:00
lz 好人,同求一份 [email protected] @_@
|
109
dphdjy 2016-04-05 19:52:36 +08:00 via Android
话说楼上那么要数据的人?要来干嘛?既然没正规用途?为何要要?只是留以备用吗~¯\_( •́ω•̀ )_/¯
|
110
xlrtx 2016-04-05 21:03:32 +08:00
100M 条, 400M 字节..是不是多看了一个零
https://transfer.sh/yqU6x/adddb.py |
111
3dwelcome 2016-04-05 21:56:42 +08:00 via Android
@xlrtx
我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。 |
112
3dwelcome 2016-04-05 21:59:51 +08:00 via Android
对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。
|
114
Braid 2016-04-06 08:54:48 +08:00
多谢楼主,建议看看 http://www.coreseek.cn/,我打算用这个测试下你的 400M 数据
|
116
northisland 2016-06-27 07:02:18 +08:00
一直怀疑字符串 hash 会占额外的空间,但一直没摸到 hash 的瓶颈。
曾经用 python hash 索引过 20m 数量的文件名,木有问题~~ 楼主 100m ,能给个反馈么? |