1
vietor 2013-11-18 15:27:18 +08:00
你想证明用mysql做“主题查询足够了”,不需要“分词索引”那些额外系统?
|
3
sohoer 2013-11-18 17:52:50 +08:00
范围很重要
|
4
likexian 2013-11-18 18:19:25 +08:00
xp,400万,大数据,想什么呢?洗洗睡吧
|
5
yakczh OP @likexian 这个测试只是找一个分成单表的数据桶的大小阈值,实际的数据有14亿,类似象全国省,市,县,区这种行政区划的查询,从任一级都有查询的需求,从姓名,关键性字段,业务时间段, 保证查询能在3-5秒能有响应
|
10
soli 2013-11-19 09:07:17 +08:00
有结果,没结论。
|
12
yakczh OP 总数据容量 /500 =表数 , 每个表当作一个存储单元 ,维护一个映射表,查询和插入,更新都通过隐射找到对应的存储单元
|
13
wangchen 2013-11-19 14:30:41 +08:00
@yakczh 你的查询语句中的`like` 部分,如果以% 开头,是无法使用索引的。
另外,还是要从应用的实际需要去考虑存储、查询要使用什么技术。比如是频繁写,还是频繁读?读是全文检索,还是结构化查询? |
14
yakczh OP @wangchen 就是测试无索引的全表扫秒的极限值,有索引的情况千差万别,跟索引的数据分布有关系, 不同的数据分布各不相同,只有这个全表扫描情况下才有确切的数值
实际应用中有 根据姓名来模糊搜索的,比如姓张,张王这种的,而且比较多,查询时间限制在3s之内有结果 |
15
bombless 2013-11-21 07:37:43 +08:00
查询为主的就好办了……自古以来解决大量数据查询的不二法则就是多浪费存储空间……
最简单的想法就是,根据搜索的类型的需要,每次有新的搜索类型的时候就根据那个类型的特点来划分数据存储的位置把数据分组存放,搜索的时候在确定有目标数据的地方搜就可以了~ |