最好是用 lucene.net 构建的,如何处理上亿的数据量?
不要推荐 ES,SOLR,因为 ES,SOLR 底层也是基于 Lucene,所以我想自己基于 Lucene 搭建一个支持大数据量的搜索系统。
不要推荐 ES,SOLR,因为 ES,SOLR 底层也是基于 Lucene,所以我想自己基于 Lucene 搭建一个支持大数据量的搜索系统。
1
DCjanus Sep 30, 2018 via Android
你是准备自己造轮子取代 ES ?
|
3
lideshun123 Sep 30, 2018
分词也自己写?
|
4
kwklover OP @lideshun123 分词也是自己写
|
5
nockyQ Sep 30, 2018
以前基于 Lucene 开发检索模块的时候也遇到过这个问题,所幸需求相对简单勉强能应付。等一个大牛来分享下经验。
|
6
xuminzhong Sep 30, 2018
我有做爬虫项目,日处理数据量大概是 1-2 千万,上亿数据量的搜索很早就经历过了,单机做不太难的。
但是 sorry,没有太多时间来做这样的架构分享。 |
7
kwklover OP @xuminzhong 分享一下大致思路即可,无需花很多时间做完整的架构分享哦
|
8
DCjanus Oct 1, 2018 via Android
之前做过的一个项目,全文检索需求比较简单,一般用的是 PostgreSQL 自带全文检索,PG 10 支持分区表,但是不知道能不能对倒排索引做分区。
|
9
ddup Oct 2, 2018
牛逼,是用的 lucene.NET 版本?
|
11
ddup Oct 2, 2018
嘛,有个思路,数据库表水平切分了解吧? lucene .NET 也给他索引水平切分,1 一条数据,给他分 100 个索引库索引,搜索的时候并发搜索,然后合并结果,根据 score 得分排序一下。
|
12
bigtang Jun 5, 2023
单台机器亿级数据量,参考一下 tanglib.com, 单机万亿字节数据
|