• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kwklover
V2EX  ›  程序员

有没有哪位 V 友用 lucene 做上亿数据量的搜索的?

  •  
  •   kwklover · Sep 30, 2018 · 4099 views
    This topic created in 2799 days ago, the information mentioned may be changed or developed.
    最好是用 lucene.net 构建的,如何处理上亿的数据量?

    不要推荐 ES,SOLR,因为 ES,SOLR 底层也是基于 Lucene,所以我想自己基于 Lucene 搭建一个支持大数据量的搜索系统。
    Supplement 1  ·  Sep 30, 2018
    现在的问题就是,单个索引库太大,更新索引越慢,而且老出错,用分片方式解决,分片太多搜索慢,于是要合并,优化,而合并和优化又非常耗,耗资源,挺绕的,哪位大侠有好的经验分享一下
    12 replies    2023-06-05 09:34:50 +08:00
    DCjanus
        1
    DCjanus  
       Sep 30, 2018 via Android
    你是准备自己造轮子取代 ES ?
    kwklover
        2
    kwklover  
    OP
       Sep 30, 2018 via Android
    @DCjanus ES 是大轮子,想造个小轮子,目标是单台机器能满足亿级数据量的搜索就够。
    lideshun123
        3
    lideshun123  
       Sep 30, 2018
    分词也自己写?
    kwklover
        4
    kwklover  
    OP
       Sep 30, 2018 via Android
    @lideshun123 分词也是自己写
    nockyQ
        5
    nockyQ  
       Sep 30, 2018
    以前基于 Lucene 开发检索模块的时候也遇到过这个问题,所幸需求相对简单勉强能应付。等一个大牛来分享下经验。
    xuminzhong
        6
    xuminzhong  
       Sep 30, 2018
    我有做爬虫项目,日处理数据量大概是 1-2 千万,上亿数据量的搜索很早就经历过了,单机做不太难的。

    但是 sorry,没有太多时间来做这样的架构分享。
    kwklover
        7
    kwklover  
    OP
       Sep 30, 2018 via Android
    @xuminzhong 分享一下大致思路即可,无需花很多时间做完整的架构分享哦
    DCjanus
        8
    DCjanus  
       Oct 1, 2018 via Android
    之前做过的一个项目,全文检索需求比较简单,一般用的是 PostgreSQL 自带全文检索,PG 10 支持分区表,但是不知道能不能对倒排索引做分区。
    ddup
        9
    ddup  
       Oct 2, 2018
    牛逼,是用的 lucene.NET 版本?
    kwklover
        10
    kwklover  
    OP
       Oct 2, 2018 via Android
    @ddup 对的,数据量一大就有好多问题
    ddup
        11
    ddup  
       Oct 2, 2018
    嘛,有个思路,数据库表水平切分了解吧? lucene .NET 也给他索引水平切分,1 一条数据,给他分 100 个索引库索引,搜索的时候并发搜索,然后合并结果,根据 score 得分排序一下。
    bigtang
        12
    bigtang  
       Jun 5, 2023
    单台机器亿级数据量,参考一下 tanglib.com, 单机万亿字节数据
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1406 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 16:52 · PVG 00:52 · LAX 09:52 · JFK 12:52
    ♥ Do have faith in what you're doing.