owenliang

搜索引擎的召回问题

  •  
  •   owenliang · Jan 6, 2018 · 7063 views
    This topic created in 3053 days ago, the information mentioned may be changed or developed.

    如果我用 ES 做搜索,查询可以召回千万级的文档,难道 ES 要给所有文档打分后再返回给我 topN?

    求做这行的同学指点。

    3 replies    2018-01-07 10:01:47 +08:00
    WinMain
        1
    WinMain  
       Jan 6, 2018
    那就根据不同算法召回最有可能的一部分呗,不知道我说的对不对。
    Morriaty
        2
    Morriaty  
       Jan 7, 2018
    ES 检索的过程相当于一个 map reduce 的过程,在各个 shard 里分别检索,最后再有 coordinator 整合。所以大数据量的计算是被分配到集群的各个 shard 上去了。

    而且如果真的一个 query 召回了太多的 doc,那基本可以认为该 query 是个 stopword。
    owenliang
        3
    owenliang  
    OP
       Jan 7, 2018 via Android
    @Morriaty 这么说单个 shard 的数据量是单机计算的一个上限量。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3041 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 15:10 · PVG 23:10 · LAX 08:10 · JFK 11:10
    ♥ Do have faith in what you're doing.