V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
owenliang
V2EX  ›  Elasticsearch

搜索引擎的召回问题

  •  
  •   owenliang · 2018-01-06 16:56:42 +08:00 · 4387 次点击
    这是一个创建于 2498 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果我用 ES 做搜索,查询可以召回千万级的文档,难道 ES 要给所有文档打分后再返回给我 topN?

    求做这行的同学指点。

    3 条回复    2018-01-07 10:01:47 +08:00
    WinMain
        1
    WinMain  
       2018-01-06 21:31:52 +08:00
    那就根据不同算法召回最有可能的一部分呗,不知道我说的对不对。
    Morriaty
        2
    Morriaty  
       2018-01-07 00:34:21 +08:00
    ES 检索的过程相当于一个 map reduce 的过程,在各个 shard 里分别检索,最后再有 coordinator 整合。所以大数据量的计算是被分配到集群的各个 shard 上去了。

    而且如果真的一个 query 召回了太多的 doc,那基本可以认为该 query 是个 stopword。
    owenliang
        3
    owenliang  
    OP
       2018-01-07 10:01:47 +08:00 via Android
    @Morriaty 这么说单个 shard 的数据量是单机计算的一个上限量。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2836 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:13 · PVG 21:13 · LAX 05:13 · JFK 08:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.