V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zhangxu128

各位师傅, elasticsearch 如何进行大量数据的去重?

  •  
  •   zhangxu128 · May 22, 2020 · 6030 views
    This topic created in 2167 days ago, the information mentioned may be changed or developed.
    现在的数据量是 1.5kw 左右,内容是 20 个以内的汉字,使用的 ik-skart 分词器。
    8 replies    2023-01-31 10:01:59 +08:00
    bolide2005
        1
    bolide2005  
       May 22, 2020   ❤️ 1
    可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。
    zxc12300123
        2
    zxc12300123  
       May 22, 2020
    你这是要根据自然语言相似度去重吧
    pmispig
        3
    pmispig  
       May 22, 2020
    看你是一次性的还是周期的长期的
    要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档
    zhangxu128
        4
    zhangxu128  
    OP
       May 22, 2020
    @zxc12300123 是的 存储的数据类型是 TEXT
    zhangxu128
        5
    zhangxu128  
    OP
       May 22, 2020
    @bolide2005 好 我去研究一下
    zxc12300123
        6
    zxc12300123  
       May 22, 2020 via iPhone
    @zhangxu128 余弦定理去重后再放进 ES
    Nostalgia
        7
    Nostalgia  
       Jan 30, 2023
    @bolide2005 老哥,问下现在( 2023.01 )有更方便的获取 collapse 合并结果数目了么?现在有这个需求,但上面的方法有点儿丑陋呀
    bolide2005
        8
    bolide2005  
       Jan 31, 2023   ❤️ 1
    @Nostalgia #7 有几年没有关注这块了,不好意思,没有更新的消息能给到你
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   973 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 20:49 · PVG 04:49 · LAX 13:49 · JFK 16:49
    ♥ Do have faith in what you're doing.