1
bolide2005 2020-05-22 11:33:23 +08:00 1
可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。
|
2
zxc12300123 2020-05-22 15:06:15 +08:00
你这是要根据自然语言相似度去重吧
|
3
pmispig 2020-05-22 15:29:11 +08:00
看你是一次性的还是周期的长期的
要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档 |
4
zhangxu128 OP @zxc12300123 是的 存储的数据类型是 TEXT
|
5
zhangxu128 OP @bolide2005 好 我去研究一下
|
6
zxc12300123 2020-05-22 22:39:25 +08:00 via iPhone
@zhangxu128 余弦定理去重后再放进 ES
|
7
Nostalgia 2023-01-30 23:05:13 +08:00
@bolide2005 老哥,问下现在( 2023.01 )有更方便的获取 collapse 合并结果数目了么?现在有这个需求,但上面的方法有点儿丑陋呀
|
8
bolide2005 2023-01-31 10:01:59 +08:00 1
@Nostalgia #7 有几年没有关注这块了,不好意思,没有更新的消息能给到你
|