这是一个创建于 1544 天前的主题,其中的信息可能已经有所发展或是发生改变。
索引的时候,可以自定义分词,添加 html_strip 过滤掉 html 标签不分词,但文档的 _source 里面还是会有 html 标签,因为需要做高亮,命中的高亮文本是从 _source 里面取的,如果命中的文本前后有 html 标签,则返回的高亮文本里也有可能会有标签,并且标签还有可能被截断,这就导致返回给前端无法准确展示。
数据使用 Logstash pipeline 从 mysql 同步到 es,目前想到的一个方案是在 pipeline 里加了 mutate,把所有 html 标签全部过滤掉,这样返回给前端的就只是纯文本,粗略看了下索引数据,基本满足要求。
如果不在数据写入 es 前过滤掉标签,有没有办法在搜索返回时过滤掉标签?
mutate 只是把 html 标签过滤掉,文档里还有些 url 链接(并可能带 url 参数),好像也会被索引到,有没有办法不索引 url 及后面的 url 参数。
以上,一般搜索引擎里如何实现把 html 标签过滤掉,同时返回的数据能够提供前端友好地展示?
|
|
1
NULL2020 2020-08-17 14:13:02 +08:00
emmm,没大佬赐教下吗。。
|