V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
NULL2020
V2EX  ›  Elasticsearch

Elasticsearch 索引 html 文档有什么比较好的实践方案

  •  
  •   NULL2020 · 2020-08-17 10:52:53 +08:00 · 1738 次点击
    这是一个创建于 1557 天前的主题,其中的信息可能已经有所发展或是发生改变。
    索引的时候,可以自定义分词,添加 html_strip 过滤掉 html 标签不分词,但文档的 _source 里面还是会有 html 标签,因为需要做高亮,命中的高亮文本是从 _source 里面取的,如果命中的文本前后有 html 标签,则返回的高亮文本里也有可能会有标签,并且标签还有可能被截断,这就导致返回给前端无法准确展示。

    数据使用 Logstash pipeline 从 mysql 同步到 es,目前想到的一个方案是在 pipeline 里加了 mutate,把所有 html 标签全部过滤掉,这样返回给前端的就只是纯文本,粗略看了下索引数据,基本满足要求。
    如果不在数据写入 es 前过滤掉标签,有没有办法在搜索返回时过滤掉标签?

    mutate 只是把 html 标签过滤掉,文档里还有些 url 链接(并可能带 url 参数),好像也会被索引到,有没有办法不索引 url 及后面的 url 参数。


    以上,一般搜索引擎里如何实现把 html 标签过滤掉,同时返回的数据能够提供前端友好地展示?
    NULL2020
        1
    NULL2020  
    OP
       2020-08-17 14:13:02 +08:00
    emmm,没大佬赐教下吗。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3406 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 11:03 · PVG 19:03 · LAX 03:03 · JFK 06:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.