V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
findlisa
V2EX  ›  程序员

请教个检索系统技术问题

  •  
  •   findlisa · Dec 13, 2023 via iPhone · 1087 views
    This topic created in 879 days ago, the information mentioned may be changed or developed.
    现在要做个检索系统,数据大概 500w ,数据源来源于外部,第一次全量解析 xml 文件,后续每天拿到增量数据包增量更新,检索要求可以根据相似度匹配(可调节相似度)
    目前调研
    1.大文件文件解析可以用事件方式 如 stax ,防止一次加载到内存
    2.相似度查询目前了解可以用 es 或者数据库 fulltext ,但是考虑到查询性能倾向 es
    3.数据解析的话解析时候写到数据库,同时同步到 es ,只同步查询字段,然后检索先在 es 查到主键再去数据库根据主键查询

    问问各位大佬技术选择和方案有没有什么问题,或者数据存储、查询有没有别的方式,谢过各位🧐,这也是小弟第一次负责做一个从 0 到 1 的系统,有点怕做不好呢
    findlisa
        1
    findlisa  
    OP
       Dec 14, 2023 via iPhone
    没人吗🤣
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5926 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 06:04 · PVG 14:04 · LAX 23:04 · JFK 02:04
    ♥ Do have faith in what you're doing.