• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Rodin
V2EX  ›  程序员

10T+pdf 需要做一套内容检索系统,我想这么做***

  •  
  •   Rodin · Apr 11, 2023 · 3996 views
    This topic created in 1146 days ago, the information mentioned may be changed or developed.
    有 10T+ pdf 做一套内容检索系统,以后会继续新增 pdf
    1.通过关键字可以快速检索 pdf 文件内容
    2.可通过账号密码登录,并上传 pdf 和检索
    3.在保证上边情况下,相对低的成本。
    目前想到是:
    pdf 解析到 es + Elasticsearch 集群 + web 进行开发(可是 es 的集群有点小贵)
    求大佬们指点下。
    13 replies    2023-04-11 15:37:00 +08:00
    pluvet
        1
    pluvet  
       Apr 11, 2023   ❤️ 1
    10T 资源求分享(狗头
    Sisyphe42
        2
    Sisyphe42  
       Apr 11, 2023
    别心疼钱,从头到尾全放 aws
    Weixiao0725
        3
    Weixiao0725  
       Apr 11, 2023   ❤️ 1
    现在做基于关键字检索的系统已经没有吸引力了,都开始搞语音检索了。可以把 pdf 内的内容做成 embedding 存到向量数据库,然后基于向量相似性做检索。
    ufo5260987423
        4
    ufo5260987423  
       Apr 11, 2023
    10T 资源求分享
    optional
        5
    optional  
       Apr 11, 2023 via iPhone
    简单的倒排索引可以直接用 pg
    Akkuman
        6
    Akkuman  
       Apr 11, 2023 via Android
    10t 全是文字版的 pdf 或 epub 等格式?大部分应该是扫描版吧,文字全提出来我觉得可能也没多少
    billzhuang
        7
    billzhuang  
       Apr 11, 2023
    litengyu86
        8
    litengyu86  
       Apr 11, 2023
    pdf 内容是文本还是图片啊? 如果是图片就不好检索吧。
    shadoworld
        9
    shadoworld  
       Apr 11, 2023
    楼主做好后开源吧
    ggvm
        10
    ggvm  
       Apr 11, 2023
    使用 es 来做肯定比较方便。 这个没有太大的难度了。

    但从成本角度,建议你不要上云,可以考虑自己买 洋垃圾组建本地的集群。

    把搜索的前端逻辑放在公有云,实际的数据存储和查询引擎放在 本地集群。 本地集群通过内网穿透的方式对外提供服务。
    flyingfz
        11
    flyingfz  
       Apr 11, 2023
    推荐一个 es 的替代品,MeiliSearch , 一个 Rust 写的搜索引擎。
    大概测试了下,效果还是挺不错的。

    尝试把 hellogithub.com 的 1-85 期周刊的所有 project 导入到里面,占用存储 82M 。 供参考。
    runningman
        12
    runningman  
       Apr 11, 2023
    @flyingfz 多谢,我去试试这个,之前用了 golang 的 zinc
    dayudayupao
        13
    dayudayupao  
       Apr 11, 2023
    为何不试试 chatpdf ?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2764 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 02:37 · PVG 10:37 · LAX 19:37 · JFK 22:37
    ♥ Do have faith in what you're doing.