1
pluvet 2023 年 4 月 11 日 10T 资源求分享(狗头
|
2
Sisyphe42 2023 年 4 月 11 日
别心疼钱,从头到尾全放 aws
|
3
Weixiao0725 2023 年 4 月 11 日 现在做基于关键字检索的系统已经没有吸引力了,都开始搞语音检索了。可以把 pdf 内的内容做成 embedding 存到向量数据库,然后基于向量相似性做检索。
|
4
ufo5260987423 2023 年 4 月 11 日
10T 资源求分享
|
5
optional 2023 年 4 月 11 日 via iPhone
简单的倒排索引可以直接用 pg
|
6
Akkuman 2023 年 4 月 11 日 via Android
10t 全是文字版的 pdf 或 epub 等格式?大部分应该是扫描版吧,文字全提出来我觉得可能也没多少
|
7
billzhuang 2023 年 4 月 11 日
|
8
litengyu86 2023 年 4 月 11 日
pdf 内容是文本还是图片啊? 如果是图片就不好检索吧。
|
9
shadoworld 2023 年 4 月 11 日
楼主做好后开源吧
|
10
ggvm 2023 年 4 月 11 日
使用 es 来做肯定比较方便。 这个没有太大的难度了。
但从成本角度,建议你不要上云,可以考虑自己买 洋垃圾组建本地的集群。 把搜索的前端逻辑放在公有云,实际的数据存储和查询引擎放在 本地集群。 本地集群通过内网穿透的方式对外提供服务。 |
11
flyingfz 2023 年 4 月 11 日
推荐一个 es 的替代品,MeiliSearch , 一个 Rust 写的搜索引擎。
大概测试了下,效果还是挺不错的。 尝试把 hellogithub.com 的 1-85 期周刊的所有 project 导入到里面,占用存储 82M 。 供参考。 |
12
runningman 2023 年 4 月 11 日
@flyingfz 多谢,我去试试这个,之前用了 golang 的 zinc
|
13
dayudayupao 2023 年 4 月 11 日
为何不试试 chatpdf ?
|