想做一个定向的搜索引擎,针对某一些网站发布的信息,这样有开源的吗?
1
sjmcefc2 OP 或者能够搜索 pdf 文件内的内容的有吗
|
2
2i2Re2PLMaDnghL 2022-01-03 23:34:08 +08:00
要搜索 pdf 文件有 docfetcher
定向搜索引擎也就是搜索引擎,爬完了丢 ES 罢( |
3
hs0000t 2022-01-04 00:38:22 +08:00 via Android
太模糊了,建议具体说说使用场景,人数,频率等
|
4
czfy 2022-01-04 09:46:47 +08:00
定向,无非就两种方式
1. 爬虫+ES ,上面有人提到了,不过有风险 2. RSS ,找个地方存 |
5
sjmcefc2 OP 使用人数:5 人以内;
频率:每天 场景:搜索固定几个网站的内容。能有个集中的入口 比如,能够把一个关键词就覆盖几个网站;百度是有搜索功能,不过搜出来的大部分不是想要的东西 |
6
wingor2015 2022-01-06 17:57:04 +08:00
用 pdfminer 提取过 PDF ,但是效果有些好有些差,pdf 是不能保障文件里的内容都能被正确提起出来的
|