有个小小的需求, 有一个搜索引擎专门搜索到公司信息的列表 比如 baidu 会出现相关 百度公司的信息. 那么问题来了 如何快速爬(复)取(制) 这里面的所有数据呢? 那搜索 api 全文匹配 。。
思考的方法以 a-z 为关键字 模糊匹配 然后去重复入库?
不知道老哥们有没有更风骚的方法
1
tikazyq 2019-05-22 19:28:12 +08:00
听说过 xpath 和 css selector 么,爬虫没有这些基本干不了活,除非是用正则匹配。想了解更多爬虫么,关注一下开源爬虫平台 Crawlab 吧,github: http: // github. com/tikazyq/crawlab
|
3
tomczhen 2019-05-22 19:57:57 +08:00
技术我不懂,但是怎么判断爬取到的数据就是所有数据呢?
|
4
newtype0092 2019-05-22 20:00:47 +08:00
你这相当于盲猜啊,都不知道有哪些公司怎么搜?
可以从其他渠道获取一个公司列表,然后作为 key 用这个 api 去查。 |
5
qfdk OP @newtype0092 #4 对的 就是盲猜 所以想 用 a-z 的方法 因为都是 外国公司
|
6
hakono 2019-05-22 20:18:04 +08:00 via iPhone
搂住你自己都给出了解决办法了。
|
10
LukeChien 2019-05-23 03:34:32 +08:00 via Android
ES Query 注入
|
11
qfdk OP @LukeChien #10 java 写的 后端是 wildfly 服务器
@lbfeng #9 应该不算吧,但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面 拿数据好困难 找到 api 但是各种奇葩 |
12
dengtongcai 2019-05-23 08:48:13 +08:00 via iPhone
f12 右键,copy selector …
|
13
zdnyp 2019-05-23 09:47:33 +08:00
首先你要有企业名称的数据,然后调搜索的接口,采集入库
|
14
qfdk OP @dengtongcai 我知道 但是这里不好用
|