大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,
请问如果从网络上快速获取公开的企业信息?
本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
请各位高手不吝赐教~~
请问如果从网络上快速获取公开的企业信息?
本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
请各位高手不吝赐教~~
1
zzfwusa OP 大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,进度较慢,
所以想利用网络快速获取大量相关企业信息 (公开且合法的信息,如所在行业,电话,地址等等) 请问基于何种架构及工具可以快速实现? 本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行? 请各位高手不吝赐教~~ |
2
richiefans Dec 29, 2013
应该是找到目标站点 定向抓取吧
python有个爬虫框架 Scrapy |
3
dong3580 Dec 29, 2013 via Android
请求工商部门的网站抓取。不过你要是批量恶意这种行为算不算违法,小心请你喝茶。
|
4
xxwar Dec 29, 2013
你可以抓阿里巴巴或者慧聪网或者。。。。。。。很多很多类似的企业黄页网站
或者花钱买数据,别人抓好现成的。 这种黄页网站基本是滥大街了,不知道你们公司要再做一个干吗。 |
5
yylzcom Dec 30, 2013 via Android
用火车采集器,很容易上手
|
6
dbas Jan 1, 2014
我也正在收集中,我手上才200W....
|