大家在写爬虫的时候是写成通用型,还是独立型呢?
比如,通用型:一套规则对应一个爬虫
比如,独立型:一个规则对应一个爬虫
比如,要爬100〜10000个不等的网站,用哪种方案比较合适呢?
之所以,这么问,是因为不管是通用型还是独立型,每一个抓取规则都要人肉分析 dom 结构的,如果每一个都要人肉分析的话,那么通用和独立的区别就只有程序结构和代码维护方面的区别了。
1
est 2015-05-01 23:40:59 +08:00 1
|
2
webflier 2015-05-02 00:12:08 +08:00
@est 直接pick DOM元素自动生产xpath或者css selector或者正则或者whatever
这是有什么现成工具吗?求指导 |
3
sohoer 2015-05-02 01:56:01 +08:00 via iPhone 1
看我的
|
4
binux 2015-05-02 10:43:48 +08:00 1
|
5
whatisnew OP 再问:
请求头,是伪装成 baidu 呢?还是伪装成 ie8 呢,还是伪装成 chrome 呢。 header 头里的: Accept: Accept-Encoding: 之类的如何写可以提高抓取成功率呢?(目前发现有一些会对 Googlebot 和 Baiduspider 和 正常浏览器提供不同的内容,然后 dom 规则就失效了!x... ) |
7
thedarkside 2015-05-03 12:28:08 +08:00
不明觉历~~
|