爬虫，通用型，独立型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3562 天前的主题，其中的信息可能已经有所发展或是发生改变。

大家在写爬虫的时候是写成通用型，还是独立型呢？

比如，通用型：一套规则对应一个爬虫
比如，独立型：一个规则对应一个爬虫

比如，要爬100〜10000个不等的网站，用哪种方案比较合适呢？

之所以，这么问，是因为不管是通用型还是独立型，每一个抓取规则都要人肉分析 dom 结构的，如果每一个都要人肉分析的话，那么通用和独立的区别就只有程序结构和代码维护方面的区别了。

爬虫

通用

独立

8 条回复 • 2015-05-03 12:32:27 +08:00

est

2015-05-01 23:40:59 +08:00

爬虫专家 @binux 他是pyspider作者。

人肉分析DOM结构已经过时了。现代的方式是直接pick DOM元素自动生产xpath或者css selector或者正则或者whatever。

webflier

2015-05-02 00:12:08 +08:00

@est 直接pick DOM元素自动生产xpath或者css selector或者正则或者whatever
这是有什么现成工具吗？求指导

sohoer

2015-05-02 01:56:01 +08:00 via iPhone

看我的

binux

2015-05-02 10:43:48 +08:00

http://blog.binux.me/2014/07/how-to-extract-data-from-web/

whatisnew

2015-05-02 11:05:21 +08:00

再问：

请求头，是伪装成 baidu 呢？还是伪装成 ie8 呢，还是伪装成 chrome 呢。

header 头里的：
Accept：
Accept-Encoding：

之类的如何写可以提高抓取成功率呢？（目前发现有一些会对 Googlebot 和 Baiduspider 和正常浏览器提供不同的内容，然后 dom 规则就失效了！x... ）

Owenjia

2015-05-03 12:06:54 +08:00 via Android

@est 遇到过一个超复杂超乱的页面，最后实在没办法就去掉所有标签直接 split 了……

thedarkside

2015-05-03 12:28:08 +08:00

不明觉历~~

est

2015-05-03 12:32:27 +08:00

@Owenjia 是啊。。有的时候只能简单粗暴。。