1
simapple Mar 10, 2015
简单的做urllib+re就可以,scrapy是一套框架,如果是工程项目,要考虑的深度 广度 并发控制 作业调度 等等
|
2
limbo0 Mar 10, 2015
感觉xpath特别方便,是lz没找对方法把
|
3
raptor Mar 10, 2015
如果你的需求用requests+beautifulsoup就可以解决,那就这样做好了,最多加上gevent。
scrapy的强大在于配套功能非常多 |
4
crazycookie Mar 10, 2015
为啥不用xpath?
|
5
professorz Mar 10, 2015
|
6
yetone Mar 10, 2015
pyquery 秒一切
|
7
crazyxin1988 Mar 10, 2015
赶脚requests+beautifulsoup 就蛮好的
|
8
fumer Mar 10, 2015
不需要用beautifulsoup
|
9
rhythmer Mar 10, 2015
@limbo0 感觉xpath对于标准的html网页的处理还可以,但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片,huaban.com/favorite/home,用scrapy的xpath就觉得很麻烦
|
14
raptor Mar 11, 2015
@professorz 官方文档说了很多啊,举例而言就有:它自带一个WEB管理界面,支持TELNET登录管理,有交互式SHELL可以调试对抓取内容的解析,内置多种中间件可处理SESSION,COOKIE,HTTP压缩,身份验证……
|
15
raptor Mar 11, 2015
顺便问一句,beatifulsoup真有这么好?我怎么觉得还是pyquery用起来更简单。
|
16
kingname Mar 11, 2015
xpath秒杀bs4,beaitifulsoup4还是感觉不好用。
|