用了 scrapy 是否还需要用 beautifulsoup？ - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 4163 days ago, the information mentioned may be changed or developed.

我作为新手刚学习scrapy，发现坑还挺多的。其中最主要的就是解析dom，我感觉用scrapy获取想要的元素特别麻烦特性counter-intuitive，没有beautifulsoup方便。但是感觉已经用了scrapy再在代码中import beautifulsoup很不优雅。不晓得各位有没有类似的问题？

用requests＋beautifulsoup已经能够解决问题了，为什么还需要用scrapy呢？

16 replies • 2015-03-11 12:33:10 +08:00

1

simapple

Mar 10, 2015

简单的做urllib+re就可以，scrapy是一套框架，如果是工程项目，要考虑的深度广度并发控制作业调度等等

2

limbo0

Mar 10, 2015

感觉xpath特别方便,是lz没找对方法把

3

raptor

Mar 10, 2015

如果你的需求用requests+beautifulsoup就可以解决，那就这样做好了，最多加上gevent。

scrapy的强大在于配套功能非常多

4

crazycookie

Mar 10, 2015

为啥不用xpath?

5

professorz

Mar 10, 2015

@simapple 能说说这些名词的具体实现吗？

@raptor 能讲讲scrapy都有啥好用的配套功能吗？
谢谢

6

yetone

Mar 10, 2015

pyquery 秒一切

7

crazyxin1988

Mar 10, 2015

赶脚requests+beautifulsoup 就蛮好的

8

fumer

Mar 10, 2015

不需要用beautifulsoup

9

rhythmer

Mar 10, 2015

@limbo0 感觉xpath对于标准的html网页的处理还可以，但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片，huaban.com/favorite/home，用scrapy的xpath就觉得很麻烦

10

limbo0

Mar 10, 2015

1

@rhythmer 图片的地址是javascript生成的xpath根本抓不了,正则或许是个好的选择

11

nayihz

Mar 10, 2015

1

@rhythmer 抓图片用ImagePipeline，把src的值抓下来，转到这个地址上应该就可以了吧

12

zeal7s

OP

Mar 11, 2015 via iPad

@limbo0 确实没有学过xpath

13

zeal7s

OP

Mar 11, 2015 via iPad

1

@rhythmer 同感，xpath从功能和易用性上来说肯定不如beautifulsoup

14

raptor

Mar 11, 2015

@professorz 官方文档说了很多啊，举例而言就有：它自带一个WEB管理界面，支持TELNET登录管理，有交互式SHELL可以调试对抓取内容的解析，内置多种中间件可处理SESSION，COOKIE，HTTP压缩，身份验证……

15

raptor

Mar 11, 2015

顺便问一句，beatifulsoup真有这么好？我怎么觉得还是pyquery用起来更简单。

16

kingname

Mar 11, 2015

xpath秒杀bs4，beaitifulsoup4还是感觉不好用。

About · Help · Advertise · Blog · API · FAQ · Solana · 2770 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 42ms · UTC 09:56 · PVG 17:56 · LAX 02:56 · JFK 05:56
♥ Do have faith in what you're doing.