1
vibbow Sep 9, 2013
我觉得直接抓包android版的API更具有可行性......
|
3
Gawie Sep 9, 2013
同样学习python爬虫中~~~
|
4
missdeer Sep 9, 2013
整天只用ssh登录控制台使用机器的表示感谢!
|
5
Ansen Sep 9, 2013 python新新手学习了,
|
6
roricon Sep 9, 2013
用scrapy呗。很好的爬虫框架,简单易用。
说实话,用re直接处理html实在是太痛苦了。 用scrapy可用它内建的XPathSelector。 不想用框架的话可以用beautifulsoup。 |
8
yanwen Sep 9, 2013
py 3 可以用??
|
12
chunchu Sep 10, 2013
为什么我看到的是乱码?
|
14
zhttty Sep 10, 2013
写的不错,可以用...不过有些内容会被截断,就是一句完整的话有部分不见了...
不过建议作者可以将图片链接也抓出来,保存成形如 [http://xxx.jpg] 形式,这样可以复制链接在浏览器上看。 |
15
csx163 Sep 10, 2013
我记得他的RSS有当日热门的
|
18
spark Sep 11, 2013 via iPhone 楼主可以尝试Pyquery
|
20
pandada8 Sep 11, 2013 via Android
@byron
bs4基于正则 嗯 are you sure?bs4是基于dom的吧 如果觉得慢的话可以使用lxml + bs4的组合 soup = BeautifulSoup(html,“lxml”) #如果我没记错的话 |
21
fengyuanjs Sep 11, 2013
在oschina也看到楼主发了
|
22
byron OP |
25
guangwong Sep 18, 2013
pyquery、phantomjs、pyv8這些厙多好 = =。
|
26
Crossin Sep 18, 2013 via Android
这不是byron嘛,来顶你一下
|