1
vibbow 2013-09-09 04:13:39 +08:00
我觉得直接抓包android版的API更具有可行性......
|
2
byron OP @vibbow 这点儿还没睡?
我目前就会做个简单的爬虫,像抓包什么的api什么的安卓什么?的,实在是心有余而力不足啊。 |
3
Gawie 2013-09-09 08:32:20 +08:00
同样学习python爬虫中~~~
|
4
missdeer 2013-09-09 08:37:06 +08:00
整天只用ssh登录控制台使用机器的表示感谢!
|
5
Ansen 2013-09-09 08:44:34 +08:00 1
python新新手学习了,
|
6
roricon 2013-09-09 12:46:02 +08:00
用scrapy呗。很好的爬虫框架,简单易用。
说实话,用re直接处理html实在是太痛苦了。 用scrapy可用它内建的XPathSelector。 不想用框架的话可以用beautifulsoup。 |
7
byron OP |
8
yanwen 2013-09-09 12:55:40 +08:00
py 3 可以用??
|
9
byron OP |
12
chunchu 2013-09-10 11:06:24 +08:00
为什么我看到的是乱码?
|
13
byron OP |
14
zhttty 2013-09-10 12:26:26 +08:00
写的不错,可以用...不过有些内容会被截断,就是一句完整的话有部分不见了...
不过建议作者可以将图片链接也抓出来,保存成形如 [http://xxx.jpg] 形式,这样可以复制链接在浏览器上看。 |
15
csx163 2013-09-10 12:39:13 +08:00
我记得他的RSS有当日热门的
|
18
spark 2013-09-11 12:16:16 +08:00 via iPhone 1
楼主可以尝试Pyquery
|
20
pandada8 2013-09-11 21:19:06 +08:00 via Android
@byron
bs4基于正则 嗯 are you sure?bs4是基于dom的吧 如果觉得慢的话可以使用lxml + bs4的组合 soup = BeautifulSoup(html,“lxml”) #如果我没记错的话 |
21
fengyuanjs 2013-09-11 23:22:23 +08:00
在oschina也看到楼主发了
|
22
byron OP |
25
guangwong 2013-09-18 01:40:16 +08:00
pyquery、phantomjs、pyv8這些厙多好 = =。
|
26
Crossin 2013-09-18 01:46:08 +08:00 via Android
这不是byron嘛,来顶你一下
|