最近工作需要爬新浪微博的名人堂微博,先是用新浪提供的sdk做了一套,结果客户的网络环境是要用代理的,这样在调用sdk的时候会报错,报的错和一个网上的贴子基本一样:http://forum.open.weibo.com/read.php?tid=48600。就像这个帖子,到现在没有人说出解决方案。所以现在打算直接使用HttpClient 4.x爬。
希望有经验的说下登录的过程
希望有经验的说下登录的过程
1
twm Sep 17, 2012
不用新浪api不好弄吧
|
2
explon Sep 17, 2012
不用 SDK 累死你
|
3
holmesabc Sep 17, 2012
自己改一下SDK的源码不好一点
|
4
m_z OP |
5
cooiky Sep 18, 2012
oauth
|
6
sohoer Sep 18, 2012
绑定登录后的COOKIE,应该就很简单了,
|
8
cooiky Sep 18, 2012
|
9
zoran Sep 18, 2012
方法一 重写sdk里httpclient部分代码 老版的httpclient搞不定可以尝试使用httpcomponent替换
方法二 有点麻烦 抓多抓快了还会被封号封ip 一般是用wap版weibo.cn做入口 模拟登陆,然后设置拿到的cookie 一段时间内就不用在登陆。。开抓 |
11
hetaoblog Sep 19, 2012
调用sdk前设置下jvm代理
|
13
hetaoblog Sep 19, 2012 @m_z
http://docs.oracle.com/javase/6/docs/technotes/guides/net/proxies.html 简单的说,如果客户使用http代理,调用sdk前做如下设置应该可以 System.setProperty("http.proxyHost", "webcache.mydomain.com"); System.setPropery("http.proxyPort", "8080"); |