phantomjs 不能抓取新浪微博和豆瓣原理是什么?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3580 天前的主题，其中的信息可能已经有所发展或是发生改变。

个人用casperjs截图新浪微博，返回一张漆黑的图片，用casperjs打开豆瓣，甚至连打开豆瓣都不行，V友们能不能探讨一下这些网站能屏蔽phantomjs的原理是什么？我也好应用到我的网站上去

phantomjs

casperjs

原理

10 条回复 • 2015-02-12 14:16:20 +08:00

s51431980

2015-02-03 09:31:15 +08:00

可以抓啊，在capture之前等待几秒，等待几个页面跳转，这应该是新浪反爬虫的策略。

我之前写的登陆代码。

```
var casper = require("casper").create();

casper.start('http://weibo.com/login')

casper.wait(2000, function() {});

casper.waitForSelector(".W_login_form", function(){
this.fillSelectors('.W_login_form', {
'input[name="username"]': 'XXXXXX',
'input[name="password"]': 'XXXXXX',
}, false);
this.click(".W_login_form .login_btn a");
});

casper.wait(5000, function(){
this.echo(this.getCurrentUrl());
this.capture("5000.jpg");
});

casper.run();
```

binux

2015-02-03 10:36:34 +08:00

不问是不是，就问为什么，V2越来越像知乎了啊

icedx

2015-02-03 10:50:04 +08:00

你什么时候产生了PhantomJS 不能抓取新浪微博的幻觉的

m939594960

2015-02-03 10:56:57 +08:00

为何我一用 PhantomJS 抓取运行一段时间就要报错呢。。。。。。

sivacohan

2015-02-03 13:55:50 +08:00 via Android

@m939594960 你看一下issue就知道了

m939594960

2015-02-03 14:36:08 +08:00

@sivacohan thanks!

addbook

2015-02-12 10:39:47 +08:00

@s51431980 有没有遇到输入验证码的情况没？

s51431980

2015-02-12 10:44:40 +08:00

@addbook 没有遇到过，正常登陆应该不会有验证码，phantomjs可以保存cookie，可以避免频繁登陆

addbook

2015-02-12 11:13:15 +08:00

@s51431980 weibo登录测试，我等了100s都还没跳转，是不是有问题？

addbook

2015-02-12 14:16:20 +08:00

@addbook 2了，账户密码输入错了