在做爬虫的时候,经常碰到 requests 搞不定的时候上 webdriver ,但基于 selenium 的 chrome 必须在桌面环境运行(会弹出浏览器窗口),而用支持命令行启动的 phanjstom 请求的时候很多网页都有反爬(不知道怎么识别的),有没有其他的浏览器支持 Linux 的无窗口环境运行? firefox 之类的支持吗?谢谢
1
jetyang 2016-10-18 15:55:34 +08:00 1
firefox 、 chrome 都可以啊,配合 Xvfb 使用。如果用 chrome 要单独安装 chromedriver , firefox 不用额外装东西,网上教程有一些,挺容易配置的
|
2
cheetah 2016-10-18 16:02:49 +08:00
|
3
kukuwhu OP @jetyang 好的,非常感谢,另外再请教下,理论上用 phantomjs 通过配置 desired_capabilities 可完全模拟 chrome,但为什么我用 chrome 可打开页面,用 phantomjs 返回的是明显做了反爬的空 html 页面?除了配置 desired_capabilities 的 useragent 为 chrome 还有其他地方有差异吗?
|
4
kukuwhu OP @cheetah 我是用的 chromedriver ,必须要在视窗界面下运行才不报错,应该是 jetyang 说的,需要配置一下 xvfb
|
6
jetyang 2016-10-18 16:42:46 +08:00
@kukuwhu 我没用过 phantomjs ,一直用的 webdriver 。别人防抓取的策略可能比较高级吧,比如限制单 IP 访问频次、 cookie 保持等等,爬不到正确内容要分析具体原因
|
7
L2AKnG8GXx60bc6P 2016-10-18 16:53:37 +08:00
@jetyang 请教一下,下载了 chromedriver 之后还用安装 chrome 吗?如果用怎么在命令行下安装 chrome 呢?
|
8
jetyang 2016-10-18 17:44:06 +08:00
@relic 我都装了,环境是 centos ,必须 centos 7 以上才能装 chrome , yum install chrome , chromedriver 我记得是个可执行文件,下载解压就可以用了。好像还有一个坑: chrome 不能以 root 用户启动,记不清了,你试试看
|
9
gimp 2016-10-18 17:51:36 +08:00
|
10
gimp 2016-10-18 17:55:10 +08:00
|
11
gimp 2016-10-18 17:56:07 +08:00
手抖... 还有个 https://blog.ishell.me/a/xvfb-screenshot-capture.html 稍微填了下上边的坑
|