Python selenium chrome 使用代理做爬虫的问题，如何判断获取的页面正常

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2837 days ago, the information mentioned may be changed or developed.

RT，IP 代理不是 100%靠谱。经常会出现未连接到网络等错误。
同一类型的网页可以通过判断某个元素是否加载完成判断。
那么不同类型的网页如何判断呢？
谢谢

判断

爬虫

Selenium

Python

14 replies • 2018-08-30 16:14:57 +08:00

princelai

Aug 24, 2018 via Android

selenium 有个 EC，BY，用这两个关键词搜，有例子

bobobo80

Aug 24, 2018

selenium 应该是没有办法返回类似 requests 的 status_code 的，所以需要自己来判断一下返回页面中是否包含正常的元素，elem = driver.find_element_by_id("XXX")。需要试出一些验证码，429，404 等页面的状态，加入状态判断。

bmos

Aug 24, 2018

@princelai 这应该是显性等待某个元素出现，我希望抓不同来源的页面不一定有同样的元素。难道把 chrome 报错页面的元素全部枚举，判断下有没有出现，主要困惑是不知道报错页面总共有多少种类型。

zeR0f1re

Aug 24, 2018

@bmos 你说的报错页面难道不是返回的 http 状态码吗？我也在练习 selenium 相关的东西，希望能从你这贴了解一些问题，说错的地方多包涵

zeR0f1re

Aug 24, 2018

@bmos 刚想起来还有验证页面这样的，要是这种情况判断状态码也不行

bmos

Aug 24, 2018

@zeR0f1re :类似于这样:
无法访问此网站
www.google.com 的响应时间过长。
请试试以下办法：

检查网络连接
检查代理服务器和防火墙
运行 Windows 网络诊断
ERR_CONNECTION_TIMED_OUT

@bobobo80 谢谢。

princelai

Aug 24, 2018

@bmos 你不同页面的元素获取在一个函数内？每个页面分别用一个函数或方法才是合理的结构吧，然后每个函数分别判断某个元素是否加载。

nature91

Aug 24, 2018

用等待啊超过时长响应就跳出去至于后续怎么操作可以自己定义

princelai

Aug 24, 2018

```
browser = webdriver.Firefox(firefox_options=generate_option())
browser.get(self.baseurl)
locator = (By.CLASS_NAME, 'kr_article_list')
try:
WebDriverWait(browser, 15, 1).until(EC.presence_of_element_located(locator))
except:
logging.info('error:element of news list do not presence.')
exit(1)
```

给你个我自己的例子，我是只获取一个页面，所以判断一个元素是否出现就可以了，你可以建一个字典，key 是网址前缀，value 是元素名，然后用正则表达式匹配就可以实现多匹配了么

bmos

Aug 24, 2018

@princelai 我是把解析页面做了单独的线程，这里有单独函数判断页面元素是否存在。selenium 只负责打开页面，然后把页面源码保存到队列中。但是 IP 代理失效时，chrome 报错页面也是网页，这时候就把报错页面的源码保存下来了。我需要做的是检测 IP 代理失效的情况，这时候就更换代理。

bmos

Aug 24, 2018

@princelai 谢谢，字典是很好的思路。

ClutchBear

Aug 24, 2018

我的方法是
用 selenium 的 chrome 获取 cookies,然后 requests 用这个 cookies 来爬取页面.
一个 cookies 可以用多次, 如果 ip 超时或者获取不到 html,
就换一个 ip, 重新获取 cookies.

bmos

Aug 24, 2018

@ClutchBear 主要是有些页面元素动态加载的。才用 selenium 方便一点。

sess222

Aug 30, 2018

@ClutchBear 哎，用 SELENIUM 登登天猫国际感受下恶意吧哈哈，