1
fangjinmin 2015-04-24 12:35:40 +08:00 1
import urllib
import codecs url = 'http://wiki.52poke.com/wiki/%E5%A6%99%E8%9B%99%E7%A7%8D%E5%AD%90' response = urllib.urlopen(url) charset = response.headers.getparam('charset') html = response.read() if charset != '': try: codecs.lookup(charset) html = html.decode(charset, 'replace') except: pass |
2
Exin OP @fangjinmin
感谢!但我还是无法将该html的unicode正确编码并写入到文件。 |
3
Exin OP 已解决,部分页面内容是gzip的,而其他是普通的html
通过chardet检测编码模式 或者urllib2的request 可以解决问题 |