1
vy0b0x 2015-04-18 03:13:40 +08:00 1
'awefa'.decode('utf8')
|
2
vimutt OP @vy0b0x 我试过con.decode('UTF8') 虽然不提示出错信息了 但是htmlparser 却不输出对网页提取信息的内容 但是gb2312的网页却可以正常提取
|
3
linkiosk 2015-04-18 07:25:43 +08:00 via Android 1
reload(sys)
设置默认编码 |
4
vimutt OP @linkiosk 这个也试了 设置默认编码为utf8 不提示出错了,但是htmlparser 依然不输出任何结果 但是gb2312的网页却可以
|
5
vimutt OP 完整代码如下 :我又用v2ex试了下 虽然都是utf8编码 ,v2ex就可以输出结果,我想爬的这个站就不行 麻烦各位帮忙看看:
# -*- coding:utf-8 -*- import urllib2 import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == 'a': for name, value in attrs: if name == 'href': print value my = MyParser() Url = 'http://blog.sina.com.cn/s/articlelist_1743100694_0_1.html/' Url2 = 'https://v2ex.com/' print 'Url:',Url request = urllib2.Request (Url) m = urllib2.urlopen(request) con = m.read() my.feed(con.decode('utf-8')) |
6
bugcoder 2015-04-18 14:29:09 +08:00 1
|