想学网页抓取,新手Python的编码问题

#-*-coding:utf-8-*-
#-*-encoding=utf-8
import cookielib, urllib2,urllib,sys
from bs4 import BeautifulSoup
response = urllib2.urlopen('http://www.baidu.com')
html = response.read()
soup = BeautifulSoup(html)

a=soup.prettify()

print a

UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 3621: illegal multibyte sequence

搞不懂编码问题,请问怎么办.

utf

urllib2

soup

23 replies • 2016-09-23 07:04:37 +08:00

westy

Jun 20, 2012

百度的页面是GB2312编码的貌似。

yujnln

Jun 20, 2012

那就现学现用吧 /t/35062

hiwljun

Jun 20, 2012

试试用：
response = urllib2.urlopen('http://www.baidu.com').encode('gb2312')

liuxurong

Jun 20, 2012

@hiwljun 不行哟。
@yujnln 那个贴我看过了，搞了一个晚上，同呕吐，看来基础太差

yangg

Jun 20, 2012

html = response.read().decode('gb2312');

hiwljun

Jun 20, 2012

@yangg 哦，对，是.decode()

yangg

Jun 20, 2012

@hiwljun 还有read()之后才decode啊

liuxurong

Jun 20, 2012

@yangg 还是不行...俺用windows..是这个原因吗?

alai

Jun 20, 2012

2009-04-15

关于抓取中文页面的一点小总结 - [python]
说起来简单，但也是经过好几个项目，来来回回出问题得出来的。

+最终转成UTF8输出是毋庸置疑的。
+抓的如果是中文页面的话，用GB18030来decode是比较正统的方法，gb2312是一个误区，其实我们的页面中使用的字符编码已经早就超出2312的那些了。
+明明是中文页面抓回来却没法用18030来decode的话，一般是因为页面中混杂了非法字符的原因，可以用ignore忽略掉非法字符。

alafeizai

Jun 20, 2012

ignore正解

liuxurong

Jun 20, 2012

UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 26408: illegal multibyte sequence

Jun 20, 2012

这年代了还用urllib2呀。用requests吧，结果自动解码成unicode

>>> import requests
>>> r = requests.get('http://www.baidu.com')
>>> r.text
....
>>> type(r.text)
<type 'unicode'>

Jun 20, 2012

BF也过时了，用pyquery吧。

>>> from pyquery import PyQuery as pq
>>> html = pq(r.text)
>>> print html('title').text()
百度一下，你就知道

chairo

Jun 20, 2012

@c 直接libxml不就行了，为啥非套一层pyquery

tuoxie007

Jun 20, 2012

@c
@chairo 你们都很高级，我和LZ用的是同样的东西，哎，才发现自己这么土

@c 嗯，你们名字很高级

然后LZ那个应该改成这样，前面几楼说的都不能执行的，你们最起码自己试了再贴出来嘛=.=
html = response.read()
uhtml = unicode(html, "gbk")
soup = BeautifulSoup(uhtml)

另外，为什么我抓baidu的话，不需要自己转，soup自己就可以完成了，你是用的win？还是soup版本太低？