欲仙欲死的字符编码问题请教

先引用一段教程里的话:
Python 2.6中这种自由混合字符串类型的方法，只有在字符串和unicode对象的编码类型兼容的情况下才有效：
>>> S = 'A\xC4B\xE8C' # Can't mix if incompatible
>>> U = u'A\xC4B\xE8C'
>>> S + U
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 1: ordinal not in range(128)
>>> S.decode('latin-1') + U # Manual conversion still required
u'A\xc4B\xe8CA\xc4B\xe8C'
>>> print S.decode('latin-1') + U
AÄBèCAÄBèC

问题是:
1.S编码类型是ascii吧?U编码类型是latin-1吧?
2.latin-1是兼容ascii的吧,为什么还需要手动转换呢?

编码

字符串

ASCII

9 replies • 2015-06-25 11:42:16 +08:00

imn1

Jun 21, 2015

ascii 是0-127
latin-1是 0-255

lilydjwg

Jun 21, 2015

U 是 Unicode 字符串，没有编码一说。当 str 和 unicode 相加时，Python 2 尝试将 str 以 ASCII 解码，所以出错了。

Sylv

Jun 21, 2015

S 是 latin-1 编码的 str 类型字符串
U 是 unicode 类型字符串，存储的不是编码，而是码点

S + U：是一个 str 类型字符串加一个 unicode 类型字符串，类型不一致，所以 Python 会把 str 类型的 S 用默认编码 ascii 转换为 unicode 类型。因此 S + U 等价于：S.decode('ascii') + U。

而字符串 S 是不能用 ascii 编码转换为 unicode 的，要用 latin-1编码：
>>> S.decode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 1: ordinal not in range(128)
>>> S.decode('latin-1')
u'A\xc4B\xe8C'

因此想要不报错需要：
S.decode('latin-1') + U