我现在在做一个项目,用BeautifulSoup从网上抓一些数据。虽然BeautifulSoup的构造方法里面有一个fromencoding的参数,但是我也不知道是不是指定了这个参数之后获得的unicode是不是就是"utf-8"了。
然后我曾经在python的文档里面看到,python内部处理的时候应该用unicode来处理,而不是string,换句话说越晚调用encode("utf-8")越好。那我就比较费解了,如果说这个unicode对象有可能是utf-8的,也可能是gbk的,那么在程序里面越后面的代码就越难区别这个unicode的编码是什么?那这个问题怎么解决呢?如果及早地转换成string就不存在这个问题。
然后我曾经在python的文档里面看到,python内部处理的时候应该用unicode来处理,而不是string,换句话说越晚调用encode("utf-8")越好。那我就比较费解了,如果说这个unicode对象有可能是utf-8的,也可能是gbk的,那么在程序里面越后面的代码就越难区别这个unicode的编码是什么?那这个问题怎么解决呢?如果及早地转换成string就不存在这个问题。