1
rabbbit 2018-01-30 19:35:40 +08:00
把所有代码贴上来
|
2
TimePPT 2018-01-30 19:49:08 +08:00
<div class="hd_prUS">美 [ˌæbdɪ'keɪʃ(ə)n] </div>
直接看页面源码,这个 div 的内容是这样的,部分字符被转义了。 看看是不是这个原因导致的编码问题。 记得 HTMLParser 有专门的处理方法。 好像是这个 https://docs.python.org/2/library/htmlparser.html#HTMLParser.HTMLParser.handle_charref 你看下。 以及,貌似页面 head 的 meta 里也有同样信息,还好解一些,可以试试拿到。 我用 BeautifulSoup 直接解析的,没问题(解析器用的 lxml ) |
3
est 2018-01-30 20:02:44 +08:00 via Android
requests 爬的?这玩意坑
|
4
winglight2016 2018-01-31 11:16:46 +08:00
这种音标需要字体支持吧?
|
5
weeevv OP 谢谢楼上几倍,本科时写的代码直接拿来用了,没注意对音标部分作了长度限制导致 UTF8 编码直接被截断了----我原本想限制的是音标字符串的长度,所以产生了乱码。
另外转义字符也没处理,导致æ在音标没有显示。 |