1
mrchi 2019-12-27 14:03:47 +08:00
这个不太好处理吧,建议早期就处理好
|
2
watsy0007 2019-12-27 14:28:50 +08:00
|
3
delectate 2019-12-27 14:31:09 +08:00
比如长度是 10,有 5 个或以上不在 gb2312 里,就可以视为乱码了。
|
4
no1xsyzy 2019-12-27 14:55:37 +08:00
还是早期处理吧,不然可能造成流解析失败,你连 string 都没得
|
5
ClericPy 2019-12-27 17:14:29 +08:00
我之前在别人的爬虫系统里干过类似的, 这种没啥好办法, 统计 TF-IDF 找出不常见字符, 做 AC 自动机检测吧
不在乎性能的话, 自己用 Counter 找出频率比较高的, 做成一个正则检测吧 |
6
uti6770werty OP 谢谢各位,思索 10 来天,也确实没什么好办法,把这些乱码逆转回想要的编码,那更是不可能。。。。。。
重新再去获取页面,也不可能了,源站点已经把这些页面内容“过期就不放出来了”。。。。。。 现在只能老老实实把乱码的部分做缺失值处理。。。。 感谢各位热心解答~ |