1
yu099 2017-11-29 11:46:16 +08:00 via Android
你网页打开是怎么识别编码的?别人可是有搞 chrome 的。
|
3
fiht 2017-11-29 12:18:22 +08:00
哪啥...试试 tika...
我觉得应该是都可以识别的... |
4
billion 2017-11-29 12:36:46 +08:00 via iPhone
Google 的工程师来自全球各个国家。而你只是一个中国人。
|
5
imn1 2017-11-29 12:57:16 +08:00
其实这个问题如果预设错误就显得很“无知”“幼稚”了
怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢? 如果用中国大陆境内的服务器,爬境内的网站,简繁英以外的编码占比多少?需要所有编码逐个试一遍么? 除了 GeoIP 外,优化的方法还有很多 |
6
binux 2017-11-29 13:24:20 +08:00 via Android 1
直接用 chrome 就好了,如果爬虫看到的是乱码,用户看到的也是。那还爬它做什么?
|
7
rogwan 2017-11-29 14:45:45 +08:00 via Android
谷歌没有楼主想像的那么完美,Chrome 对没有设定 charset 的页面,一样会解出乱码。
|