V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
miniyao
V2EX  ›  问与答

谷歌的蜘蛛要爬那么多国家语言和地区的网页,可以做到识别网页编码方式 100%准确吗?

  •  
  •   miniyao · 2017-11-29 11:38:31 +08:00 via Android · 1718 次点击
    这是一个创建于 2552 天前的主题,其中的信息可能已经有所发展或是发生改变。
    写的爬虫程序经常会遇到编码错误,想想谷歌蜘蛛要爬那么多国家语言的网页,是怎么保证网页编码的正确呢?

    自己用的方法就是用 Nchardet 这样的工具先检测下,再者解析 ContentType,最后是强制 utf-8 解析下,搞不定就 pass。做不到 100%的可靠。

    毕竟中文网页常用的就那么几个编码方式,谷歌爬虫要解析那么多国家语言的网页,可以做到 100%准确识别网页编码方式吗?
    7 条回复    2017-11-29 14:45:45 +08:00
    yu099
        1
    yu099  
       2017-11-29 11:46:16 +08:00 via Android
    你网页打开是怎么识别编码的?别人可是有搞 chrome 的。
    ynyounuo
        2
    ynyounuo  
       2017-11-29 11:53:50 +08:00 via iPhone
    @yu099 刚想说
    fiht
        3
    fiht  
       2017-11-29 12:18:22 +08:00
    哪啥...试试 tika...
    我觉得应该是都可以识别的...
    billion
        4
    billion  
       2017-11-29 12:36:46 +08:00 via iPhone
    Google 的工程师来自全球各个国家。而你只是一个中国人。
    imn1
        5
    imn1  
       2017-11-29 12:57:16 +08:00
    其实这个问题如果预设错误就显得很“无知”“幼稚”了
    怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢?

    如果用中国大陆境内的服务器,爬境内的网站,简繁英以外的编码占比多少?需要所有编码逐个试一遍么?
    除了 GeoIP 外,优化的方法还有很多
    binux
        6
    binux  
       2017-11-29 13:24:20 +08:00 via Android   ❤️ 1
    直接用 chrome 就好了,如果爬虫看到的是乱码,用户看到的也是。那还爬它做什么?
    rogwan
        7
    rogwan  
       2017-11-29 14:45:45 +08:00 via Android
    谷歌没有楼主想像的那么完美,Chrome 对没有设定 charset 的页面,一样会解出乱码。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2781 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:33 · PVG 16:33 · LAX 00:33 · JFK 03:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.