V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
akann
V2EX  ›  问与答

有什么简便办法判断网页是哪国语言?

  •  
  •   akann · 2012-04-04 23:59:58 +08:00 · 5905 次点击
    这是一个创建于 4634 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在有些论坛里发言的甚至不知道说的是哪国语言,用谷歌翻译都无从做起。
    7 条回复    1970-01-01 08:00:00 +08:00
    akann
        1
    akann  
    OP
       2012-04-05 00:10:01 +08:00
    这个问题搜索引擎上搜了都找不到答案,看来还是比较难,但问的人还是挺多的,看来还是有需求的,实际上可以用个数据挖掘引擎就可以判断的,但好像现在还没有网站做这个。
    akann
        2
    akann  
    OP
       2012-04-05 00:25:08 +08:00
    zxwind
        3
    zxwind  
       2012-04-05 00:28:49 +08:00
    @akann 随便敲了一行乱码

    fsdcw fwdf df wf fwe. fwef wefaqfa jojfewnf lfw?

    判断出来是Polish
    akann
        4
    akann  
    OP
       2012-04-05 00:45:32 +08:00
    @zxwind 哈哈,我敲进去,判断也不准确,判断是葡萄牙语或者菲律宾语,看来这个问题的确还是挺难的。
    kafka0102
        5
    kafka0102  
       2012-04-05 02:27:13 +08:00
    @akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些,如果是工具包的话,tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况,比如一篇中文技术文章,结果以代码为主,中文很少,自然就倾向于识别成英文,但实际要处理成中文。我现在就是在tika的基础上,对亚洲语系的语料做了些处理,计算分类的概率时加了些判断,尽量让目标的中文页面识别准确些。
    raptium
        6
    raptium  
       2012-04-05 02:33:47 +08:00 via iPad
    chrome 猜得挺准的啊
    akann
        7
    akann  
    OP
       2012-04-05 03:41:06 +08:00
    @raptium chrome是根据页面源码的charset决定的,问题是同一个charset的页面可能会有多种语言啊,比如一个网站的charset一般都是一个,但是上这个网站的人可能使用多种语言,chrome就无能为力了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2821 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:55 · PVG 20:55 · LAX 04:55 · JFK 07:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.