V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kenneth
V2EX  ›  程序员

Unicode中各种语言的编码范围是多少?

  •  
  •   kenneth · 2013-05-08 16:57:24 +08:00 · 7723 次点击
    这是一个创建于 4219 天前的主题,其中的信息可能已经有所发展或是发生改变。
    中文
    日文
    韩文
    阿拉伯文
    俄文
    法文
    德文
    ...等等

    是否是通过Uniocde编码范围来区分属于什么语言?
    9 条回复    1970-01-01 08:00:00 +08:00
    davepkxxx
        1
    davepkxxx  
       2013-05-08 17:14:01 +08:00
    swulling
        2
    swulling  
       2013-05-08 17:22:19 +08:00   ❤️ 1
    Google Unicode,第一行,点进去,
    Unicode字符平面映射
    主条目:Unicode字符平面映射
    swulling
        3
    swulling  
       2013-05-08 17:24:19 +08:00
    xesique
        4
    xesique  
       2013-05-08 17:29:37 +08:00
    可能会比较困难,尤其对于单个字符。

    例如:
    汉字在中文、日语、韩文里面共享(CJK)。
    类似于[é]这样的字符在很多欧洲国家使用。
    就算最简单的 A-Z 也在很多国家的语言中有。

    参考: http://jrgraphix.net/research/unicode_blocks.php
    kenneth
        5
    kenneth  
    OP
       2013-05-08 17:32:58 +08:00
    @davepkxxx
    @swulling
    @swulling
    @xesique

    想问一下,世界上有多少种语言?
    我分析Unicode的目的是想区分世界各种语言。
    xesique
        6
    xesique  
       2013-05-08 17:39:02 +08:00
    参考: http://en.wikipedia.org/wiki/List_of_languages_by_name

    至于区分语言,刚刚也说了,我认为仅仅通过 Unicode 区分语言是不现实的。
    glasslion
        7
    glasslion  
       2013-05-08 17:40:49 +08:00
    大体上可以的,但日韩字符中有很多来源于汉字的的字符,它们的unicode码是一样的。瑞典文和德文也有类似的情况
    luikore
        8
    luikore  
       2013-05-08 17:48:05 +08:00
    语言和文字不是一回事, 文字和字符不是一回事, 多种文字可能会用到同一个字符的

    猜编码+语言可以用 icu
    efi
        9
    efi  
       2013-05-10 15:20:36 +08:00
    http://www.unicode.org/reports/tr24/ [Data24] Scripts.txt -> http://www.unicode.org/Public/UNIDATA/Scripts.txt

    2E80..2E99 ; Han # So [26] CJK RADICAL REPEAT..CJK RADICAL RAP
    ...
    2F800..2FA1D ; Han # Lo [542] CJK COMPATIBILITY IDEOGRAPH-2F800..CJK COMPATIBILITY IDEOGRAPH-2FA1D

    # Total code points: 75963
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2271 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:12 · PVG 00:12 · LAX 08:12 · JFK 11:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.