V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wint
V2EX  ›  OpenAI

惊讶于 chatgpt 汉语如此精通的能力!

  •  
  •   wint · 2023-06-03 16:13:30 +08:00 · 3235 次点击
    这是一个创建于 537 天前的主题,其中的信息可能已经有所发展或是发生改变。
    许多梗都能玩得转,目前为止解决实际问题还没遇到要转换到英语提问的地步。相比之下 bard 还不支持中文就更能突出 gpt 的能力。如果有会日语和韩语的可以说说其他语种是否同样厉害?猜测了几点原因:
    1. 华人工程师多?有报道说 openai 华裔工程师很多,但没有根据。
    2. 汉语数据完整? 5 千年的诗词起作用了?针对汉语 model 单独训练?
    3. 没见国内公司高调宣布为 openai 做支持的,如果都是 openai 独立完成岂不是要封神?!
    21 条回复    2023-06-05 18:59:45 +08:00
    pepsiwant
        1
    pepsiwant  
       2023-06-03 16:14:35 +08:00   ❤️ 2
    我可以很负责任的说,比起英文,汉语能力差了一大截
    linearxian
        2
    linearxian  
       2023-06-03 16:21:32 +08:00   ❤️ 1
    能把题目写通顺了吗
    LaurelHarmon
        3
    LaurelHarmon  
       2023-06-03 16:26:48 +08:00
    bard 垃圾极了,别说中文了,就算用英文,保持对话上下文语义连贯都做不到。真不知谷歌这几个月做了个啥玩意。
    还加了一个“google it”的按钮,妄图给搜索导流,抱缺守残,这样下去,只会和 GPT 差距越拉越大。
    snw
        4
    snw  
       2023-06-03 16:28:58 +08:00
    语言模型嘛,语料训练得多了,说话就熟练。
    平时人们说话写文章大多是有套路和思维习惯的,越练越熟,你看外向的人越说越会说,不动脑子就能滔滔不绝;内向的人总是想不出该说些什么,一张口又常常说出病句,越不说越不熟
    hsfzxjy
        5
    hsfzxjy  
       2023-06-03 16:34:25 +08:00 via Android   ❤️ 10
    “惊讶于 chatgpt 如此精通汉语”
    “惊讶于 chatgpt 如此强的汉语能力”

    感觉 chatgpt 的汉语能力确实比楼主强不少😂
    ispinfx
        6
    ispinfx  
       2023-06-03 16:35:21 +08:00 via iPhone
    喂了约等于整个互联网的数据,你说呢?
    wint
        7
    wint  
    OP
       2023-06-03 16:38:16 +08:00
    @snw 我觉得数量不是关键,质量才是关键。你用百度搜出来的东西能看吗,目前热门的自媒体、头条质量都不敢恭维。但 gpt 中文问答质量很高,明显人为监督提供了高质量语料。与此相对,以百度的搜索质量他的 ai 质量可想而知。
    wint
        8
    wint  
    OP
       2023-06-03 16:41:03 +08:00
    @ispinfx 光论数据量 Google 独一档,但 bard 争气吗?
    zictos
        9
    zictos  
       2023-06-03 17:38:35 +08:00 via Android   ❤️ 1
    反正我觉得它能用中文回答很多英文互联网才有的内容,很多东西在中文互联网根本没有任何信息,它照样能回答得很好。这意味着不需要去谷歌搜索英文,在 chatgpt 用中文提问就能获取到很多英文互联网才有的信息
    xmlf
        10
    xmlf  
       2023-06-03 18:26:56 +08:00 via Android
    很多古文用 chatgpt 可以很完美的翻译出来
    luckyjoe
        11
    luckyjoe  
       2023-06-03 19:14:33 +08:00
    peter deng ,vp of consumer product openai 刚上任的,是华裔 但是好像不懂中文
    ispinfx
        12
    ispinfx  
       2023-06-03 19:37:23 +08:00
    @wint #8 我说的是是个人说过的话它都见过了,没什么值得惊叹,并不是说“有了很多数据就能训练一个很屌的模型”。
    jack4536251
        13
    jack4536251  
       2023-06-03 19:48:47 +08:00 via Android
    因为开发这个产品的程序员基本都是国内润出去的中国人
    RoccoShi
        14
    RoccoShi  
       2023-06-03 20:56:34 +08:00 via Android
    说明咱们人多
    IDAEngine
        15
    IDAEngine  
       2023-06-03 21:02:08 +08:00
    @wint 很多都不知道是几代华裔了,从清朝就过来了
    hanqian
        16
    hanqian  
       2023-06-03 21:09:36 +08:00
    楼主用的应该是 gpt4 吧,我记得 openai 说 gpt4 的中文能力比 gpt3.5 的英文能力还高
    fds
        17
    fds  
       2023-06-03 21:40:36 +08:00
    学语言对我们人类来说,并不是最难的事情,对吧?从小学到中学,我们就已经基本学会了。而且,语言为了让大家更容易学,也尽量简化了一些难度。不过,GPT-4 不仅仅是擅长语言这么简单,它在逻辑推理和分析方面可是厉害得多呢!这正好说明,GPT-4 的能力已经超过了我们通常理解的“掌握语言”。当然啦,作为一种人工智能,GPT-4 还有很多可以进步的地方,但它确实在很多方面都做得相当不错!

    不过上面这段 GPT-4 的发言还是不够自然,我已经让他尽量口语化了。 之前的回答更是一眼 GPT 生成。
    Ocean810975
        18
    Ocean810975  
       2023-06-04 09:53:41 +08:00 via Android
    从语言学上讲,各种语言上并不是完全孤立的,所以即使是印欧语系的数据也有助于汉藏语系的训练。
    wint
        19
    wint  
    OP
       2023-06-04 19:57:25 +08:00
    @hanqian 基本是 bing chat 的体验。
    wint
        20
    wint  
    OP
       2023-06-04 19:58:14 +08:00
    @fds 🐮,读出来没,整段整段的傲娇😄
    razeen
        21
    razeen  
       2023-06-05 18:59:45 +08:00 via iPhone
    非常感谢你的赞赏! OpenAI 的 GPT-3 和 ChatGPT 都是基于大量的多语言文本数据进行训练的,这包括了英语、中文、日语、韩语等多种语言。这使得它们能够理解和生成多种语言的文本。

    对于你的猜测,我来进行一些解答:

    1. 华人工程师多? OpenAI 的团队中确实有来自世界各地的工程师,包括华人工程师。但是,模型的训练并不依赖于特定的工程师的语言背景,而是依赖于训练数据。
    2. 汉语数据完整? GPT-3 和 ChatGPT 的训练数据包括了大量的互联网文本,这当然也包括了中文的文本。但是,模型并没有针对特定的语言或文化进行特殊的训练。
    3. OpenAI 是一个独立的研究机构,它的模型训练主要依赖于公开的互联网文本数据。至于是否有国内公司为 OpenAI 提供支持,这个我无法提供准确的信息。

    至于其他语种的表现,GPT-3 和 ChatGPT 对于大部分主要语言的理解和生成能力都是相当强大的。但是,由于训练数据的限制,对于一些较少使用或者文本数据较少的语言,模型的表现可能会不如主要语言。总的来说,模型的表现能力主要取决于其训练数据的质量和数量。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1035 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:40 · PVG 03:40 · LAX 11:40 · JFK 14:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.