V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Xs0ul
V2EX  ›  OpenAI

GPT-4o 的新 tokenizer 词库污染严重

  •  
  •   Xs0ul · 194 天前 · 651 次点击
    这是一个创建于 194 天前的主题,其中的信息可能已经有所发展或是发生改变。
    3 条回复
    jhdxr
        1
    jhdxr  
       194 天前
    说的好像现在有高质量中文语料来源一样的。

    本身简体中文(可公开访问的)内容就少,墙内网站还在纷纷对海外 IP 建墙,爬到的内容全是垃圾岂是并不奇怪。

    对于大陆的炼丹师来说这个问题当然是致命的,但反正 openai 和大陆早就双向奔 ping 赴 bi 了,所以也没啥问题?
    wangyaominde
        2
    wangyaominde  
       193 天前
    这好像说明不了什么,这类词在 ChatGPT 里面的权重也看不到,调用分词器输出就跟查词典直接让他输出一样
    Xs0ul
        3
    Xs0ul  
    OP
       193 天前   ❤️ 1
    上面两个链接都给了例子,因为这些 token 没被合理地分词,并且在训练数据里也很难被训练到,会导致 chatgpt 在遇到这些词的时候输出无关或者无意义的回答,例如 https://twitter.com/HanchungLee/status/1790273097188393391
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3080 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 00:16 · PVG 08:16 · LAX 16:16 · JFK 19:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.