V2EX  ›  英汉词典

Detokenize

释义 Definition

detokenize(动词):把已经被“分词/标记化”(tokenize)的文本还原为连贯的自然语言字符串,通常会处理空格、标点与缩写等格式(如把 ["Hello", ",", "world", "!"] 变回 Hello, world!)。常用于自然语言处理(NLP)与文本生成的后处理流程。
(也可泛指“去标记化/还原标记”。)

发音 Pronunciation (IPA)

/diːˈtoʊkənaɪz/

例句 Examples

We detokenize the output before showing it to users.
在把结果展示给用户之前,我们会先对输出进行去标记化(还原成正常文本)。

After the model generates token IDs, the system detokenizes them into readable sentences with proper punctuation and spacing.
在模型生成一串 token ID 之后,系统会把它们去标记化为可读的句子,并补齐合适的标点与空格。

词源 Etymology

由前缀 **de-**(表示“去除、逆转”)+ tokenize(“标记化/分词”)构成,字面意思就是“把标记化的结果逆转回来”。该词主要在计算语言学与软件工程语境中使用。

相关词 Related Words

文学与著作 Literary / Works

  • Speech and Language Processing(Dan Jurafsky & James H. Martin)——在讨论分词、文本预处理/后处理的相关章节语境中常会出现 detokenize/detokenization
  • Natural Language Processing with Python(Steven Bird, Ewan Klein, Edward Loper)——在讲解文本处理流水线(tokenization 与输出格式化等)时可能出现该术语。
  • Transformers for Natural Language Processing(Denis Rothman)等 Transformer/NLP 实务类书籍——在生成文本的解码与后处理(含去标记化)语境中常见。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5656 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 07:53 · PVG 15:53 · LAX 00:53 · JFK 03:53
♥ Do have faith in what you're doing.