detokenize(动词):把已经被“分词/标记化”(tokenize)的文本还原为连贯的自然语言字符串,通常会处理空格、标点与缩写等格式(如把 ["Hello", ",", "world", "!"] 变回 Hello, world!)。常用于自然语言处理(NLP)与文本生成的后处理流程。
(也可泛指“去标记化/还原标记”。)
/diːˈtoʊkənaɪz/
We detokenize the output before showing it to users.
在把结果展示给用户之前,我们会先对输出进行去标记化(还原成正常文本)。
After the model generates token IDs, the system detokenizes them into readable sentences with proper punctuation and spacing.
在模型生成一串 token ID 之后,系统会把它们去标记化为可读的句子,并补齐合适的标点与空格。
由前缀 **de-**(表示“去除、逆转”)+ tokenize(“标记化/分词”)构成,字面意思就是“把标记化的结果逆转回来”。该词主要在计算语言学与软件工程语境中使用。