Detokenization(反分词/去分词):在自然语言处理(NLP)中,把已经被分割成“词元(tokens)”的文本重新合并、恢复为更自然的连续文本的过程;常用于机器翻译、文本生成等系统的后处理(例如处理空格、标点、缩写等)。也可泛指把“token 序列”还原为可读字符串。
/ˌdiːˌtoʊkənaɪˈzeɪʃən/
The system performs detokenization after translation.
系统会在翻译完成后进行去分词处理。
Accurate detokenization improves readability by fixing spacing around punctuation and restoring contractions.
准确的去分词能通过修正标点周围的空格并还原缩写形式来提升可读性。
由前缀 **de-**(表示“去除、逆向”)+ token(词元/标记)+ -ization(表示“……化/过程”)构成,字面意思是“把 token 的状态逆转、进行去 token 化”,即把分好的词元重新合成为自然文本。