V2EX  ›  英汉词典

Retokenization

定义 Definition

retokenization(再分词/重新切分词元):在自然语言处理(NLP)中,指把一段文本(或已有的分词结果)重新进行分词/切分为 token 的过程,通常为了匹配某个模型或词表(vocabulary)的要求(如 BPE、WordPiece、SentencePiece),或为对齐不同系统的标注与输入格式。

发音 Pronunciation (IPA)

/ˌriːˌtoʊkənaɪˈzeɪʃən/

例句 Examples

The dataset requires retokenization before training.
这个数据集在训练前需要重新分词。

To align the gold annotations with the model’s subword vocabulary, we performed retokenization and updated all token offsets.
为了让人工标注与模型的子词词表对齐,我们进行了重新分词,并更新了所有词元的偏移位置。

词源 Etymology

由 **re-**(“再、重新”)+ token(“词元/标记”)+ -ization(“……化/过程”)构成,字面意思就是“把文本再 token 化的过程”。该词多见于计算语言学与机器学习工程语境中。

相关词 Related Words

文献与作品 Literary / Notable Works

  • Sennrich, Haddow & Birch (2016), Neural Machine Translation of Rare Words with Subword Units(子词切分与重切分讨论常与 retokenization 同现)
  • Kudo & Richardson (2018), SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
  • Devlin et al. (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(相关实现与复现工作中常提及为匹配 WordPiece 而进行的 retokenization)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5656 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 07:53 · PVG 15:53 · LAX 00:53 · JFK 03:53
♥ Do have faith in what you're doing.