/ˈtoʊ.kə.naɪ.zɪŋ/
将文本、数据或信息分割成更小的单元(称为"标记"或"令牌")的过程。在计算机科学和自然语言处理中,指将一串字符或文本拆分为有意义的片段(token)。在更广泛的语境中,也可指用替代符号代替敏感数据以保护安全。
The program is tokenizing the input string into separate words. 该程序正在将输入字符串拆分为单独的单词。
By tokenizing the credit card numbers before storing them in the database, the company significantly reduced its risk of a data breach. 通过在将信用卡号存储到数据库之前对其进行令牌化处理,该公司大大降低了数据泄露的风险。
Tokenizing 源自名词 token,而 token 来自古英语 tācen,意为"标志、符号、证据",与古高地德语 zeihhan(标记)同源。后来加上动词后缀 -ize 构成 tokenize(令牌化),再加上 -ing 表示进行时或动名词形式。该词在20世纪后期随着计算机科学的发展而广泛使用,尤其在编译器设计和自然语言处理领域中成为核心术语。