V2EX  ›  英汉词典

Tokenizing

发音 Pronunciation

/ˈtoʊ.kə.naɪ.zɪŋ/

定义 Definition

将文本、数据或信息分割成更小的单元(称为"标记"或"令牌")的过程。在计算机科学和自然语言处理中,指将一串字符或文本拆分为有意义的片段(token)。在更广泛的语境中,也可指用替代符号代替敏感数据以保护安全。

例句 Examples

The program is tokenizing the input string into separate words. 该程序正在将输入字符串拆分为单独的单词。


By tokenizing the credit card numbers before storing them in the database, the company significantly reduced its risk of a data breach. 通过在将信用卡号存储到数据库之前对其进行令牌化处理,该公司大大降低了数据泄露的风险。

词源 Etymology

Tokenizing 源自名词 token,而 token 来自古英语 tācen,意为"标志、符号、证据",与古高地德语 zeihhan(标记)同源。后来加上动词后缀 -ize 构成 tokenize(令牌化),再加上 -ing 表示进行时或动名词形式。该词在20世纪后期随着计算机科学的发展而广泛使用,尤其在编译器设计和自然语言处理领域中成为核心术语。

相关词汇 Related Words

文学与著作引用 Literary References

  • 在 Alfred V. Aho 等人的经典教材《Compilers: Principles, Techniques, and Tools》(《编译原理》,又称"龙书")中,tokenizing 是词法分析阶段的核心概念,被详细讨论。
  • 在 Christopher Manning 和 Hinrich Schütze 的《Foundations of Statistical Natural Language Processing》中,tokenizing 被作为文本预处理的第一步加以阐述。
  • 在 Jurafsky 和 Martin 的《Speech and Language Processing》中,tokenizing 是自然语言处理流水线中不可或缺的环节。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5538 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 09:34 · PVG 17:34 · LAX 02:34 · JFK 05:34
♥ Do have faith in what you're doing.