V2EX  ›  英汉词典

Bag-of-words

Definition / 定义

“词袋模型;词袋表示法”:一种常见的文本表示方法,把一段文本看成由若干“词”的集合(或词频向量)组成,只统计每个词出现的次数/权重,而通常不考虑词序、语法和上下文关系。常用于信息检索、文本分类、情感分析等。(也常写作 bag of words 或缩写 BoW。)

Pronunciation / 发音

/ˌbæɡ əv ˈwɝːdz/

Examples / 例句

A bag-of-words model ignores word order.
词袋模型会忽略词的顺序。

In our classifier, we converted each review into a bag-of-words vector and then applied logistic regression.
在我们的分类器中,我们把每条评论转换成词袋向量,然后使用逻辑回归进行建模。

Etymology / 词源

该术语源自一种直观比喻:把文本里的词像“装进袋子”一样混在一起,只关心有哪些词、各出现多少次,而不管它们原本的排列顺序。作为计算语言学与信息检索的经典表示方法之一,它在 20 世纪后期随文本挖掘与统计学习方法的普及而广泛使用。

Related Words / 相关词

Literary Works / 文学作品

  • Introduction to Information Retrieval(Manning, Raghavan, Schütze)——在信息检索与文本表示章节中讨论词袋/向量空间思想。
  • Speech and Language Processing(Jurafsky & Martin)——在文本分类与特征表示相关内容中提及词袋表示。
  • “A Tutorial on Text Categorisation”(Fabrizio Sebastiani)——综述文本分类时常以词袋特征作为基础表示进行说明。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1684 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 05:16 · PVG 13:16 · LAX 21:16 · JFK 00:16
♥ Do have faith in what you're doing.