“词袋模型;词袋表示法”:一种常见的文本表示方法,把一段文本看成由若干“词”的集合(或词频向量)组成,只统计每个词出现的次数/权重,而通常不考虑词序、语法和上下文关系。常用于信息检索、文本分类、情感分析等。(也常写作 bag of words 或缩写 BoW。)
/ˌbæɡ əv ˈwɝːdz/
A bag-of-words model ignores word order.
词袋模型会忽略词的顺序。
In our classifier, we converted each review into a bag-of-words vector and then applied logistic regression.
在我们的分类器中,我们把每条评论转换成词袋向量,然后使用逻辑回归进行建模。
该术语源自一种直观比喻:把文本里的词像“装进袋子”一样混在一起,只关心有哪些词、各出现多少次,而不管它们原本的排列顺序。作为计算语言学与信息检索的经典表示方法之一,它在 20 世纪后期随文本挖掘与统计学习方法的普及而广泛使用。