term frequency(词项频率,简称 TF):在一段文本、一个文档或语料中,某个词/词组(term)出现的次数或其标准化后的频率。常用于信息检索与自然语言处理(如 TF-IDF)来衡量词在文档中的重要性。(也可能指“某术语在某领域文本中的出现频率”。)
/tɝːm ˈfriːkwənsi/
The term frequency of “data” in this article is 12.
“data” 在这篇文章里的词项频率是 12。
To reduce bias from long documents, we normalize term frequency before computing TF-IDF scores for ranking.
为减少长文档带来的偏差,我们在计算用于排序的 TF-IDF 分数前先对词项频率进行归一化处理。
term 来自拉丁语 terminus(界限、术语之意),引申为“词项/术语”;frequency 来自拉丁语 frequentia(频繁、次数)。二者组合成 term frequency,在信息检索与文本统计中专指“某词项在文本中出现的次数/频率”,并在现代算法(如 TF-IDF)中成为基础概念。