HDBSCAN 是一种无监督聚类算法,全称为 Hierarchical Density-Based Spatial Clustering of Applications with Noise(层次化的基于密度的带噪声应用聚类)。它在 DBSCAN 的基础上引入“层次结构”,能更好地处理不同密度的数据簇,并自动把离群点标记为噪声。
/ˌeɪtʃ diː biː ˈskæn/
HDBSCAN can find clusters without choosing the number of clusters in advance.
HDBSCAN 可以在不预先指定簇的数量的情况下发现聚类。
In our customer-behavior dataset, we used HDBSCAN to separate dense buying patterns from sparse outliers, then validated the stability of the clusters across different parameter settings.
在我们的客户行为数据集中,我们使用 HDBSCAN 将密集的购买模式与稀疏的离群点分开,并在不同参数设置下验证了这些簇的稳定性。
HDBSCAN 是一个首字母缩略词,来自 Hierarchical(层次化的)+ Density-Based(基于密度的)+ SCAN(常被理解为“扫描/遍历”,在此指一种聚类方法名)。它体现了该算法“先构建密度层次结构,再从中提取稳定簇”的核心思路。