clustered data(聚类数据/簇状数据):指在统计与数据分析中,观测值天然分组(成“簇/群”)的数据结构;同一组内的数据往往彼此更相似(相关性更强),而不同组之间相对更独立。常见于按学校、班级、医院、家庭、公司、地区等单位收集的数据。(也常与“群集抽样/整群抽样”或“分层/多层模型”场景相关。)
/ˈklʌstərd ˈdeɪtə/ (亦可 /ˈklʌstərd ˈdætə/)
The survey contains clustered data because students are grouped by school.
这份调查包含聚类数据,因为学生是按学校分组的。
When analyzing clustered data, we used robust standard errors to account for within-group correlation.
在分析聚类数据时,我们使用稳健标准误来处理组内相关性。
clustered 来自 cluster(“簇、群、串”),本义可指“成串的东西/聚集的一团”,后引申为“把相似对象聚在一起”。在统计学语境中,clustered data 强调“数据不是彼此独立同分布的散点,而是按自然单位成组”,因此分析时常需考虑组内相关与层级结构。