最后更新于
最后更新于
其中涉及到算法复杂度的计算时, 表示样本数量, 表示特征维度, 表示设定的簇的数量, 表示迭代次数.
模型名称
数据类型
算法效率
聚类形状
适用于高维
适用于大数据
噪声敏感
能否识别异常点
能否自动得到类别数
应用场景
Python API
Partition based
K-Means
数值型
高效,
球形
是
是
敏感
否
否
大数据量, 球形, 噪声小, 没有异常点
K-Medoids
数值型
低效,
球形
否
否
不敏感
否
否
小数据集, 特别适合有噪声和极端值的情况
PAM
数值型
低效
球形
否
否
不敏感
否
否
K-Medoids算法的变种
CLARA
数值型
中
球形
否
是
不敏感
否
否
K-Medoids算法的变种
AP
数值型
低效,
球形
否
否
不敏感
否
是
小数据集, 球形数据
Hierarchy based
agglomerative
数值型
低效
任意形状
否
否
是
否
否
小数据集, 精准聚类; 不同的linkage方法使算法的表现有根本性的变化
BIRCH
数值型
高效,
球形
否
是
否
是
否
大数据量, 低位; 有多种应用情景, 查阅Birch文档
CURE
数值型
高效,
任意形状
是
是
否
否
否
大数据量, 任意形状