机器学习:聚类

基本概念

Sklearn-Clustering

将数据分组成簇,使得簇内相似度尽可能高,簇间相似度尽可能低的无监督学习方法。

常见聚类算法

K-Means

特点

优点

缺点

原理

对于给定的样本集,按照样本之间的距离大小,将样本集划分为kk个簇。让簇内的点尽量紧密的连在一起(EE尽可能小),而让簇间的距离尽量的大。

E=i=1kxCixμi22E = \sum_{i=1}^{k} \sum_{x∈C_i} \| x - μ_i\|_2^2

流程

迭代过程

Ward Hierarchical Clustering

思想

凝聚的层次聚类采用自底向上策略,首先将每个样本作为一个簇,然后合并这些原子簇形成越来越大的簇,以减少簇的数目,直到所有的样本都在一个簇中,或某个终结条件被满足。

距离判定

单链接(Single Linkage) 最小距离 两个簇的最近样本决定
全链接(Complete Linkage) 最大距离 两个簇的最远样本决定
均链接(Average Linkage) 平均距离 两个簇所有样本共同决定

Example

BA FI MI NA RM TO
BA 0 662 877 255 412 996
FI 662 0 295 468 268 400
MI 877 295 0 754 564 138
NA 255 468 754 0 219 869
RM 412 268 564 219 0 669
TO 996 400 138 869 669 0

使用Single Linkage进行聚合

Step1:聚合MITO

BA FI MI/TO NA RM
BA 0 662 877 255 412
FI 662 0 295 468 268
MI/TO 877 295 0 754 564
NA 255 468 754 0 219
RM 412 268 564 219 0

Step2:聚合NARM

BA FI MI/TO NA/RM
BA 0 662 877 255
FI 662 0 295 268
MI/TO 877 295 0 564
NA/RM 255 268 564 0

Step3:聚合BANA/RM

BA/NA/RM FI MI/TO
BA/NA/RM 0 268 564
FI 268 0 295
MI/TO 564 295 0

Step4:聚合BA/NA/RMFI

BA/NA/RM/FI MI/TO
BA/NA/RM/FI 0 295
MI/TO 295 0

DBSCAN

待补充

GMM

待补充