ml-kmeans

Kmeans实战算法总结
K-means均值聚类算法:

算法核心思想:

  1. 选择K个类中心;(类中心范围为数据min,max之间)

  2. 计算各样本到类中心的距离,把样本添加到离他最近的那个类中心的dataset中。ps:常用距离度量方法为欧几里得距离或余弦相似度

  3. 重新计算类中心(根据各dataset的平均值为新的样本中心)

  4. 迭代进行2.3步骤

tips:最大迭代次数为20,类中心值差异0.001

优点:简单,高效,用于处理多种数据类型

缺点:取到的值为局部最优值,并非全局最优值,且容易受到异常点干扰