首页 > K-Means 算法如何选择 k?

K-Means 算法如何选择 k?

如何选择将数据集分为几个cluster?有什么常用的标准吗?


trial and error


k-means cluster number
随便一搜一大堆问题 这种东西设计的数学性太强 一时半伙也说不清楚
另外如果连k都不会估计干嘛用k-means single-pass或者dbscan这种不需要估计k的算法可能更适合你


首先,k不是算出来的,更像是试出来的,很多启发式的机器学习算法中所需要的常数往往是这么试出来的.
但还是提供几种方法:

  1. 用不同的k值进行聚类,然后分别计算类内距离均值和类间距离均值之比,选择最小的那个.

  2. 根据先验知识决定k的取值

  3. 对不同k值都产生2次聚类,选择两次聚类结果最相似的k值.(稳定性)

【热门文章】
【热门文章】