课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
算法随着程序员的工作经验的增加而逐渐被掌握,而随着互联网的不断发展,越来越多的算法出现在程序员面前,今天我们就一起来了解一下,K均值聚类算法的概念与应用。
一、什么是K均值聚类
K均值聚类(K-meansclustering)是目前流行、容易实现的无监督机器学习算法之一。它也是一种易于理解的机器学习算法。
通常情况下,无监督机器学习算法仅使用特征向量对输入数据集中做出推理(Inferences)。因此,这些算法适用于没有标签数据的数据集。当人们想从大量结构化和非结构化数据中提取价值或洞见时,它们也非常有用。K均值聚类是其中一种探索性数据分析技术,其目标是提取数据点的子群(subgroup),以使同一聚类中的数据点在定义的特征方面非常相似。
二、K均值聚类的工作原理
K均值聚类算法是从随机选择的一组数据点开始,这些数据点被用作质心(Centroid)的初始种子。然后,该算法执行迭代计算,将其余的数据点分配给近邻的聚类。当根据定义的距离函数执行这些计算时,质心的位置将会更新。在以下任一情况下,它都会停止对聚类中心的优化:
质心的位置是稳定的,即,它们的值的变化不超过预定义的阈值。
该算法超过了大迭代次数。
三、备选解决方案
1、肘部法则
该方法使用惯性或聚类内平方和作为输入。它描述了惯性值随聚类数量的增加而减小的情况。“肘部”(Elbow,曲线上的拐点)就是一个很好的指示点,在该点上惯性值的减小并不会发生明显的变化。使用这种技术的优点是,聚类内平方和在计算上不像轮廓得分那样昂贵,并且已经作为度量包含在算法中。
2、随机降采样
降采样允许你可以处理更小的数据集。这样做的好处是,算法完成所需的时间大为减少。如此一来,分析人员就能够更快地进行工作。缺点是降采样如果随机进行的话,可能无法代表原始数据集。因此,任何涉及降采样数据集的分析都可能导致不准确的结果。但是,你始终可以采取预防措施来确保降采样的数据集代表原始数据集。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。