导读 你们好,最近小活发现有诸多的小伙伴们对于k均值聚类算法的优缺点,k均值聚类算法这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往
你们好,最近小活发现有诸多的小伙伴们对于k均值聚类算法的优缺点,k均值聚类算法这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往下看看吧。
1、 首先需要用一个软件,matlab,可以用2010年以上的版本。我用matlabR2014a来演示这个方法。这个软件可以在网上免费获得,你可以根据方法参考别人的经验。
2、 数据准备:一般我们处理矩阵数据,行代表样本,列代表属性,比如姓名,学号。如果是财务数据,行可以代表上市公司,列可以是每股利润、净资产收益率等属性,这样就可以形成一个数据矩阵。
3、 可以保存为txt、dat、mat等格式,放入matlab的工作文件夹中。我用2.txt来表示我要处理的数据。
4、 然后我们可以用matlab自带的函数来处理这些数据。IDX=kmeans(X,k),X是数据矩阵,k是指定的类数。我们暂时将其指定为3类,也就是说,我们将2.txt中的数据分为3类。使用下图中的语句,
5、 我们已经实现了将数据分为三类的目标。我们得到一个列向量IDX,这是最后一个类标签。第一个数字2代表第一个样本属于第二类,以此类推,我们得到一系列样本的归属序列。这样就实现了数据的聚类处理。
6、 如果要获得实际应用意义,需要具体问题具体分析。聚类算法是我们从未知标签数据中获取信息的重要手段。
以上就是k均值聚类算法这篇文章的一些介绍,希望对大家有所帮助。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!