模式识别实验指导书071005 联系客服

发布时间 : 星期日 文章模式识别实验指导书071005更新完毕开始阅读8b2e2035a32d7375a4178016

86420-2-4-6-8-8w1w2待定待定-6-4-20246

4.6 实验要求:

1、 要求用matlab编程,来确定分类的情况,并以图形的方式表示出来。 2、 分析k值的不同对分类的情况是否有影响,并把结果用图形的方式表示出来。 3、 回答下列问题

设在一个二维空间,A类有三个训练样本,图中用红点表示,B类四个样本,图中用蓝点表示。

试问:

(1) 按近邻法分类,这两类最多有多少个分界面

19

(2) 画出实际用到的分界面 (3) A1与B4之间的分界面没有用到

4、 请根据剪辑方法近邻的原理,对样本的空间进行剪辑,再确定上述样本点的分类情况。

并对两种分类结果进行分析(选作)。

20

实验五、动态聚类

5.1 实验类型:

设计型:C-均值动态聚类算法

5.2 实验目的:

本实验旨在让同学理解动态聚类算法的原理,掌握C-均值算法,并能利用C-均值算法解决实际的分类问题。

5.3 实验条件:

matlab软件

5.4 实验原理:

动态聚类方法的任务是将数据集划分成一定数量的子集,例如将一个数据集划分成三个子集,四个子集等。因此要划分成多少个子集往往要预先确定,或大致确定,当然这个子集数目在理想情况现能体现数据集比较合理的划分。这里要解决的问题是: 1. 怎样才能知道该数据集应该划分的子集数目

2. 如果划分数目已定,则又如何找到最佳划分。因为数据集可以有许多种不同的划分方法,需要对不同的划分作出评价,并找到优化的划分结果。由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的迭代过程,故这种方法称为动态聚类方法。我们先讨论在子集数目已定条件下的聚类方法,然后在讨论如何确定合理的子集数目。 一个动态聚类算法需要有以下几个要点:

1.选定某种距离度量作为样本间的相似性度量;

2.确定样本合理的初始分类,包括代表点的选择,初始分类的方法选择等。 3.确定某种评价聚类结果质量的准则函数,用以调整初始分类直至达到该准则函数的极值。

这是一个动态聚类方法的三个要素,其中初始划分只是为了使划分能从某个初始点开始,。而相似度量计算方法对解决实际问题很重要,我们先从最简单的度量——数据之间的欧氏距离开始,然后再提到其它相似性度量方法。第三个要素,即使用准则函数作为优化

21

的评价是动态聚类方法的核心。

动态聚类算法原理上就是通过迭代求函数极值的方法要解决的问题是数据的聚类,也就是将现有的数据集进行划分。因此要构造一个函数,这个函数的值与数据划分有关,从而调整数据的划分使该函数达到极值。

C-均值算法

1.准则函数—误差平方和准则

c-均值算法的准则函数表示了相似度量是以数据到数据子集均值的模的平方来度量,这是用欧氏距离的度量方法。这个准则函数是以计算各类均值mi,与计算各类样本到其所属类均值点误差平方和为准则,若各类均值表示成 mi?1Niy??i?y

其中第i类集合为?i,其样本数目为Ni是样本特征向量。 此时误差平方和准则可表示成 Jc???i?1y??ic2y?mi

其含义是各类样本与其所属样本均值间误差平方之总和。对于样本集的不同分类,导致不同的样本子集?i及其均值mi,从而得到不同的Jc值,而最佳的聚类是使Jc为最小的分类。这种类型的聚类通常称为最小方差划分。

C—均值算法可归纳成:

(1) 选择某种方法把N个样本分成C个聚类的初始划分,计算每个聚类的均值

m1,m2,?mc和Jc

(2) 选择一个备选样本y,设其在?i中 (3) 若Ni?1,则转(2),否则继续 (4) 计算

22