热门搜索 :
考研考公
您的当前位置:首页正文

数据分析实验报告

来源:东饰资讯网


数据分析课程实验报告

学 院:理学院专 业:信息与计算科学班 级:姓 名:学 号:

一、实验题目

所做实验属于哪一部分的内容。例如:一元线形回归及其在SPSS中的实现。 二、实验目的

1、加深对聚类分析原理的理解; 2、理解聚类分析中变量聚类的原理;

3、运用SPASS软件解决关于聚类分析方面具体的问题;

三、实验原理

聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。

那么分类根据什么分呢?

聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。根据分类对象不同分为样品聚类和变量聚类,样品聚类在统计学中又称为 Q 型聚类,它是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类;变量聚类在统计学中有称为 R 型聚类,它反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。依据聚类方式的不同我们可以有很多种聚类如:快速聚类法,谱系聚类法等等。

R型聚类分析的主要作用是:

1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变

量组合之间的亲疏程度。

2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回

归分析或Q型聚类分析。

Q型聚类分析的优点是:

1、可以综合利用多个变量的信息对样本进行分类;

2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果; 3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。 变量聚类的基本原理

变量聚类在实际中也是广泛应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可作为某些数据分析的中间过程,例如,在回归分析中,若涉及的自编来那个很多,则可以先考虑用变量聚类,再在每一类变量中进行主成分分析,选取各类中的某些主成分作为新的自变量,这样不但可以消除变量间的复共线性,而且也可以达到降低自变量维数的目的。

设对p个变量X1,X2,,Xp个观测了n次,得到的观测数据向量为变量的观测向量xi与xj间的相似性可以用相似系数度量。设

xi(x1i,x2i,xni)Txj(x1j,x2j,xnj)T则xi与xj的相似系数是

rijxk1n2kik1nkixkjn显见,rij1,rijrji,rii1.若将xi与xj看作n维空间向

2kjxxk1量,则rij是它们的夹角余弦。变量观测向量x1,x2,xp两两间的相似系数

1r21构成相似系数矩阵 Rrp1r121rp2r1pr2pr

ijp*p1

显然,对于标准化数据,R即原观察数据的相关系数矩阵,这时rij的大小反应了两个变量Xi与Xj线性关系的强弱。

从R出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱

系聚类过程类似,只是由于rij越大,表明Xi与Xj越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。类与类之间的相似性度量可类似于前述的定义。需要指出的是,在SAS系统的proc cluster过程中,总是从不相似度量的距离矩阵出发进行巨雷,因此看,若利用此过程对变量聚类,应先将相似矩阵R变化为不相似度量的距离矩阵Ddijp*p,再从出D发,按照样品的谱系聚类法对变量角力。通

2常的变换有dij1rij 或 dij1rij, i,j1,2,p若R为相关系数矩阵,且我们一变量的线性关系强弱作为相似性的度量,这时可令

dij1rij i,j1,2,p.

样品间的距离

1、距离定义:设满足下面的三个条件

(1)d(x,y)0且d(x,y)0当且仅当xy时; (2)d(x,y)d(y,x); (3)d(x,y)d(x,z)d(z,y); 距离定义有很多种,常见的有: (1)欧氏距离(Euclidean distance)

d(x,y)2xykk k1p(2)绝对距离(Block距离) d(x,y)xkyk

k1p(3)切比雪夫距离(Chebychev) d(x,y)maxxkyk

1kp2、我们主要用到快速聚类,因此我们讲述一下快速聚类的步骤: (1)选择聚点,得到初始聚点的集合,可以假定聚类中采用距离是欧氏距离,即上面的式子。

(2)按照如果某一个点到该聚点的距离比到其他聚点的距离小,就把该点分为该聚点的类的原则,实现对所有点的初始划分,得到初始类:

(0)(0) G(0)G1(0),G2 ,Gk(3)从

G0出发,计算新的聚点集合L1以Gi0的重心为新的聚点

1nixlGi(0)xi(1)xl,i1,2,k

其中ni是类Gi0中的样品数,这样得到新的聚点集合:

(1)(1)(1) L(1)x1,x2,xk从L1出发,将样品进行新的分类。记

(1)(1) G(1)G1(1),G2,Gk这样依次计算下去 (4)设在第m步得到分类

(m)(m) G(m)G1(m),G2 ,Gk在以上的递推过程中,xim是类Gkm1的重心,但是其不一定是样品,又一般不是下一聚类的重心,但是当m逐渐增大时,分类趋于稳定此时有xim就会近似为Gim的重心,从而ximxim1,Gim1Gim,算法即可结束,实际计算时候若相邻的两次迭代使得分类相同,则计算即告结束。

一般情况下,我们也可以设置收敛准则为当聚点改变的最大距离小于或等于初始聚点之间的最小距离乘以给定的某个数值时,计算过程结束。

四、实验内容

例题.

我们以2005年31个省,市,自治区的城镇居民月平均消费支出数据为例,在spss中利用K-均值法对31个省市自治区的城镇居民消费水平进行聚类分析。

城镇居民消费水平通常用表9.13中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表9.13。

表9.13 2005年31个省、市、自治区城镇居民月平均消费数据 x1 人均粮食支出 (元/人) x5 人均衣着支出 (元/人) x2 人均副食支出 (元/人) x6 人均日用杂品支出 (元/人) x3 人均烟、酒、饮料支出 (元/人) x7 人均水电燃料支出 (元/人) x4 人均其他副食支出 (元/人) x8 人均其他非商品支出 (元/人) x1 x2 124.89 122.39 90.21 66.38 67.08 115.88 88.94 75.50 168.69 122.51 142.24 107.13 171.65 104.68 88.34 73.18 102.67 104.45 173.30 131.35 139.92 x3 35.43 29.08 24.45 18.05 20.28 28.21 18.54 14.00 40.81 27.07 43.33 32.85 22.30 15.55 19.07 18.01 21.87 20.72 17.43 11.69 12.98 x4 73.98 51.64 32.44 31.32 35.27 42.44 35.63 29.56 70.12 42.50 50.74 35.77 40.53 35.61 43.19 29.38 30.47 38.15 43.59 32.06 23.58 x5 93.01 55.04 62.48 74.48 81.07 58.07 65.72 69.29 74.32 63.47 101.77 61.34 57.13 51.80 72.98 64.51 64.33 62.98 53.66 41.54 24.87 x6 20.58 11.30 7.45 8.19 10.94 9.63 8.81 8.24 15.46 15.38 12.92 7.53 12.60 11.18 12.59 8.91 11.99 12.67 16.86 10.84 10.76 x7 43.97 54.88 47.50 34.97 39.46 48.65 50.29 42.08 50.90 36.14 53.44 34.60 54.03 36.27 42.16 38.14 42.14 39.16 65.02 42.77 32.35 x8 433.73 288.13 178.84 177.45 182.20 194.85 186.52 165.90 422.74 240.92 394.55 142.23 225.08 142.72 200.18 155.45 168.17 213.56 385.94 178.51 144.21 北 京 21.30 天 津 21.50 河 北 18.25 山 西 21.84 内蒙古 21.37 辽 宁 22.74 吉 林 20.22 黑龙江 21.33 上 海 21.13 江 苏 18.61 浙 江 19.96 安 徽 19.61 福 建 25.56 江 西 18.75 山 东 18.27 河 南 19.07 湖 北 18.76 湖 南 20.25 广 东 23.68 广 西 18.70 海 南 16.16 重 庆 18.18 四 川 18.53 贵 州 18.33 云 南 22.30 西 藏 29.67 陕 西 20.03 甘 肃 18.68 青 海 20.33 宁 夏 19.75 新 疆 21.03 120.39 109.95 92.43 99.08 146.90 70.75 72.74 75.64 70.24 78.55 26.18 21.49 25.38 33.36 64.51 19.75 23.72 20.88 18.67 14.35 37.94 33.04 32.19 32.01 54.36 34.95 38.69 33.86 36.71 34.33 68.16 50.98 56.32 52.06 86.10 53.29 62.41 53.81 61.75 64.98 11.64 10.88 14.00 7.04 14.77 10.55 9.65 10.06 10.08 9.83 38.48 33.96 38.57 32.85 32.19 38.20 35.26 32.82 40.26 33.87 246.37 183.85 144.82 190.04 193.10 189.41 170.12 171.32 165.22 161.67 五、实验步骤

在spss中依次点击“analyze,classify,k-means cluster”,打开k-means cluster analysis对话框,将8个变量选入variable框中,将表示地区的变量选入label cases by 栏中,将分类数定为3.另外,点击iterate按钮可以在其中输入最大迭代次数和收敛标准;在save中按钮中可以选择保存样本的聚类结果和各样本距各自中心点的距离。过程如下:

1.打开k-means cluster analysis对话框。

2. 将8个变量选入variable框中

3.选择最大迭代次数

4.输出结果

六、实验结果与分析

其中第一个表显示了3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。第二个表展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类中心点分别偏移了42.593,416,66.676,直到第三一迭代3个类的中心点偏移才达到指定判定标准(0)。第三个表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。最后一个表给出了各类中的样品数目,第一类包括4个地区,第二类包括6个地区,第三类包括21个地区。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top