聚类分析与判别分析有什么区别与联系？

2024-05-16

1. 聚类分析与判别分析有什么区别与联系？

1.聚类分析与判别分析的区别与联系     都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）     聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。3.判别分析     有Fisher判别，Bayes判别和逐步判别。一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

聚类分析与判别分析有什么区别与联系？

2. 聚类分析与判别分析如何结合运用

1.聚类分析与判别分析的区别与联系
     都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。

2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）
     聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。

3.判别分析
     有Fisher判别，Bayes判别和逐步判别。一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

3. 聚类分析与判别分析如何结合运用？

1.聚类分析与判别分析的区别与联系
     都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。

2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）
     聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。

3.判别分析
     有Fisher判别，Bayes判别和逐步判别。一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

聚类分析与判别分析如何结合运用？

4. 聚类分析的区别

5. 聚类分析与判别分析如何结合运用？

1.聚类分析与判别分析的区别与联系\x0d\x0a都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。\x0d\x0a\x0d\x0a2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）\x0d\x0a聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。\x0d\x0a\x0d\x0a3.判别分析\x0d\x0a有Fisher判别，Bayes判别和逐步判别。一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

聚类分析与判别分析如何结合运用？

6. 聚类分析的意义是什么

1、与多元分析的其他方法相比，聚类分析是很粗糙的，理论尚不完善，但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等，因此成了多元分析的重要方法，统计包中都有丰富的软件，对数据进行聚类处理。
2、聚类分析除了独立的统计功能外，还有一个辅助功能，就是和其他统计方法配合，对数据进行预处理。
例如，当总体不清楚时，可对原始数据进行聚类，根据聚类后相似的数据，各自建立回归分析，分析的效果会更好。同时如果聚类不是根据个案，而是对变量先进行聚类，聚类的结果，可以在每一类推出一个最有代表性的变量，从而减少了进入回归方程的变量数。
3、聚类分析是研究按一定特征，对研究对象进行分类的多元统计方法，它并不关心特征及变量间的因果关系。分类的结果，应使类别间个体差异大，而同类的个体差异相对要小。

扩展资料：
聚类效果的检验：
一、聚类分析后得到的每个类别是否可以进行有效的命名，每个类别的特征情况是否符合现实意义，如果研究者可以结合专业知识对每个聚类类别进行命名，即说明聚类效果良好，如果聚类类别无法进行命名，则需要考虑重新进行聚类分析。
二、使用判别分析方法进行判断，将SPSS生成的聚类类别变量作为因变量(Y)，而将聚类变量作为自变量(X)进行判别分析，判别分析具体分析聚类变量与类别之间投影关系情况，如果研究人员对聚类分析效果非常在乎，可以使用判别分析进行分析。
三、聚类分析方法的详细过程说明，描述清楚聚类分析的科学使用过程，科学的聚类分析方法使用即是良好结果的前提保障。
是、聚类分析后每个类别样本数量是否均匀，如果聚类结果显示为三个类别，有一个类别样本量非常少，比如低于30，此时很可能说明聚类效果较差。针对聚类效果的判断，研究者主要是结合专业知识判断，即聚类类别是否可以进行有效命名。
参考资料来源：百度百科—聚类分析

7. 聚类分析的定义

聚类分析的定义

8. 聚类分析法

聚类分析，亦称群分析或点分析，是研究多要素事物分类问题的数量方法。其基本原理是，根据样本自身的属性，用数学方法按照某些相似性或差异性指标，定量地确定样本之间的亲疏关系，并按亲疏关系的程度对样本进行聚类（徐建华，1994）。
聚类分析方法，应用在地下水中，是在各种指标和质量级别标准约束条件下，通过样品的各项指标监测值综合聚类，以判别地下水质量的级别。常见的聚类分析方法有系统聚类法、模糊聚类法和灰色聚类法等。
（一）系统聚类法
系统聚类法的主要步骤有：数据标准化、相似性统计量计算和聚类。
1.数据标准化
在聚类分析中，聚类要素的选择是十分重要的，它直接影响分类结果的准确性和可靠性。在地下水质量研究中，被聚类的对象常常是多个要素构成的。不同要素的数据差异可能很大，这会对分类结果产生影响。因此当分类要素的对象确定之后，在进行聚类分析之前，首先对聚类要素进行数据标准化处理。
假设把所考虑的水质分析点（G）作为聚类对象（有m个），用i表示（i=1，2，…，m）；把影响水质的主要因素作为聚类指标（有n个），用j表示（j=1，2，…，n），它们所对应的要素数据可用表4-3给出。在聚类分析中，聚类要素的数据标准化的方法较多，一般采用标准差法和极差法。

表4-3 聚类对象与要素数据

对于第j个变量进行标准化，就是将xij变换为x′ij。
（1）总和标准化

区域地下水功能可持续性评价理论与方法研究

这种标准化方法所得的新数据x′ij满足

区域地下水功能可持续性评价理论与方法研究

（2）标准差标准化

区域地下水功能可持续性评价理论与方法研究

式中：  ； 
由这种标准化方法所得的新数据x′ij，各要素的平均值为0，标准差为1，即有

区域地下水功能可持续性评价理论与方法研究

（3）极差标准化

区域地下水功能可持续性评价理论与方法研究

经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在［0，1］闭区间内。
上述式中：xij为j变量实测值；xj为j变量的样本平均值；sj为样本标准差。
2.相似性统计量
系统聚类法要求给出一个能反映样品间相似程度的一个数字指标，需要找到能量度相似关系的统计量，这是系统聚类法的关键。
相似性统计量一般使用距离系数和相似系数进行计算。距离系数是把样品看成多维空间的点，用点间的距离来表示研究对象的紧密关系，距离越小，表明关系越密切。相似系数值表明样本和变量间的相似程度。
（1）距离系数
常采用欧几里得绝对距离，其中i样品与j样品距离dij为

区域地下水功能可持续性评价理论与方法研究

dij越小，表示i，j样品越相似。
（2）相似系数
常见的相似系数有夹角余弦和相关系数，计算公式为
1）夹角余弦

区域地下水功能可持续性评价理论与方法研究

在式（4-20）中：-1≤cosθij≤1。
2）相关系数

区域地下水功能可持续性评价理论与方法研究

式中：dij为i样品与j样品的欧几里得距离；cosθij为i样品与j样品的相似系数；rij为i样品与j样品的相关系数；xik为i样品第k个因子的实测值或标准化值；xjk为j样品第k个因子的实测值或标准化值；  为i样品第k个因子的均值，  ；  为j样品第k个因子的均值，  ；n为样品的数目；k为因子（变量）数。
3.聚类
在选定相似性统计量之后，根据计算结果构成距离或相似性系数矩阵（n×n），然后通过一定的方法把n个样品组合成不同等级的分类单位，对类进行并类，即将最相似的样品归为一组，然后，把次相似的样品归为分类级别较高的组。聚类主要有直接聚类法、距离聚类法（最短距离聚类法、最远距离聚类法）。
（1）直接聚类法
直接聚类法，是根据距离或相似系数矩阵的结构一次并类得到结果，是一种简便的聚类方法。它首先把各个分类对象单独视为一类，然后根据距离最小或相似系数最大的原则，依次选出一对分类对象，并成新类。如果一对分类对象正好属于已归的两类，则把这两类并为一类。每一次归并，都划去该对象所在的列与列序相同的行。经过n-1次把全部分类对象归为一类，最后根据归并的先后顺序作出聚类分析谱系图。
（2）距离聚类法
距离聚类法包括最短距离聚类法和最远距离聚类法。最短距离聚类法具有空间压缩性，而最远距离聚类法具有空间扩张性。这两种聚类方法关于类之间的距离计算可以用一个统一的公式表示：

区域地下水功能可持续性评价理论与方法研究

当γ=-0.5时，式（4-22）计算类之间的距离最短；当γ=0.5时，式（4-22）计算类之间的距离最远。
最短、最远距离法，是在原来的n×n距离矩阵的非对角元素中找出dpq=min（dij）或dpq=max（dij），把分类对象Gp和Gq归并为一新类Gr，然后按计算公式：
dpq=min（dpk，dqk）（k≠ p，q） （4-23）
dpq=max（dpk，dqk）（k≠ p，q） （4-24）
计算原来各类与新类之间的距离，这样就得到一个新的（n-1）阶的距离矩阵；再从新的距离矩阵中选出最小或最大的dij，把Gi和Gj归并成新类；再计算各类与新类的距离，直至各分类对象被归为一类为止。最后综合整个聚类过程，作出最短距离或最远距离聚类谱系图（图4-1）。

图4-1 地下水质量评价的聚类谱系图

（二）模糊聚类法
模糊聚类法是普通聚类方法的一种拓展，它是在聚类方法中引入模糊概念形成的。该方法评价地下水质量的主要步骤，包括数据标准化、标定和聚类3个方面（付雁鹏等，1987）。
1.数据标准化
在进行聚类过程中，由于所研究的各个变量绝对值不一样，所以直接使用原始数据进行计算就会突出绝对值大的变量，而降低绝对值小的变量作用，特别是在进行模糊聚类分析中，模糊运算要求必须将数据压缩在［0，1］之间。因此，模糊聚类计算的首要工作是解决数据标准化问题。数据标准化的方法见系统聚类分析法。
2.标定与聚类
所谓标定就是计算出被分类对象间的相似系数rij，从而确定论域集U上的模糊相似关系Rij。相似系数的求取，与系统聚类分析法相同。
聚类就是在已建立的模糊关系矩阵Rij上，给出不同的置信水平λ（λ∈［0，1］）进行截取，进而得到不同的分类。
聚类方法较多，主要有基于模糊等价关系基础上的聚类与基于最大树的聚类。
（1）模糊等价关系方法
所谓模糊等价关系，是指具有自反性（rii=1）、对称性（rij=rji）与传递性（R·R⊆R）的模糊关系。
基于模糊等价关系的模糊聚类分析方法的基本思想是：由于模糊等价关系R是论域集U与自己的直积U×U上的一个模糊子集，因此可以对R进行分解，当用λ-水平对R作截集时，截得的U×U的普通子集Rλ就是U上的一个普通等价关系，也就是得到了关于U中被分类对象元素的一种。当λ由1下降到0时，所得的分类由细变粗，逐渐归并，从而形成一个动态聚类谱系图（徐建华，1994）。此类分析方法的具体步骤如下。
第一步：模糊相似关系的建立，即计算各分类对象之间相似性统计量。
第二步：将模糊相似关系R改造为模糊等价关系R′。模糊等价关系要求满足自反性、对称性与传递性。一般而言，模糊相似关系满足自反性和对称性，但不满足传递性。因此，需要采用传递闭合的性质将模糊相似关系改造为模糊等价关系。改造的方法是将相似关系R自乘，即
R2=R·R
R4=R2·R2
︙
这样计算下去，直到：R2k=Rk·Rk=Rk，则R′=Rk便是一个模糊等价关系。
第三步：在不同的截集水平下进行聚类。
（2）最大树聚类方法
基于最大树的模糊聚类分析方法的基本思路是：最大树是一个不包含回路的连通图（图4-2）；选取λ水平对树枝进行截取，砍去权重低于λ 的枝，形成几个孤立的子树，每一棵子树就是一个类的集合。此类分析方法的具体步骤如下。

图4-2 最大聚类支撑树图

第一步：计算分类对象之间的模糊相似性统计量rij，构建最大树。
以所有被分类的对象为顶点，当两点间rij不等于0时，两点间可以用树干连接，这种连接是按rij从大到小的顺序依次进行的，从而构成最大树。
第二步：由最大树进行聚类分析。
选择某一λ值作截集，将树中小于λ值的树干砍断，使相连的结点构成一类，即子树，当λ由1到0时，所得到的分类由细变粗，各结点所代表的分类对象逐渐归并，从而形成一个动态聚类谱系图。
在聚类方法中，模糊聚类法比普通聚类法有较大的突破，简化了运算过程，使聚类法更易于掌握。
（三）灰色聚类法
灰色聚类是根据不同聚类指标所拥有的白化数，按几个灰类将聚类对象进行归纳，以判断该聚类对象属于哪一类。
灰色聚类应用于地下水水质评价中，是把所考虑的水质分析点作为聚类对象，用i表示（i=1，2，…，n）；把影响水质的主要因素作为聚类指标，用j表示（j=1，2，…，m），把水质级别作为聚类灰数（灰类），用k表示（k=1，2，3）即一级、二级、三级3个灰类（罗定贵等，1995）。
灰色聚类的主要步骤：确定聚类白化数、确定各灰色白化函数fjk、求标定聚类权重ηjk、求聚类系数和按最大原则确定聚类对象分类。
1.确定聚类白化数
当各灰类白化数在数量上相差悬殊时，为保证各指标间的可比性与等效性，必须进行白化数的无量纲化处理。即给出第i个聚类对象中第j个聚类指标所拥有的白化数，i=1，2，…，n；j=1，2，…，m。
2.确定各灰色白化函数
建立满足各指标、级别区间为最大白化函数值（等于1），偏离此区间愈远，白化函数愈小（趋于0）的功效函数fij（x）。根据监测值Cki，可在图上（图4-3）解析出相应的白化函数值fjk（Cik），j=1，2，…，m；k=1，2，3。
3.求标定聚类权重
根据式（4-25），计算得出聚类权重ηjk的矩阵（n×m）。

区域地下水功能可持续性评价理论与方法研究

式中：ηjk为第j个指标对第k个灰类的权重；λjk为白化函数的阈值（根据标准浓度而定）。

图4-3 白化函数图

注：图4-3白化函数f（x）∈［0，1］，具有下述特点：①平顶部分，表示该量的最佳程度。这部分的值为最佳值，即系数（权）为1，f（x）=max=1（峰值），x∈［x2，x3］。②白化函数是单调变化的，左边部分f（x）=L（x），单调增，x∈（x1，x2］，称为白化的左支函数；右边部分f（x）=R（x），单调减，x∈［x3，x4），称为白化的右支函数。③白化函数左右支函数对称。④白化函数，为了简便，一般是直线。⑤白化函数的起点和终点，一般来说是人为凭经验确定。
4.求聚类系数
σik=∑fjk（dij）ηjk （4-26）
式中：σik为第i个聚类对象属于第k个灰类的系数，i=1，2，…，n；k=1，2，3。
5.按最大原则确定聚类对象分类
由σik构造聚类向量矩阵，行向量最大者，确定k样品属于j级对应的级别。
用灰色聚类方法进行地下水水质评价，能最大限度地避免因人为因素而造成的“失真、失效”现象。
聚类方法计算相对复杂，但是计算结果与地下水质量标准级别对应性明显，能够较全面反映地下水质量状况，也是较高层次定量研究地下水质量的重要方法。