SPSS之聚类分析

SPSS中系统聚类分析功能在【分析】—【分类】—【系统聚类】中完成。系统聚类有两种类型,一种是对样本进行聚类,称为Q型聚类;一种是对变量进行聚类,称为R型聚类。在【系统聚类分析】—【聚类】框下选择【个案】——Q型聚类,或是【变量】——R型聚类。

如果参与聚类分析的变量存在数量级上的差异,应在SPSS中,通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【转换值】—【标准化】选项中选择消除数量级差的方法。并指定处理是针对变量还是针对样本的。

SPSS中提供多种系统聚类方法,常用的是组间平均链接和组内平均链接。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【聚类方法】选项中选择。SPSS提供多种个体距离的计算方式,常用的是Euclidean距离,平方Euclidean距离,Pearson相关性。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【测量】—【区间】选项中选择。

分类数的确定。

        (1)系统聚类中每次合并的类与类之间的距离可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。

如果以y轴为聚合系数,x轴表示分类数(n-1,n-2,…,3,2,1),画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。SPSS中通过【图形】—【旧对话框】—【散点/点状】实现。

        (2)从实用的角度出发,选择合适的分类数。  

如果确定分类数,可一开始就在SPSS中指定类数。通过【系统聚类分析】—统计量(S)—【系统聚类分析:统计】—【聚类成员】选项中选择【单一方案】—输入方案数目,或选择【方案范围】。在【系统聚类分析】—保存(A)—【系统聚类分析:保存】—【聚类成员】选项下作同样选择。此时聚类分析的结果将以变量名为clun_m(如clu2_1)的新变量存入SPSS数据编辑窗口中。

SPSS中快速聚类法(K-均值聚类法)在【分析】--【分类】--【K-平均值聚类】中完成。首先应指定聚类数目K,在【K-平均值聚类分析】—【聚类数】框中输入聚类数目,该数应小于样本数。然后SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。

最优方案原则。一般我们希望得到的聚类大小大致相等,这样把每个样品都分配到离它最近的聚类中心(即均值点)就是比较正确的分配方案。

聚类的目的是使类间差异尽量大,而类内差异尽量小,K-均值聚类分析中的方差分析提供这种检验功能。SPSS中通过在【K-平均值聚类分析】— 选项(O) —【统计量】选项中勾选【ANOVA表】来完成方差分析。

SPSS中通过在【K-平均值聚类分析】— 保存(S) 菜单下,勾选【聚类成员】,则聚类分析的结果将以变量名为QCL_m(如QCL_1)的新变量存入SPSS数据编辑窗口中。


接下来我们进行SPSS实战训练!

地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3对这31个地区的三大产业发展水平进行系统聚类分析,其中个体距离采用平方欧式距离,类间距离采用平均组间链接距离。

(1)系统聚类分析实现步骤:

未确定类数前:[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’;
  2. 2.在[Plots]对话框中勾选中‘Dendrogram’;
  3. 3.在[Method]对话框中选择‘Between-groups linkage’的Cluster Method;
  4. 4.在[Save]对话框中的‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’,将输出结果保存到数据集中。
  5. 系统聚类分析结果分析:

系统聚类分析凝聚状态表:

A.个体距离(指 平方欧式距离

B.个体与小类的距离(指  组内平局链锁距离

C.小类与小类的距离(指 组间平均链锁距离

  • 第1步:   29 样本和 30 样本聚成一小类,它们的个体距离(欧式距离的平方)是  109.714 ,这个小类将在下面第 4 步用到。
  • 第7步: 7样本 和 22样本 聚成一小类,它们的距离是 19828.887,形成的小类将在下面第13步中用到。
  • 第9步:5 样本和 24 样本聚成一小类,它们的个体距离(欧式距离的平方)是  33688.611 ,这个小类将在下面第 20 步用到。

冰柱图:

如果分为五类,分类情况是:

第一类为:北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆

第二类为:河北、辽宁、黑龙江、安徽、福建、河南、湖北、湖南、四川

第三类为:上海

第四类为:江苏、山东、广东

第五类为:浙江

树状图:

结论:如果分为四类,分类情况是:

  1. 第一类为: 北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆;
  2. 第二类为:河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川;
  3. 第三类为:江苏、山东、广东;
  4. 第四类为:浙江;

聚合系数(y轴)与分类数(x轴)的碎石图:

结论:4 类以后,变化的趋势开始趋于平稳,所以,考虑分为 4 类。

确定类数后:(将聚类结果确定为4类)

[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Single of solutions’,并输入‘4’;
  2. 2.在[Save]对话框中的‘Single of solutions’,并输入‘4’,将输出结果保存到数据集中。

分类结果:

  1. 分为 4 类。
  2. 第一类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  3. 第二类:{河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川}
  4. 第三类:{江苏、山东、广东}
  5. 第四类:{浙江}

文件:地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3。对这31个地区的三大产业发展水平进行K-均值聚类分析,要求分成3类,初始类中心点由SPSS自行指定。

“K-平均值聚类分析”对话框:[Analyze]→[Classify]→[K-Means Cluster Analysis],将“第一产业”、“第二产业”、“第三产业”添加到【Variables】中,将“Region”添加进【Label Cases by】中,并将Number of Clusters更改为3。

在[Save New Variable]对话框中勾选“Cluster membership”和“Distance from cluster center”,将聚类成员和与聚类中心的距离保存到数据集中。

在[Options]选项对话框中选择“Initial cluster centers”和“ANOVA table”两个结果。

结果分析:

起始聚集中心:每个类的起始类中心的数据(三维坐标)

  • 第一类:(1004.92,3991.97,2922.23);
  • 第二类:(31.31,20.24,39.63);
  • 第三类:(790.60,2084.33,1381.08)。

迭代历程:第1次迭代后,3个类的中心点分别偏移了407.484、647.918、369.044,第1类中心点偏移较大;第2次迭代后,2个类的中心点偏移均小于指定的判定标准(SPSS默认为0.02),聚类分析结束。

最终聚集中心:每个类的最终类中心的数据(坐标)

  • 第一类:(1079.00,3696.37,2651.72);
  • 第二类:(246.94,483.05,438.52);
  • 第三类:(675.80,1753.43,1264.80);
  • 第二类为最优。

 方差分析表:因为各个因子对应的p值=0.000,p值  < α=0.05,所以各因子的均值在类中的差异显著。

 K-均值聚类分析类成员情况:第一类包含3个地区;第二类包含17个地区;第三类包含11个地区。

K-均值聚类分析分类结果:

  • 结论:分为 3 类。
  • 第一类:{江苏、山东、广东}
  • 第二类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  • 第三类:{河北、辽宁、黑龙江、上海、浙江、安徽、福建、河南、湖北、湖南、四川}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/596871.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

优惠券样式案例

优惠券样式案例 <template><view class"box"><view class"boxItem"><img src"../../../static/come.png" alt"" class"img"/><span class"icon">&#xffe5;</span><s…

MySQL之查询 拿下 * 。*

DQL数据查询语言 对上述的的查询操作进行代码演示&#xff08;续上一篇学生表代码进行处理&#xff09; 下面是上一篇的代码分享 下面进行简单的查询操作 字符串如果强行进行算数运算默认只为0 查询时常用的单行函数列举 未完待续

电源管理芯片该如何测试?

电源管理芯片作为电子产品的重要组成部分&#xff0c;其性能测试必不可少。通过各项指标测试&#xff0c;评估电源管理芯片是否符合设计规范&#xff0c;及其稳定性和可靠性。 可通过检测以下指标参数来评估电源芯片的性能&#xff1a; 输入/出电压范围、输出纹波、电压调整率、…

数据结构学习/复习8--树与二叉树的概念与基本性质练习

一、树 1.概念 2.树的表示 二、二叉树 1.二叉树的概念 2.与性质相关的题

StreamingT2V

下面首先是参考的一些博客 https://blog.csdn.net/qq_44681809/article/details/137081515 qustion SDEdit:就是给图片加一点噪声然后再用模型去噪&#xff0c;来获得一个更好的帧&#xff0c;比如去掉伪影和污点 这里的分割为m个24帧的块&#xff0c;块与块之间已经有8帧重叠…

抖音 通用交易系统 下单 密钥生成

已PHP为例 前提提条件 必须在 linux 系统中 生成 准备工作 接下来打开命令 执行命令即可 openssl genrsa -out private_key.pem 2048 rsa -in private_key.pem -pubout -out public_key.pem exit 会生成 公匙和 私匙 在小程序中 将 生成应用公匙 复制到小程序后台 在执行…

C++ 概览并发

并发 资源管理 资源 程序中符合先获取后释放&#xff08;显式或隐式&#xff09;规律的东西&#xff0c;比如内存、锁、套接字、线程句柄和文件句柄等。RAII&#xff1a; (Resource Acquisition Is Initialization),也称为“资源获取就是初始化”&#xff0c;是C语言的一种管…

C语言-设置控制台信息

Win_API Win_API是Windows应用程序接口&#xff08;Windows Application Programming Interface&#xff09;的缩写&#xff0c;它是一组函数、系统服务和程序接口&#xff0c;允许开发者在微软Windows操作系统上创建应用程序。Win32 API 是Windows API的一个主要部分&#xff…

测试用例执行的结果pass_fail_block_skip

pass fail block skip 测试用例的执行结果通常包括以下几个方面&#xff1a; 1. **测试结果状态**&#xff1a;通常分为“通过”、“失败”、“阻塞”和“跳过”等状态。 - **通过**&#xff1a;测试用例执行完毕&#xff0c;预期结果与实际结果一致。 - **失败**&am…

C++ 多态(一)

一、多态定义 同一种操作作用于不同的对象时&#xff0c;可以产生不同的行为。在面向对象编程中&#xff0c;多态性是指通过继承和重写实现的&#xff0c;同一个方法在不同的子类中可以表现出不同的行为。多态性可以提高代码的灵活性和可扩展性&#xff0c;使得程序更易于维护…

Golang中实现调用Windows API向指定目标发送ARP请求

简介 Go库中很多实现的arp都是支持osx/linux/bsd之类的&#xff0c; 但几乎没有支持windows的&#xff0c; 也试了一些方式&#xff0c; 目前还是选用调用windows的API&#xff0c; 记录一下这一次windows的API的调用经验。 实现 代码 package main/* #cgo CFLAGS: -I. #cgo …

Altium Designer——检查原理图库正确性并生成报告

一、方法&#xff1a; 1.打开原理图库&#xff1a; 2.点击菜单栏的报告选项&#xff1a; 3.选择器件规则检查&#xff1a; 根据需求勾选&#xff0c;一般都是全部勾选&#xff1a; 二、问题&#xff1a; 1.缺少封装会导致什么问题&#xff1a; 1.首先&#xff1a; 封装是…

网络相关笔记

IPv4地址 IPv4地址通常以“点分十进制”形式书写&#xff0c;即四个0-255之间的十进制数&#xff0c;各数之间用英文句点&#xff08;.&#xff09;分隔&#xff0c;例如&#xff1a;192.0.2.1。总共32位的地址空间可以表示大约42亿个不同的地址。 IPv4地址结构包括&#xff…

Django开发实战之登录用户鉴权登录界面实现

Django自带的鉴权系统非常的安全&#xff0c;大家可以放心使用&#xff0c;那么如何使用呢&#xff1f; 1、首先需要检查settings文件种的INSTALLED_APPS&#xff0c;有没有这两部分内容&#xff1a; 2、检查中间件&#xff0c;比如这两个中间件&#xff0c;一个是用于登录&a…

io (fscanf fprintf)

20 #include <sys/un.h>21 typedef struct stu22 {23 char name[16];24 int age;25 double score;26 }stu;27 int main(int argc, const char *argv[])28 {29 /* 有如下结构体30 31 申请该结构体数组&#xff0c;容量为5&#xff0c;初始化5个学生的信息32 …

【高校科研前沿】中国科学院地理资源所钟帅副研究员研究组博士生朱屹东为一作在Top期刊发文:从潜力到利用:探索西藏风能资源开发的技术路径优化布局

01 文章简介 论文名称&#xff1a;From potential to utilization: Exploring the optimal layout with the technical path of wind resource development in Tibet&#xff08;从潜力到利用:探索西藏风能资源开发的技术路径优化布局&#xff09; 文章发表期刊&#xff1a;《…

Wireshark明文抓取

目录 原理 配置 1、配置环境变量 2、Wireshark配置 原理 SSLKEYLOGFILE是一个用于记录SSL/TLS会话中使用的密钥的文件。它主要用于调试和分析SSL/TLS协议。当启用了SSLKEYLOGFILE配置&#xff0c;系统会将所有SSL/TLS会话中使用的密钥记录到指定的文件中。这些密钥可以用来…

景源畅信数字:抖音怎么挂橱窗商品?

抖音作为一款短视频分享平台&#xff0c;近年来逐渐融入了电商功能&#xff0c;其中“橱窗”就是商家或个人展示和销售商品的一个重要工具。如何在抖音上挂橱窗商品&#xff0c;成为了众多商家关注的焦点。 一、确保账号资质&#xff1a;在抖音上挂橱窗商品前&#xff0c;需要确…

重写muduo之EPollPoller

1、EPollPoller.h EPollPoller的主要实现&#xff1a;作为poller的派生类&#xff0c;把基类给派生类保留的这些纯虚函数的接口实现出来。 override表示在派生类里面&#xff0c;这些方法是覆盖方法。必须由编译器来保证在基类里面一定有这些函数的接口的声明。在派生类要重写…

标准IO学习

思维导图&#xff1a; 有如下结构体 struct Student{ char name[16]; int age; double math_score; double chinese_score; double english_score; double physics_score; double chemistry_score; double bio_score; }; 申请该结构体数组&#xff0c;容量为5&#xff0c;初始…
最新文章