收藏 分销(赏)

第五部分因子分析.doc

上传人:pc****0 文档编号:6659499 上传时间:2024-12-19 格式:DOC 页数:69 大小:9.49MB 下载积分:10 金币
下载 相关 举报
第五部分因子分析.doc_第1页
第1页 / 共69页
第五部分因子分析.doc_第2页
第2页 / 共69页


点击查看更多>>
资源描述
第五部分 因子分析 本部分内容:一、主成分分析 二、因子分析 三、SPSS操作路径 一、主成分分析 (一)一个简化分析事例 1、坐标变换 假定小学某班级学生的语文成绩(X1)数学成绩(X2)的相关系数r12 = 0.6,且X1和X2都是标准化分数,其散点图如图1所示。现通过旋转(X1,X2)变换出新坐标(Y1,Y2),使新坐标的Y1轴对准散点分布方差最大的方向。下面给出由原坐标系(X1,X2)变换为新坐标系(Y1,Y2)的方法。椭圆较长的直径的方差的65%,则可进行变量简化。把变量标准化,λ即方差。 图1 图2 记随机矢量X′=(X1,X2)的协方差矩阵为∑,则 ∑= 设u是以λ为特征值的特征矢量矩阵,把上述结果代入特征值矩阵方程(∑-λI)u = 0,得 , 。 得方程组 (1-λ)u1 + 0.6u2 = 0, 0.6u1+(1-λ)u2 = 0。 要使该方程组有非零解,系数行列式必须为零,故 。 由此解得特征值的两个取值 λ1 = 1.6, λ2 = 0.4。 代入原方程组,取 特征矢量为单位矢量,即要求 求得对应的特征矢量 =(u11,u21)=(), =(u12,u22)=()。 最后求得新坐标系(Y1,Y2)与原坐标系(X1,X2)的关系为 , 。 结果显示,新坐标是通过原坐标逆时针旋转45°得到的。如此求得的新坐标即可满足“Y1轴对准散点分布方差最大的方向”这一要求。 2、特征值λi与散点分布方差的关系 矢量Y1和Y2的方差的计算公式为 Var(Y1)= Var(X)= , 其中∑为协方差矩阵。同理 Var(Y2)= Var(X)= 。 上述结果表明,散点分布的最大变差方向由变换所得到的特征向量Y1给定,而相应的特征值λ1和λ2刻画了与各特征向量Y1和Y2对应的散点分布方差。 并且,散点分布在Y1方向上的方差占全部方向Y1和Y2上的方差的比例为 。 也就是说,散点分布变差特点的80%可以在Y1方向得到解释,而Y2方向只占20%。Y1就是本例中的第一主成分。 (思考:在原坐标系中,散点分布变差的特点在X1和X2方向上的情况如何?) (二)主成分的一般推导 1、主成分的三个特征 寻找主成分的目的,是为了根据原有统计指标体系(即原有坐标系),建立更加符合数据散点分布特征的新坐标系,在保证大部分统计信息得到反映的前提下,选择尽可能少的统计指标,简化统计描述,使统计数据中隐含的因果性因素更为清晰。主成分分析就是要揭示统计数据的变差主要出现在哪些方向上,然后选择这些方向作为简化的新坐标,用以描述统计数据的多维分布特征。 因此,主成分应满足以下三个特征: (1)在p个指标Xi(i = 1,2,3,…,p)的统计描述体系X中,表征主成分的特征矢量Yi应为原坐标Xi的线性组合,若记Yi在Xi中的分量为,则 这一要求的意思是,新坐标只能由原坐标轴产生,而不能撇开原坐标的统计内容不顾。这是为了保证,新坐标表征的统计体系在内容上与原坐标表征的统计体系相同,改变仅限于描述方式的不同。 (2),即,其中i = 1,2,3,…,p(该要求在求解λi时自然满足),并且,相应的Yi的p个特征值λi中的少数几个已包含绝大部分可解释的方差。这一要求的含义是,特征矢量为单位矢量,其中少数几个穿过数据散点分布方差较大的方向,用新坐标Yi描写数据的统计特征时,只需采用其中这些穿过数据散点分布方差较大方向的新坐标就足以描述绝大部分变差的情况,从而可以比原坐标Xi的描述简化。能否实现这一要求,须由实际的推导决定。 (3)Yi和Yj(i≠j)相互无关(正交),即新坐标轴两两独立。以数学方式表述为协方差Cov(Yi , Yj) = 0, i≠j。这一要求,在运用标准化数据的相关矩阵求解特征值λi和特征矢量Yi的过程中,将自然得到满足,无须特别处理。 2、主成分的导出步骤 综上所述,主成分可以通过以下步骤求解: (1)把数据标准化,写出标准化数据矩阵X; (2)写出相关系数矩阵: (3)通过矩阵方程(∑-λI)u = 0 求出特征值λi和特征矢量Yi。特征值一般按以下规则命名:。此时,主成分已按从大到小排列的顺序求出。 (4)利用特征值从大到小累计,计算前m个特征值累计可解释的方差在总方差中所占的比例: , 然后根据研究目的确定可选择哪些主成分而略去另外哪一些主成分,最后用于统计数据分析。 (三)主成分分析应用举例 (四)主成分分析小结 1、主成分分析适用于为简化数据结构提供方向性依据,方法是将原有的众多变量转化为几个综合变量,并保证原有的大部分统计信息(以累计方差衡量)在综合变量中同样得到反映。 2、主成分分析具有明确的几何意义,它通过把坐标轴旋转获得新坐标,并使新坐标轴的方向与数据分布变差最大的方向一致。可以证明协方差矩阵(或相关矩阵)的单位特征向量的方向就是新坐标轴的方向。 3、主成分分析在各变量间的相关关系比较密切时才会有明显价值,此时,数学上表现为各特征值相差较大。一般,特征值差异越大(表现为累计方差集中在少数几个统计指标上),主成分分析的效果越好。 一、因子分析 如果统计体系中的某些统计描述指标具有很强的相关性,在这些强相关的统计指标中,统计对象在某一个统计指标上的状况即可表明该对象在其他指标的大部分状况,从而,可以把这些强相关的统计指标合并在一起,更为清晰地反映统计对象的特征,使统计系统得以简化和基本变量结构更加明确。 (一)因子分析的基本思想 (二)因子分析的数学模型 (三)公共载荷的求解——主成分法 载荷矩阵A的意义: (四)因子旋转 因子旋转的目的是要弄清公共因子在原变量系统中的概括含义。公共因子在原变量体系中的不同负荷绝对值(投影长度)越大,公共因子与这些变量的联系就越密切。所谓旋转,就是把某一公共因子中的变量旋转到某些原变量的最大投影方向。如果无论怎样旋转,因子负荷在原变量中的投影始终相差不远,因子分析就没有多大意义了。 所以,在有意义的因子分析中,旋转后的因子负荷矩阵应满足以下要求: 1、每一列上多数因子负荷取值接近与零; 2、每一列上只有少数的因子负荷取较大值; 3、每两列中,因子负荷较大和较小的排列结构明显不同。 满足上述要求时,因子分析将可以得到明确而简明的解释。最常用的因子旋转方法是“方差最大正交旋转”。具体运算此处不作介绍。 二、因子分析应用举例 仍以30个省市自治区经济发展基本情况的统计数据为例。 计算步骤: 附录:通过项目剔除获得高质量的因子分析结果 以某事业单位员工福利满意度调查为例,对样本数据运用主成分法进行探索性因素分析。 问卷内容如下: 下面的项目是对您单位福利状况的一些描述,请您仔细阅读每一个句子,然后根据自己的实际情况对每一项目做出评定,从1到5表示对您情况描述的同意程度,请您在相应的程度升划√。答案无对错、优劣之分,请根据您的实际情况填写。其中:1=完全不同意,2=比较不同意,3=介于同意与不同意之间,4=比较同意,5=完全同意。 题 号 内    容 完全不同意 比较 不 同意 介于同意与不同意之间 比较同意 完全同意 1 单位所提供得福利基本上满足了我的需求和期望 1 2 3 4 5 2 单位提供的福利措施使我感到工作和生活上有了保障 1 2 3 4 5 3 我感觉我享受到的福利价值比较高 1 2 3 4 5 4 从这些福利中,能体会到了单位对我的关怀 1 2 3 4 5 5 我清楚自己享有的福利项目所花的费用是多少 1 2 3 4 5 6 我很满意单位为我提供福利所支付的金额 1 2 3 4 5 7 我认为福利占我的整体收入的比例很合理 1 2 3 4 5 8 本单位为员工提供了丰富的个性化福利项目 1 2 3 4 5 9 单位为我提供了丰富的经济性福利(如退休金、团体保险、伤病救助贷款、分红入股、休假给予的报酬等) 1 2 3 4 5 10 单位为我提供了丰富的娱乐性福利(如旅游、运动会、社团活动、晚会、书报杂志词阅、演讲和座谈、电影欣赏等) 1 2 3 4 5 11 单位为我提供了丰富的设施性福利(体育设施、休闲设施、员工宿舍和餐饮、医疗卫生设施、免费停车场等) 1 2 3 4 5 12 单位为我提供了丰富的员工服务福利(职业生涯规划、员工法律咨询、员工投资咨询、弹性工作时间、培训等) 1 2 3 4 5 13 本单位能把福利制度及相关措施清楚的告知员工 1 2 3 4 5 14 我很了解本单位各项的福利措施,并能很快的列举出 1 2 3 4 5 15 本单位经常请一些员工来参与讨论有关福利的各项问题 1 2 3 4 5 16 对单位福利有疑问或意见时,我有很多途径向上级反映 1 2 3 4 5 17 福利计划一旦有变动,单位会及时告诉我 1 2 3 4 5 第一次因子分析 为验证本实验数据是否适合进行因素分析,对数据进行了Bartlett球形检验和KMO取值。 表1. 第一次因子分析的KMO值和Bartlett’s球形检验的χ2值(n=256) Kaiser-Meyer-Olkin样本适当性度量 0.946 Bartlett球形检验 近似卡方分布 3239.091 自由度 136 显著性水平 0.000 如表4.2所示,样本的KMO值为0.946,Bartlett’s球形检验的χ2值为3232.091,伴随概率小于0.001,达到非常显著水平,表明数据适合进行因素分析。 在进行了因素分析的适合性分析之后,接下来就要进行因素分析的具体研究。运用主成分法抽取共同因素,结合最大方差法进行正交旋转处理,提取特征值大于1的因子,结果发现特征值大于1的公共因子共有3个,这3个公共因子累计解释率达70.892%,所有题项共同度均大于0.5。结果如表4.3和表4.4所示。 表1-1 第一次因子分析的总体变异解释率(n=256) 因子 初始特征值 平方和负荷萃取 转轴平方和负荷量 总和 方差% 累计% 总和 方差% 累计% 总和 方差% 累计% 1 9.513 55.960 55.960 9.513 55.960 55.960 4.825 28.384 28.384 2 1.400 8.234 64.194 1.400 8.234 64.194 3.697 21.750 50.134 3 1.139 6.698 70.892 1.139 6.698 70.892 3.529 20.758 70.892 4 0.679 3.996 74.887 5 0.592 3.483 78.371 6 0.523 3.078 81.449 7 0.436 2.565 84.014 8 0.399 2.349 86.363 9 0.373 2.194 88.557 10 0.329 1.937 90.494 11 0.291 1.712 92.205 12 0.285 1.676 93.882 13 0.256 1.503 95.385 14 0.235 1.384 96.768 15 0.200 1.175 97.944 16 0.183 1.078 99.022 17 0.166 .978 100.00 表1-2 第一次因子分析的转轴后因素矩阵及共同度(n=256) 因子 1 2 3 共同度 S2 0.836 0.780 S1 0.828 0.788 S3 0.784 0.773 S4 0.774 0.748 S6 0.733 0.776 S7 0.665 0.666 S17 0.803 0.707 S13 0.785 0.743 S14 0.700 0.641 S15 0.598 0.552 0.734 S5 0.408 0.589 0.514 S16 0.463 0.578 0.659 S10 0.825 0.755 S11 0.802 0.771 S12 0.470 0.656 0.720 S9 0.470 0.617 0.616 S8 0.484 0.554 0.662 注:表中因子载荷值小于0.4者不被显示 由表4.4因素分析的结果显示,题项S15、S5、S16、S12、S9、S8具有多重负荷。其中S15不仅具有多重负荷,且负荷值比较接近,所以删除S15题项,再进行因子分析。 第二次因子分析 表 2. 第二次因子分析的总体变异解释率(n=256) 因子 初始特征值 平方和负荷萃取 转轴平方和负荷量 总和 方差% 累计% 总和 方差% 累计% 总和 方差% 累计% 1 8.913 55.704 55.704 8.913 55.704 55.704 4.828 30.177 30.177 2 1.316 8.226 63.929 1.316 8.226 63.929 3.305 20.655 50.832 3 1.135 7.095 71.025 1.135 7.095 71.025 3.231 20.193 71.025 4 0.664 4.148 75.173 5 0.563 3.522 78.694 6 0.511 3.195 81.890 7 0.436 2.726 84.615 8 0.399 2.495 87.110 9 0.337 2.108 89.218 10 0.329 2.058 91.276 11 0.288 1.801 93.077 12 0.281 1.759 94.836 13 0.247 1.544 96.380 14 0.226 1.413 97.793 15 0.185 1.158 98.951 16 0.168 1.049 100.000 表 2-1 第二次因子分析的转轴后因素矩阵及共同度(n=256) 题项 因子 1 2 3 共同度 S2 0.833 0.773 S1 0.823 0.781 S3 0.783 0.771 S4 0.777 0.747 S6 0.743 0.777 S7 0.678 0.668 S17 0.808 0.719 S13 0.797 0.770 S14 0.713 0.661 S5 0.424 0.576 0.512 S16 0.481 0.563 0.652 S10 0.838 0.777 S11 0.808 0.781 S12 0.458 0.646 0.706 S9 0.469 0.620 0.651 S8 0.506 0.537 0.618 注:表中因子载荷值小于0.4者不被显示 由第二次因子分析结果表4.5可看出,总体变异解释率达71.025%(即删除S15题项后略有上升),所以删去S15题项是可取的。表4.6结果显示,题项S5、S16、S12、S9、S8仍然具有多重负荷。其中S8负荷值比较接近,所以删除S8题项,再进行因子分析。 第三次因子分析 表 3. 第三次因子分析的总体变异解释率(n=256) 因子 初始特征值 平方和负荷率 转轴平方和负荷量 总和 方差% 累计% 总和 方差% 累计% 总和 方差% 累计% 1 8.314 55.428 55.428 8.314 55.428 55.428 4.633 30.888 30.888 2 1.316 8.774 64.202 1.316 8.774 64.202 3.243 21.617 52.504 3 1.119 7.457 71.660 1.119 7.457 71.660 2.873 19.155 71.660 4 0.651 4.342 76.002 5 0.554 3.693 79.694 6 0.472 3.146 82.841 7 0.434 2.893 85.734 8 0.349 2.324 88.058 9 0.337 2.245 90.303 10 0.329 2.194 92.497 11 0.282 1.879 94.376 12 0.247 1.647 96.023 13 0.226 1.509 97.532 14 0.193 1.284 98.816 15 0.178 1.184 100.000 表3-1 第三次因子分析转轴后的因素矩阵及共同度(n=256) 题项 因子 1 2 3 共同度 S2 0.836 0.778 S1 0.826 0.783 S3 0.787 0.772 S4 0.783 0.755 S6 0.746 0.772 S7 0.681 0.665 S17 0.808 0.718 S13 0.800 0.770 S14 0.712 0.662 S5 0.423 0.582 0.519 S16 0.484 0.568 0.652 S10 0.844 0.794 S11 0.809 0.793 S12 0.467 0.631 0.699 S9 0.477 0.611 0.618 注:表中因子载荷值小于0.4者不被显示 由第三次因子分析结果表4.7可看出,总体变异解释率达71.660%(删除S8题项后略有上升),所以删去S8题项是可取的。表4.8结果显示,题项S5、S16、S12、S9仍然具有多重负荷。其中S16负荷值比较接近,所以删除S16题项,再进行因子分析。 第四次因子分析 表4. 第四次因子分析的总体变异解释率(n=256) 因子 初始特征值 平方和负荷萃取 转轴平方和负荷量 总和 方差% 累计% 总和 方差% 累计% 总和 方差% 累计% 1 7.725 55.178 55.178 7.725 55.178 55.178 4.457 31.834 31.834 2 1.305 9.320 64.499 1.305 9.320 64.499 2.878 20.556 52.390 3 1.107 7.904 72.403 1.107 7.904 72.403 2.802 20.013 72.403 4 0.651 4.652 77.055 5 0.521 3.723 80.778 6 0.471 3.363 84.141 7 0.391 2.795 86.936 8 0.346 2.468 89.404 9 0.332 2.373 91.777 10 0.288 2.058 93.835 11 0.260 1.856 95.692 12 0.231 1.650 97.341 13 0.194 1.387 98.729 14 0.178 1.271 100.000 表4-1 第四次因子分析转轴后的因素矩阵及共同度(n=256) 题项 因子 1 2 3 共同度 S2 0.839 0.780 S1 0.829 0.787 S3 0.790 0.775 S4 0.785 0.757 S6 0.750 0.768 S7 0.684 0.658 S13 0.809 0.791 S17 0.804 0.718 S14 0.708 0.665 S5 0.432 0.584 0.527 S10 0.847 0.795 S11 0.811 0.794 S12 0.466 0.633 0.704 S9 0.478 0.610 0.616 注:表中因子载荷值小于0.4者不被显示 由第四次因子分析结果表4.9可看出,总体变异解释率达72.403%(删除S16题项后略有上升),所以删去S16题项是合理的。表4.10结果显示,题项S5、S12、S9仍然具有多重负荷。其中S9负荷值比较接近,所以删除S9题项,再进行因子分析。 第五次因子分析 经过多次探索,最后剩下了13个项目。对这13个项目进行因素分析,采用主成分分析中的方差最大正交旋转,所得的统计结果表明,事业单位员工福利满意度的内容结构呈现清晰的三因子结构,由表4.11可知KMO值为0.928,Bartlett’s球形检验的χ2值为2295.004,伴随概率小于0.001,由表4.12可知总方差解释率达到73.653%,各项目的因子负荷、共同度及方差解释率见表4.13。 表5. 第五次因子分析的KMO值和Bartlett’s球形检验的χ2值(n=256) Kaiser-Meyer-Olkin样本适当性度量 0.928 Bartlett球形检验 近似卡方分布 2295.004 自由度 78 显著性水平 0.000 表5-1 第五次因子分析的总体变异解释率(n=256) 因子 初始特征值 平方和负荷萃取 转轴平方和负荷量 总和 方差% 累计% 总和 方差% 累计% 总和 方差% 累计% 1 7.243 55.718 55.718 7.243 55.718 55.718 4.327 33.285 33.285 2 1.297 9.979 65.697 1.297 9.979 65.697 2.806 21.588 54.873 3 1.034 7.956 73.653 1.034 7.956 73.653 2.441 18.780 73.653 4 0.655 5.037 78.690 5 0.474 3.650 82.340 6 0.429 3.303 85.643 7 0.353 2.714 88.357 8 0.345 2.650 91.007 9 0.288 2.213 93.220 10 0.267 2.056 95.276 11 0.231 1.773 97.050 12 0.202 1.556 98.606 13 0.181 1.394 100.000 表5-2 第五次因子分析转轴后的因素矩阵及共同度(n=256) 项目 因子 共同度 F1 F2 F3 S2 福利质量安全感 0.842 0.779 S1 福利质量满足感 0.836 0.789 S4 单位关怀认同 0.798 0.767 S3 福利价值评价 0.795 0.771 S6 福利费用的满足 0.755 0.768 S7 福利费用占薪酬的比重 0.698 0.670 S13 福利沟通 0.805 0.791 S17单位福利变动的反映 0.789 0.705 S14 福利内容了解 0.703 0.664 S5 福利费用了解 0.613 0.544 S10 娱乐性福利类别 0.843 0.801 S11 设施性福利类别 0.821 0.811 S12 服务性福利类别 0.649 0.714 方差解释率 55.718% 9.979% 7.956% 总体方差解释率: 73.653%         这一结果已给出良好的因子分布结构,无须再进行项目剔除。 三、SPSS操作路径 69
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服