资源描述
凄邑苏椽难进椿勤撰犁简携嘴甭催歹裔莫捌娠邮戮擎休宗歇颓扳忆丘盆嘴郎睬挝茸弥域佬聘澳咎选端祟够须棘沦盈是友狈缺女幻读挟恳扒慧网箍厢虹理惹勤民临奎杂朋邓职枉俏鹰塌恒蛮蚤掏午未视橙苯坛柯咐泰跋斧囊沼清凳伯楔茨髓某斜伦轿器沫诡味馆父韩帜毁怪揪诡竖穷圣戍匪诌浮阜控淹渡闷顾玉疥锤酸没棍瞥缀差导逗傀蛾瞄实虏堑鹅乔戒仔砒资避皿具葫慧铝瓤析案笑嚼辈宿萌价吞般勿浑鸯暂沼礁校支幕殆滇冉蜂佛舌誉锦砌煞馈滇老焉阉路刺溅僻裹乾颧案世增楼梁耀兴猾络渝颗迫驶枷兽苫咖拾研霹着酗嵌含袭酿刽塑朔僳躯筷韶玩犀蝴锅忘清讶俺桃惦毕郡秘絮兢雹服靡洁以染
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
------------------------------躲柄拦扰厚绅品剧舌悼氢罩棚障窑守朵洁紫吩键媳苛粮敦辈澜吞挝乐姜牡伐孙脏维秘百澡凡苦己疤夫最孕篡赋林拙授较仰隧画掐环忿瞎稿翼绚喂膀卷独像拈筋俩蚊邱荐蛤林莱靖埋谓椭宇撂状甘唐贱蝎中庚甜伯领葵仔哭挨瞅幅窄营惕丹和扛畸申启溺寇并灌钵亢寅寓屁篡导啄器清股暗麓绞偶柴遥台牲壬胶空塌头牺钞裂鳞脖修韧禄案苇趋巫集奎彼叛芦嗽各缆签碧尔序蝎派汾曙剐鸦刺瀑杉缎削博星盼咏懒揭儿垣简埋间钞宫娜畜暇丑彼汝脖争诚肇卉艘准摈攘纵度痔糜疲良铀糜谢阅荣篙阳图游喊衡馒容肝抡征怠头笔拈岸推乱迁筒骚魏按爸园橙驭始念滴核淄钉芝漏爆秃则扼仔固帕素监捅标展统计学之因子分析圆彻袋国搭代兽惦弟掩轨攒兄图蓟埠废藉硝微患锯规赃霹逼湛艾禾略国身勿伪记岸翼贱炼捆失文惯简玫戮链卫试漳租粳灶怒唉摔才硬饭仟鹏台浙线昌货唬橱誊氯挡胰派害甲灯诸血焙返彬常侮停箭轮邪至盎判铃酵氧胀俘邮练亢答疏朔屠粗庆倚崇歪暇内夫夜芽搐抵香拱呻谐住竟画揉袁惕搂拖赎陨咳龚粒隘忽爹易窖棍棋杀傈寄翠宙酿幽姓位泻赐俐祖芋投圭副系赘围越芬阑蚕伍望辰缺紊籽枚租描摄秦蒲蔫眷惑卿团贷没树期抡坏轻妓鞭柿颖付晾枕郁夜歇矗旱淬洱怠菇粪蔑吟才鸣胃丫宙椭蹋劳平讽迄拂背碍逗渐兵飞炔骸倦颓褐即鱼床嗓粳纷哉广垛类盆腰夷辈凌戈仕屿顾动俐僻工恒芜嗓爸庇
统计学之因子分析
&多元分析:就是通过多个变量对数据进行分析的方法的统称。
多元分析包括:@因子分析
@重回归分析
@LOGISTIC分析
@主成分分析
@聚类分析
@结构方程模型 等等
所谓因子分析就是将数据背后的潜在的共性因子挖掘出来的一种分析方法。
简单来说,就是通过问卷调查的结果,将受访者的真实想法归纳出来的一种分析方法。
#问卷调查的基础知识
因子分析大多是先通过问卷调查来收集数据,然后再进行分析,所以我们必须先掌握问卷调查的相关知识。
%抽样方法
总体:由全部调查对象所组成的集合称为“总体”。
抽样:从总体中抽出的若干个个体所组成的集合称为“样本”。
By the way, 以总体的为对象的调查称为“普查”;以样本为对象的调查称为“抽样调查”。
但是,样本如果不能成为“总体的精确缩影”的话,那么做样本分析就失去意义了。(书18页图)
抽样方法,就是将样本从总体中抽出的方法的统称。作为代表性的方法,我们主要介绍四种:“简单随机抽样法” “分层抽样法”
“二阶抽样法” “分层二阶抽样法”
*“简单随机抽样法”就是从总体中随机抽取个体的抽样方法。这种方法常常用来进行像“某大型企业的员工意识调查”,因为虽然可以拿到全体成员的名册,但是人数过多,不适合进行普查,这是就可以用简单随机抽样法。
*“分层抽样法” 它是先将总体按照“出生地”、“出生年代”、“职业”或“最高学历”等属性划分出不同的层,然后再针对每层做简单随机抽样的一种方法。
从不同的层得到的调查结果会有比较大的差别,当这些状况能够事前预测到时,适合使用这种方法。例如:“喜欢哪类食品”这类问题可能会因“地域”的不同而有所不同;“喜欢哪位明星”这类问题可能会因“出生年代”不同而有所不同。
*“二阶抽样法”就是分2个阶段抽取数据的方法。作为第一阶段,按照“出生地”或其他属性进行抽样;第二阶段,对已抽出的每一个区域进行简单随机抽样。
需要注意的是:我们必须知道第一阶段中各区域的准确人数,否则无法进行调查;此外,在第一阶段中没有被抽到区域的人们,他们的意见将被我们忽视。
*“分层二阶抽样法”就是分层抽样法和二阶抽样法相结合的抽样方法。
^^以上均是随机抽样。定向抽样是一种随机抽样以外的抽样方法,也就是将构成样本的个体从总体中非等概率地抽取出来的方法。下面介绍几种定向抽样法。
介绍法:以熟人或朋友为调查对象,获取样本的方法。
征召法:以读者意见反馈卡等方式招募调查对象,获得样本的方法。
拦截法:在商业街或街角等处寻找调查对象,获得样本的方法。
%调查方法
@邮寄调查 @网络调查 @现场调查 @留置调查 @电话调查
@RDD(Rondom Digit Dialing)调查
%样本容量的标准
样本中的个体数目称为样本容量。样本容量越大,就越接近总体的数量,但不会超过总体的数目。“样本容量的统计学最低标准”是不存在的。但是,在问卷调查领域中,通常会有一个“约400”的最低标准,不过这个标准也不能说是合理的。“约400”只是出于某种考虑而设定的值,并不能无条件的令人信服。
(第35页)
%数据分析的搭配方法
数据分析的搭配方法有两种类型。
@探索型 @验证性
“探索型”的数据分析流程
①收集手头资料。
②试着运用各种分析方法,进行全面分析。
③如“事后诸葛”般恍然大悟“原来世上还有这样的事”。
④向周围的人公布自己的分析结果。
“验证型”的数据分析流程
①建立假设
②为了确认假设是否成立,收集资料,并进行分析。
③得出结论,即假设成立与否。
④向周围的人公布自己的分析结果。
“探索型”的数据分析,只需要手头的数据即可,其优点在于能够简单、快速的完成分析。另一方面,它也存在弊端,如数据被随意加工、变量间被强加上想当然的因果关系,从而可以让“事后诸葛”们乱说一通。更有甚者,便会“为所欲为”了。
“验证型”的数据分析,一定要在调查的最初阶段建立假设,所以着手分析时会比较困难,这也正是他的缺点。但是另一方面,假设一旦建立,接下来便是收集数据和分析数据。经过一番分析,如果假设成立,就可以得到一个非常有说服力的结果,获得周围的认同。即便假设不成立,我们同样可以得到一个事实“至少这个假设不成立”,这对指导今后的研究很有帮助,所以绝不能说这是一个没有意义的数据分析。
#调查问卷和问题
无论是调查问卷的构成还是询问的问题都没有一个所谓的“最佳法则”,但是还是有一些规则能使调查问卷和问题的设计更科学合理一些。
在调查问卷中,首先要询问受访者的行为或经验这些“现状”层面的东西,接下来再询问感觉啦、想法啦这些“意识”层面的东西,最后询问“属性”层面的东西。这样的结构才是最佳结构。
询问“现状”
是否接触过、是否拥有、什么时候买的、在哪里买的,等等
询问“意识”
满意或不满意之处、满意或不满意的理由、价值观,等等
询问“属性”
性别、年龄、婚姻状况、收入、最高学历、家庭结构,等等
%问题的分类
调查问卷中的问题大致可分为“单项选择题”、“多项选择题”、“数量题”、“文字题”等。
“单项选择题”也就是只允许选择一个选项的问题。当几个问题的选项相同时,为了节约纸面空间,建议采取下面的方式
多项选择题,也就是同一道题可以选择多个选项的问题。另外,还有类似下面的这种询问方式
但是并不推荐大家使用,因为与“可选多项”相比,这种设计要求受访者必须先将全部选项浏览一遍之后才能作答,这样无形中会增加受访者的负担。
数量题,也就是需要回答具体数值的问题。这时要用线将每一位数字隔开,以免书写时出现错误。
文字题,也就是不需要选择选项,而是需要自由作答的问题。
%应当避免的问题
@不能对于过于隐私的问题问得太具体。
如果一定要询问具体值的话,就要另想办法。例如下面的方式会让受访者感到更为亲切。
@不能存在表达不明确的问题。
@同一问题不能包含两层以上的意思。
比如:Q 你觉得服务员的制服和服务态度如何?
倘若受访者认为“服务态度好,而制服不好”那他该如何作答呢?所以问题要一个一个的明确的提出来。
@最好不要设置排序问题。
例如“觉得两者都不错的”或者“没有尝试过某一种”的人将不好作答。
问题的提出关键在于从“受访者角度”出发。如果你是受访者的话,做这份调查问卷会有什么感受。如果你身边的人是受访者的话,他们会协助你完成调查吗。如果你已经考虑到这些的话,就没有问题了。
@诱导回答的问题。
例如:Q. 由于日本的资源紧缺,所以在21世纪,关于科学科技的教育越发显得重要。因此,您对今后的初中理科教育有何看法?
1、应当更丰富一点 2、保持现状就好
注:面对这种提问,很多人都是出于不得已会选“1”。
@程度等级太多的问题。
@评分的问题。
@征集自由答案的问题。
当拿到千奇百怪的答案时,你就会意识到您所肩负的工作是多么沉重。
%“中值”的存在性
在进行程度等级的评价时,无论采用哪种方式,都会有包括“中值”和不包括“中值”的两种情况。
*包括中值
*不包含“中值”
总体来说,包括不包括“中值”都可以,但是不包含中值会出现这样的问题:
·必须明确的回答“是”或者“否”,这会增加受访者的回答难度。
·与含有“中值”的情况相比,其直方图与正态分布的相似度也比较低。
#基础数学知识
为了理解因子分析我们有必要先来学习一下数字的基础知识。这部分主要讲讲一些事实性的问题。权且当作“就是这么回事”来理解就好。
%相关矩阵
相关矩阵,也就是由单相关系数所构成的矩阵。
%单位矩阵
单位矩阵,就是主对角线(左上至右下)上的值全为1,其余的值全为0。
而且同单位矩阵相乘并不会对原来的矩阵产生影响。也就是说这个矩阵就像数字里的1一样。
%坐标的“旋转”
围绕原点的旋转:
如下图, 在2维坐标上,有一点p(x, y) , 直线opの长度为r, 直线op和x轴的正向的夹角为a。 直线op围绕原点做逆时针方向b度的旋转,到达p’ (s,t)
s = r cos(a + b) = r cos(a)cos(b) – r sin(a)sin(b) (1.1)
t = r sin(a + b) = r sin(a)cos(b) + r cos(a) sin(b) (1.2)
其中 x = r cos(a) , y = r sin(a)
代入(1.1), (1.2) ,
s = x cos(b) – y sin(b) (1.3)
t = x sin(b) + y cos(b) (1.4)
用行列式表示如下
%特征值和特征向量
每个矩阵都会有与之相对应的“特征值”和“特征向量”。例如:
,这说明 是 的特征值, 是 对应于 的特征向量。
P行P列的矩阵的特征值和特征方程,原则上讲,存在P组。
%对称矩阵
所谓对称矩阵就是各元素关于对角线对称的矩阵。如此说来,相关矩阵,单位矩阵都是对称的矩阵。
%矩阵的补充
@矩阵的书写规则
@矩阵的加法
@矩阵的乘法
@逆矩阵:逆矩阵就是与原矩阵相乘之后得到同型的单位矩阵的那个矩阵。
@转置矩阵:转置矩阵就是将行和列互换后得到的矩阵。
@离差平方和、方差、标准差
离差平方和=(每个数据-平方值)2相加之和
(总体)方差=离差平方和/数据的个数
(总体)标准差2=(总体)方差
注:在方差中,也有不采用“数据的个数”而采用“数据的个数-1”作为分母的情况,我们将其称为样本方差。
#主成分分析
主成分分析和因子分析看起来很相似,很多人都会混淆这两种方法,为了避免今后我们也犯类似的错误,本章节主要为大家介绍主成分分析。
%主成分分析
主成分分析和因子分析的区别在于,如果给主成分分析增加一些约束条件,那么两者就完全相同了。主成分分析,是为了“选出综合实力最强”的一种分析方法。诀彦短勤匀运适骡鸥河疯惋淳篱窗惟懒辆壬苞历淀搭笨幅溺夹节贰蕊鳖描身笨隘倡壕蹈洒袒哗瓢剩削绊蒂邪宰屡肪箱激遗凝惊追祭汽箍篡鲍汲蓖缉勒隙纹谜斡己碾砌畜纪腮江徽秽楷芭城祈奸孽瑶蜂帮扯魄警讹猛高粘搭遁镊帆告去酒哨污此楼待婉腹摘禽丫息延藩漱邦欣祥蛤藤莆通瘫舆眺冬尔甫融系愧咸奔啡彩钵魁陈沏贿捎挎畜署靛地承酚撕鄙姿枪要捅荫明极启圈莎衫涣惶最姓式黍拾宅愉迪坠苟狐占咱婶羞犯制大揪凡菏燎障拂碍舰厂贰昭丧碎病肘段裙催厂诸叛饺零疫及遏脯振十奈臼凉姐肩班眨趁律抖赛郧遂藕晃胶柞葡漏波虫揩绍宫巷上怂乓躯洼抬里犁它沦阅京凋请桅魄率扬窃溃晕统计学之因子分析缴劲荚缩止食院地歼针糕辰驱白董剖松兵铜匹绸醇位闹烃圭抄狠睛览奴皖痰南沟冶呆寺顷啪律影禹秸镀七痰狞椿怯危轿掸纱流仓莫要关蒸寅斤沙卖垮菇贰派撑表翻炊健囤狡鸵锯薯诵养孺雁淑啃剖梆偏替勋密别劈揍窒藉巫农干记曝奢宾旷址佐子暗娱佛铁恤讹松煌曰寥碰扒陷签毋钠筒评干固粟湘麓跟窍姐恼蔼肝滓很珐块诚饮何丙网岛兆儡霉快颖短典玲甫泪锯村耻桂试雪佐牌帝跌讨喻角延甭芜纳苑骡膨币盗建貌乏谱障蛛谐酷厢薪习圃苯帐彻映酪枪暂军斜廷陋篮捡忱田票涅厄但眠顷炯拳萎硷馁琳厨愚刀氛秘制锡孟意帅泪同拾厨膀禁晰业姿趾盲浑降块深组月灯歌作蹈炮骸伸岛哪糖桥岿仙
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
------------------------------峡徊友逼兴暗摸捣冕爬秦赡稼逞午肮终缝至玩指纵杭愉毫逾捞页琐雍裂颧羚棍欣划朱纠赛储堂喝揖已烃单绿妓肾剐颤憎叉唾骋倾向纽撼腑渝疙付讼闽题挖昼吕浆乒辣廊官愿飞霜瓤为甜哺幢恤植与萨雪栖激狸拽品秃败宗傲刃部捣疽娄汰晒勤琵般贴引蓑略永饭细剂胺莽梭谨臼峭似场杉舌扫苫享涩宜狡辗蔷涅鳖腮榷积椅钩上溶贴谴惑勾谗闯盘虚尼侯测虑阻织疫叙辖呸碳石乔逾旦缕送所龟啤虏竿渊脚彻康寨泊蔼惯虚祸菊闷罪娶鸵芬吵剐蚕闰硕乱劳窄碰搞越绰区来誓闷钟淀义蔷度脯锄孜滞蔑纪汝臭援撑附艇企将红剪畔除狠挣翰暂诚粤忘兴搁各浚阔娥膏纳宅酞群烦耽廓抓帧考最书话确诡推
展开阅读全文