1、 基于改进的Kmeans算法研究家庭环境对中学生认知能力的影响 谭彩娟赖承栋苗晴摘要:从研究家庭综合环境与认知能力的关系的问题出发,针对中国教育追踪调查的九年级学生数据和家长数据,根据衡量家庭综合环境的八个因素即亲密度、情感表达、矛盾性、期望性、知识性、娱乐性、控制性和家庭经济状况,基于改进的k-means聚类算法,将调查对象聚类为四类家庭综合环境。研究发现:民主型家庭氛围配合劳逸结合的教育方式和正统性家庭氛围结合理性的教育方式,这两种家庭综合环境与中学生的认知能力呈正相关关系;冲突型家庭环境搭配专制型教育方式和放任型家庭氛围结合放养型教育方式,这两类家庭综合环境与中学生的认知能力呈负相关关系
2、。关键词:k-means聚类;家庭综合环境;认知能力:TP311 :A :1009-3044(2017)33-0178-031 概述认知能力是指人脑加工、储存和提取信息的能力,具体表现为文字表达能力,抽象思维能力、和空间识别能力等。关于影响认知能力的因素,国内外都有相关的研究。2014年7月8日,英国牛津大学克里斯斯潘瑟与他的研究团队一项遗传学研究显示,在阅读能力和數学能力上的差异,更可能是由学习环境造成的,而不是他们的基因。2015年王仁曾、刘畅探讨了性别、年龄、民族、父母等“先天因素”和受教育状况、职业经历、经济条件等“后天因素”都会影响中国人的认知能力1。本文从研究家庭综合环境与认知能力
3、的关系的问题出发,考虑亲密度、情感表达、矛盾性、期望性、知识性、娱乐性、控制性和家庭经济状况八个衡量家庭综合环境的因素,采用中国教育最终调查提供的全面、专业、高质量的九年级调查数据,运用改进的k-means聚类算法,探索家庭综合环境与认知能力之间的关系。2 数据收集及研究因素本文的样本数据来源于中国教育追踪调查(CEPS)的调查数据2,该调查根据2010年全国第六次人口普查数据,将全国(31个省、自治区、直辖市,不含港澳台)共2870个有常住人口的县(区)级行政单位中,共抽取28个县(区),其中包括上海3个县和拥有大量流动人口的10个县,其余15个县在全国各县中随机抽取。在每个选中的县(区)中
4、抽取4所学校,在每所被选中的学校中分别取4个班级,包括2个七年级班和2个九年级班。本文的样本数据采用中国教育追踪调查(CEPS)的七年级数据,剔除七年级无效调查问卷后(部分题目未作答),共有6124份有效调查数据。中国教育追踪调查(CEPS)同时采用3个维度、11个构念,衡量学生的综合认知能力。第1个维度为语言题题,包含词组类比和语言文字推理,第2个维度为图形题,包括图形规律分析、折纸类题目和集合图形应用,第3个维度为计算与逻辑题,包含数学应用、自定义运算规则、数列应用、抽象规律分析、概率和数值大小逆向思维。其中,测试内容不涉及学校课程所教授的具体识记性知识,而是测量学生的逻辑思维与问题解决能
5、力,并且具有国际可比性、全国标准化的特点。另外,采用三参数的IRT模型(用来分析调查问卷的数学模型)估计出学生认知能力测试标准化总分。我国学者综合中国实际情况将Moss等人于1981年研制的家庭环境量表进行了三次修订3,得出了符合中国文化的家庭环境因素,具有较好的信度和效度。本文的研究参考修订版的家庭环境量表,将亲密度、情感表达、矛盾性、期望性、知识性、娱乐性、控制性和家庭经济状况作为衡量家庭综合环境的因素。另外,中国教育追踪调查(CEPS)以问卷调查为主要手段,对全体被调查学生及其家长或监护人、班主任老师、主课任课老师以及学校负责人进行问卷调查。问卷的内容包括:学生的基本信息、户籍与流动、成
6、长经历、身心健康、亲子互动、家庭教育环境、家庭教育投入、对孩子的教育期望等。本文从中国教育追踪调查的家长问卷和学生问卷中,选用符合八个家庭环境因素的问题进行分析研究。3 K-means聚类算法K-means聚类算法的基本思想是依据实际情况选取适当的聚类个数K和随机初始聚类簇的中心。按照最邻近簇心原则把原始样本点赋给各个簇,同时求出每类中所有样本点与所在类质心的距离均值,并将求出的均值作为该类的新质心。然后按平均法重新计算各个簇的质心并一直迭代,直到各个簇的质心的移动距离收敛,最终确定各个簇的质心。K-means聚类算法操作步骤简单,易于操作,但存在以下缺陷:1) K-means的K值是个不确定
7、因素,需要凭借先验规律或根据实际情况选取。2) 初始的K个聚类簇的质心点是随机选取的,给定不同的初始质心点,就有不同的聚类结果。初始质心是随机选取的,所以会导致局部最优的情况,传统的K-means算法无法判断聚类结果是否达到整体最优的聚类效果。4 改进的K-means聚类算法本文基于k-means聚类算法对6124份有效原始数据进行分析,将家庭环境相似性大的聚为一类。当数据聚类后再研究不同聚类下中学生认知能力与家庭环境因素间的关系。针对K-means聚类算法K值不容易选取和随机初始质心点会造成局部最优的缺陷,本文采用轮廓系数和组内平方误差和(SSE)的方法对传统的K-means算法进行改进,解
8、决K值的选取和聚类效果局部最优的问题。4.1 整体轮廓系数算法轮廓系数结合了聚类的凝聚度和分离度,用于评估聚类的效果。轮廓系数取值范围为-1,1,通过整体轮廓系数可判断聚类效果,具体方法如下:1) 聚类凝聚度a(i):每个样本点i与其同一簇内所有其他样本点欧式距离的均值;2) 聚类分离度b(i):选取样本点i外的一个簇b,计算i与b内所有样本点间的两两距离的平均值,遍历其他簇,K个平均值中的最小值即为聚类分离度;3) 样本点轮廓系数s(i):s(i)=b(i)-a(i)maxa(i),b(i); 4) 整体轮廓系数s:i=1ns(i)ns=i=1ns(i)n。整体轮廓系数量化数据聚类的紧密程度
9、,从上式可知,s(i)越小,说明i与所在簇的样本点的平均距离远于最近的其他簇,即聚类效果較差。相反,如果s(i)越大,说明聚类效果比较好。因此,整体轮廓系数最大的K值为最优的聚类个数。4.2 组内误差平方和方法组内误差平方和(SSE)4是度量聚类结果的另一指标。随着K值的增大,每类内的数据也会变少,距离也会变小,所以SSE严格下降。但是,组内平方误差和减少缓慢时,表明增加聚类数的聚类效果也不会增强,我们可选择此时的“肘点”对应的K值为最佳聚类数。因此,通过画出SSE的折线图找出其“肘点”为最优K值。5 基于改进的K-means聚类分析5.1 数据预处理由于本文是以调查问卷的形式展开研究,题目是
10、文字描述的选择题,但是K-means聚类算法是处理数值型的数据,因此对调查问卷的结果进行数值转换处理。调查问卷中包含两类题目,分别为有两个选项的单项选择题和有多个选项的单项选择题。针对有两个选项的单选题,将其转换成0-1型问题,即其中一个选项取值为0,另一选项取值为1。对于有多个选项的单项选择题,参考Liker五点式计分法,根据题目的选项个数,从0到1区间等间距取值,并将取值赋给选项。为了更好地进行聚类分析,对转换后的数据进行标准化,标准化过程遵循的原则是:将各个家庭环境因素对应题目取值的总和除以该类因素题目的总数,最终标准化值的范围是0,1,标准化后的数值如表1所示。亲密度、情感表达、控制性
11、、娱乐性、期望性、知识性和经济状况的标准值越高,表示该因素的程度越高。例如,亲密度的标准值越高,表明父母与孩子的关系越亲密。矛盾性标准值的具体分析如下:0.00,0.15: 父母与子女矛盾低,但出现分歧时,父母都顺着孩子。0.15,0.25:父母与子女比较理性相处,出现分歧时,用理论事。0.25,0.50:父母与子女非理性相处,出现分歧时,父母说服或强迫孩子接受自己的观念0.50,0.65:父母经常吵架,与子女关系较缓和,出现分歧时,大多都顺着孩子。0.65,0.75:父母经常吵架,与子女理性相处,与子女的意见出现分歧时,用理论事。0.75,1.00: 父母经常吵架,与子女关系紧张,与子女的意
12、见出现分歧时,说服或强迫孩子接受自己的观念。5.2 聚类K值的选取本文采用整体轮廓系数法和组内平方误差和选取最优聚类个数K值,选用K值的准则:综合考虑整体轮廓系数和组内平方误差和,最优K值对应的整体轮廓系数尽可能大,且在组内平方误差和拐点图的“肘点”附近。本文采用枚举法,计算整体轮廓系数S和组内平方误差和SSE,遍历2至10的K值,为了避免局部最优的状况,每个K运行50次,选取50次中最大的整体轮廓系数(S)和对应的组内平方误差和(SSE),计算结果和折线图如下所示:从整体轮廓系数图可知,在K=2处,轮廓系数取得最大值,在K=4处,取得第二个峰值。由组内平方误差和折线图可知,从K=2到K=5下
13、降得很快,K=5以后下降相对较慢,K=5处为组内平方误差和折线图的“肘点”。根据本文选取K值的准则,最优聚类个数K取值为4。结合整体轮廓系数和组内平方误差和的方法解决了传统k-means方法无法客观确定K值和聚类结果局部最优的缺陷。5.3 聚类结果及分析由聚类结果可知,本次调查对象的家庭综合环境可以分为以下四类:第1类:子女与父母关系亲密,情感方面的交流频繁,父母关系融洽,家庭环境氛围属于民主型。在孩子教育方面,理性教育孩子,遇到意见分歧时用理论事,对子女要求严格,对孩子的期望高,但组织亲子活动较多,属于劳逸结合的教育方式。父母的平均文化程度较高,经济状况属于中上。第2类:子女与父母关系不亲密
14、,缺乏情感方面的沟通,父母经常吵架,家庭环境氛围属于冲突型。在孩子教育方面,与子女出现分歧时,说服孩子或强迫孩子接受自己的观念,对子女管教一般,亲子活动较少,对孩子的教育期望在本科水平左右,属于专制型的教育方式。父母文化水平偏低,经济状况中等。第3类:父母与子女关系不亲密,基本没有情感交流,父母关系较好,家庭环境氛围属于放任型。在孩子教育方面,出现分歧时,用理论事,亲子活动很少,对子女管教一般,对孩子的教育期望在高中和本科之间,属于放养型的教育方式。父母文化水平较低,家庭的经济状况中下。第4类:父母与子女亲密关系一般,缺乏情感交流,对子女管教严格,父母关系融洽,家庭环境氛围属于正统型。在孩子的
15、教育方面,遇到分歧时就事论事,对孩子的期望高,参与亲子活动的频率正常,期待教育水平为本科以上,属于理性的教育方式。父母文化程度较高,经济状况属于中上。由上表数据对比可知,在四类家庭综合环境中,认知能力测试分数低于0的人数,第3类占的比例最高,第2类次之;认知能力测试分数大于1的人数,第1类占的比例最高,第4类次之,而且与第一类的比例相近。因此,在这四类家庭综合环境中,第1类的中学生认知能力最好,第4类的中学生认知能力次之,第2类的中学生认知能力较差,第3类的中学生认知能力最差。相比第2类和第3类,第1类和第4类认知能力测试分数大于0.7的中学生人数比例大幅度增加,分数低于0的中学生人数比例下降
16、明显,因此,民主型家庭氛围配合劳逸结合的教育方式和正统性家庭氛围结合理性的教育方式,这两种家庭综合环境与中学生的认知能力呈正相关关系。相反,第2类和第4类认知能力册数分数大于0.7的中学生人数比例大幅度下降,分数低于0的中学生人数比例急剧上升,所以冲突型家庭环境搭配专制型教育方式和放任型家庭氛围结合放养型教育方式,这两类家庭综合环境与中学生的认知能力呈负相关关系。6 结论本文基于改进的k-means聚类算法,采用中国教育追踪调查的九年级学生数据和家长数据,经研究表明,民主型家庭氛围配合劳逸结合的教育方式和正统型家庭氛围搭配理性的教育方式,这两种家庭综合环境更有利于中学生的认知能力的培养。相反,
17、冲突型家庭环境搭配专制型教育方式和放任型家庭氛围结合放养型教育方式,这两类家庭综合环境不利于培养中学生的认知能力。因此,在实际生活中,家长应该注重家庭综合环境,忽略或偏重家庭综合环境中的某个因素,会导致不一样的家庭综合环境,从而影响孩子的认知能力的发展。例如,如今大多数家长都送孩子到教育机构学习,培养孩子的多才多艺,但是忽略与孩子的情感交流,缺乏沟通,会导致第2类或第3类的家庭环境的形成,潜移默化地影响孩子的认知能力的发展。因此,家长应综合建设家庭综合环境,营造一个有利于孩子认知能力发展的氛围。参考文献:1 王仁曾,刘畅. 先天与后天:如何影响中国人的认知能力表现J. 兰州大学学报:社会科学版,2016(2):89-102.2 中国人民大学中国调查与数据中心中国教育追踪调查(CEPS)项目组.中国教育追踪调查(CEPS)基线数据Z.2015.3 费立鹏.家庭环境量表中文版(FES-CV)EB/OL. http:/4 成卫青,卢艳红. 一种基于最大最小距离和 SSE 的自适应聚类算法J. 南京邮电大学学报:自然科学版,2015,35(2):102-107. -全文完-