第4章数据分布特征的度量.ppt

资源描述

,单击此处编辑母版标题样式,*,/,*,统计学教程,第,4,章数据分布特征的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.2.5,方差和标准差,4.1.1,众数,4.2.6,离散系数,4.1.2,中位数,4.2.7,标准化值,4.1.3,均值,4.1.4,调和平均数,4.1.5,几何平均数,4.3,偏态和峰度的度量,4.1.6,均值、调和平均数和几何平,4.3.1,偏态系数,均数的比较,4.3.2,峰度系数,4.1.7,均值、众数和中位数的比较,4.2,离散程度的度量,4.2.1,异众比率,4.2.3,取值范围,4.2.4,平均差,第,4,章数据分布特征的度量,4.1,集中趋势的度量,统计学教程,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,原始数据,经过分组整理所形成的频数分布,，直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述，缺乏对数据分布特征的综合度量，若需要深入地表述数据分布特征的具体特征和内在联系，还应对数据分布特征进行综合性的度量。,数据分布,特征的度量,包括三个方面的内容，一是数据分布的,集中趋势,，反映总体中各个单位的数值水平向其聚集，或者,集中的中心数值,；二是数据分布的,离散趋势,，反映总体中各个单位的,数值水平偏离中心数值,的综合程度；三是数据分布的,偏态和峰度,，反映各个总体单位的数值水平的分布形态是,对称或偏倚，平坦或尖耸的具体数值,。,集中趋势（,Central Tendency,）是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量，以一综合数值来表述数据所趋向的这一中心数值的一般水平。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.1,众数,众数（,Mode,）是一组数据中,频数最大,的变量值，直观地反映了数据的集中趋势。,众数是度量,定类数据,集中趋势的测度，一般用表示。,例,4.1,某品牌运动服装专卖店一批新品球衣销售情况如下,表,4.1,某专卖店新品球衣销售情况件,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.1,众数,众数（,Mode,）是一组数据中频数最大的变量值，直观地反映了数据的集中趋势。,众数是度量,定类数据,集中趋势的测度，一般用表示。,例,4.1,某品牌运动服装专卖店一批新品球衣销售情况如下,表,4.1,某专卖店新品球衣销售情况件,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.2,利用第三章中例,3.1,中某学期某班,35,名学生统计学考试成绩的原始数据。,要求,试计算计算该班,35,名学生统计学考试成绩的众数。,解,将该原始数据排序之后，得到有序数据如下,52,，,56,，,62,，,64,，,65,，,69,，,70,，,74,，,75,，,75,，,76,，,78,，,78,，,79,，,79,，,81,，,82,，,82,，,83,，,84,，,84,，,84,，,84,，,86,，,87,，,87,，,88,，,89,，,89,，,90,，,91,，,91,，,92,，,96,，,98,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.2,利用第三章中例,3.1,中某学期某班,35,名学生统计学考试成绩的原始数据。,要求,试计算计算该班,35,名学生统计学考试成绩的众数。,解,将该原始数据排序之后，得到有序数据如下,52,，,56,，,62,，,64,，,65,，,69,，,70,，,74,，,75,，,75,，,76,，,78,，,78,，,79,，,79,，,81,，,82,，,82,，,83,，,84,，,84,，,84,，,84,，,86,，,87,，,87,，,88,，,89,，,89,，,90,，,91,，,91,，,92,，,96,，,98,84,分在这,35,名学生的统计学考试成绩的原始数据中出现了,4,次，属于出现次数最多的变量值，根据众数定义，可以确定众数为,84,分，即,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,利用已经分组的数值型数据计算众数的场合，需要运用,插值公式来计算众数的近似数值,。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的下限出发，有,(4.1),上限公式则从众数所在组的上限出发，有,(4.2),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.3,表,4.2,为第三章中表,3.7,“,某学期某班,35,名学生的统计学考试成绩,”,中的部分数据。根据表,4.2,的已经分组的数值型数据，计算该班,35,名学生的统计学考试成绩众数的近似数值。,表,4.2,某学期某班,35,名学生的统计学考试成绩,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,通过上限公式或下限公式的计算众数所得到的计算结果是一致的,。,众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度，为一位置型的代表数值，所以,众数的取值不受极端数值的影响，也不受组距分组中开口组设置的影响。,当数值型数据中含有极小值和极大值时，使用众数来度量数据的集中趋势，可以作为其它集中趋势测度的补充。,众数是一个适用于最低层次的定类数据的测度,，因此可以用于各种量表数据的集中趋势分析，有效使用众数的前提是数据的频数分布存在明显的集中态势。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,通过上限公式或下限公式的计算众数所得到的计算结果是一致的。,众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度，为一位置型的代表数值，所以众数的取值不受极端数值的影响，也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时，使用众数来度量数据的集中趋势，可以作为其它集中趋势测度的补充。,众数是一个适用于最低层次的定类数据的测度，因此可以用于各种量表数据的集中趋势分析，有效使用众数的前提是数据的频数分布存在明显的集中态势。,讨论题：你认为那些现象不适宜采用众数来描述其集中趋势？,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.2,中位数,中位数（,Median,）是位于,有序数据正中间位置,上的变量值，中位数用其特殊的位置属性直接地体现了,集中趋势的中心数值特征,。,中位数是,度量,定序数据,集中趋势的测度,，一般用表示。,中位数也是一种位置型的代表数值，同时中位数还是一种顺序统计量，因此，计算中位数要求数值至少具备定序数据的性质。中位数一旦确定，就可以根据中位数的具体取值，将全部数据分成数量相等的两个部分，一半数据的数值小于或等于中位数；另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时，有,(4.3),当数据的个数为偶数时，有,(4.4),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.4,仍然采用第三章中例,3.1,某学期某班,35,名学生的统计学考试成绩的原始数据。,要求,试计算该班,35,名学生的统计学考试成绩的中位数。,解,将原始数据排序之后，得到以下有序数据,52,，,56,，,62,，,64,，,65,，,69,，,70,，,74,，,75,，,75,，,76,，,78,，,78,，,79,，,79,，,81,，,82,，,82,，,83,，,84,，,84,，,84,，,84,，,86,，,87,，,87,，,88,，,89,，,89,，,90,，,91,，,91,，,92,，,96,，,98,该组数据的个数为,35,，因此采用式,(4.3),计算，排列在该组有序数据第,18,位上的变量值为,82,分，该班,35,名学生的统计学考试成绩的中位数为,82,分。即,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,利用已经分组的数值型数据计算中位数时，需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发，为,(4.5),上限公式从中位数所在组的上限出发，为,(4.6),4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.5,表,4.3,为第三章,“,表,3.7,某学期某班,35,名学生的统计学考试成绩,”,中的部分资料，为已经分组的数值型数据。,要求,根据表,4.3,数据，计算该班,35,名学生的统计学考试成绩的中位数。,解,运用插值公式计算该班学生统计学考试成绩中位数的近似数值。,表,4.3,某学期某班,35,名学生的统计学考试成绩,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,显然，我们可以任选上限公式或下限公式来计算中位数，得到结果是相同的。,中位数是一个顺序统计量，其取值不受极端数值的影响，也不受组距分组中开口组设置的影响。,当数值型数据中含有极小值和极大值时，可以使用中位数来度量数据的,集中趋势,。,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,显然，我们可以任选上限公式或下限公式来计算中位数，得到结果是相同的。,中位数是一个顺序统计量，其取值不受极端数值的影响，也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时，可以使用中位数来度量数据的集中趋势。,讨论题：你认为中位数的主要局限是什么？,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.3,均值,均值（,Mean,）为一组数值型数据之和除以该组数据总数的商，即同一组数据的总值与其频数的商。,在大多数场合，,均值采用算术平均方法计算,，所以人们经常将均值称为算术平均数（,Arithmetical Average,）。,计算均值的数据需要,具备数值型数据的属性,，均值是一个数值型的集中趋势测度。通过计算均值的运算过程，首先将各个数据之间的数量差异抽象掉了，以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的总量规模抽象掉了，表现出来的只是一个一般性的代表水平，有利于不同规模的同类总体在不同空间和时间上的广泛比较。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,1,简单均值,简单均值（,Simple Mean,）是根据未分组的原始数据计算出来的均值。有,(4.7),例,4.6,仍采用第三章中例,3.1,某学期某班,35,名学生的统计学考试成绩的原始数据,要求,试计算该班,35,名学生的统计学考试成绩的均值。,解,采用式,(4.7),计算，有,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2,加权均值,加权均值（,Weighted Mean,）是运用,各组频数作为权数对各组数值水平进行加权计算出来的均值。,根据是单变量值分组还是组距分组，以及组距分组的各组数值水平代表数据是组均值还是组中值，加权均值的计算分为以下三种类型。,（,1,）单变量值分组加权均值,在单变量值分组场合，加权均值的计算公式为,(4.8),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.7,某机床总装车间,10,个装配小组日完成产品台数情况，计算单变量值分组加权均值。,表,4.4,某机床总装车间,10,个装配小组日完成产品台数情况,要求,试计算单变量值分组加权均值。,解,采用式,(4.8),计算，可得,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,（,2,）采用组均值计算加权均值,在组距分组中，采用组均值计算加权均值时，计算公式为,(4.9),式,(4.9),中表示第,j,组的组均值。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.8,采用第三章中例,3.1,的各组均值数据。,要求,试计算组距分组的该班,35,名学生的统计学考试成绩的加权均值。,解,依据各组中的数据数值和数据个数，按照式,(4.7),的均值计算公式，计算出各组的组均值，填入表,4.5,中。,表,4.5,某学期某班,35,名学生统计学考试成绩的组均值和频数,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,（,3,）采用组中值计算加权均值,在不占有原始数据和组均值数值，只拥有已分组的数据时，只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值近似值的公式为,(4.10),式,(4.10),中表示第,j,组的组中值。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.9,根据第三章中表,3.7,中,“,某学期某班,35,名学生的统计学考试成绩,”,的各组组中值和频数数据。,要求,试采用组中值计算该班,35,名学生的统计学考试成绩的加权均值。,解,采用式,(4.10),计算。,表,4.6,某学期某班,35,名学生统计学考试成绩的组中值和频数,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,3,权数与加权结构,对于加权均值而言，有两个因素决定着均值数值的大小，一个因素是各组的数值水平；另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作用，所以将加权均值的计算公式中频数称为,“,权数,”,。,在均值的计算中又将,频数分布称为,“,加权结构,”,，,“,加权结构,”,更加清晰地反映了,数据在各组中的分布与集中趋势之间的联系,，及其对均值数值水平形成的影响。,将式,(4.8),略加变形，有,(4.11),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,根据,第三章中表,3.7,中,“,某学期某班,35,名学生的统计学考试成绩,”,的各组组中值和频数数据，计算,“加权结构”和“组贡献值”,。,某班,35,名学生统计学考试平均成绩的,“加权结构”和“组贡献值”,考分,/,分,组均值,/,分,人数,/,人,比例,/%,组贡献值,/,分,60,以下,54,2,5.714,3.09,60,70,65,4,11.429,7.43,70,80,76,9,25.714,19.54,80,90,85,14,40.000,34.00,90,100,93,6,17.143,15.94,合计,35,100.000,80.00,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,均值的数学性质：,（,1,）各个变量值与其均值的离差和为零，即,（,2,）各个变量值与其均值的离差平方和为最小，即,当取均值作为集中趋势的测度时，各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度，进行误差分析和最小二乘估计等统计方法的基础。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,均值的数学性质：,（,1,）各个变量值与其均值的离差和为零，即,（,2,）各个变量值与其均值平均数的离差平方和为最小，即,当取均值作为集中趋势的测度时，各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度，进行误差分析和最小二乘估计等统计方法的基础。,讨论题：试比较均值、众数和中位数在数值型数据的集中趋势分析中的作用？,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.4,调和平均数,调和平均数,（,Harmonic Mean,）是各个变量数值倒数的算术平均数的倒数。因此,又称之为,“,倒数平均数,”,。,1.,简单调和平均数,设有个变量值为,则有简单调和平均数的计算公式为,(4.12),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.10,设有,12,批,A,产品当日在某海关进口时报关的单价分别为每件,25,，,24,，,25,，,27,，,26,，,25,，,24,，,28,，,26,，,25,，,26,，,28,美元。,要求,试用调和平均数方法计算其平均价格。,解,由式,(4.12),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,2,加权调和平均数,（,1,）单变量值分组的加权调和平均数,在单变量值分组场合，加权均值的计算公式为,(4.13),（,2,）组距分组的加权调和平均数,在组距分组场合，仍然根据是否拥有各组组均值数据，加权调和平均数的计算分为两种不同的方式。拥有各组组均值数据时，采用各组组均值计算加权调和平均数；不具有各组组均值数据时，则需要采用各组组中值来计算加权调和平均数的近似数值。,在现实生活中，实际使用到的仅是一种形式上类似调和平均数的,“,加权调和平均数,”,，它是均值的一种变形。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,3,均值的变形,在拥有各组总值数据和各组变量值水平，缺少各组频数数据时，往往采用形式上类似加权调和平均数的公式，来计算加权均值。用表示各组总值，用表示这一形式上类似加权调和平均数的集中趋势测度，有,(4.14),由式,(4.14),可知，这一所谓的形式上类似,加权调和平均数的集中趋势测度实际上就是均值，而不是调和平均数。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,例,4.12,已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。,要求,试求销售价格的均值。,解,由式,(4.16),表,4.8,某商店,W,商品销售情况,4.1,集中趋势的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.5,几何平均数,几何平均数（,Geometric Mean,）是指各项数据的,连乘积开其项数次方的算术根,，一般用,G,表示。,当,对象为某种连乘积的关系,，例如,总比率或总速度,时，则需要采用几何平均数方法,，计算其平均比率或平均速度。,几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式：,简单几何平均数。计算公式为：,(4.15),、加权几何平均数。加权几何平均数计算公式为：,(4.16),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.13,某厂有四个连续作业车间，其产品的合格率分别为,95%,、,96%,、,94%,和,90%,。,要求,试计算该产品的平均合格率。,解,显然，本题不能采用算术平均法或调和平均法，因为各车间的合格率之积全厂的总合格率，应采用几何平均法来计算其平均合格率。由式,(4.15),，有,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.14,设某项每年分红一次的投资项目，,10,年来各年的实际收益率分别为,10%,，,9%,，,8%,，,8%,，,9%,，,8%,，,9%,，,7%,，,11%,，,10%,。,要求,试求该项投资,10,年来的平均年收益率。,解,平均年收益率是一项平均增长速度，需要由平均发展速度间接计算。因此需要将例,4.14,中的各年收益率数据（年增长速度），换算成年本利和（年发展速度），利用式,(4.15),计算出该项投资,10,年来的平均年本利率，最后将平均年本利率扣除本金后，计算出平均年收益率。即,也可以根据式,(4.16),计算，有,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,3,对数均值,将几何平均数计算公式等号两端同时取对数，几何平均数计算公式表现出类似均值计算公式的形式。所以，几何平均数又被称为对数均值，或对数平均数。,由式,(4.15),等号两端同时取对数，可得对数形式的简单几何平均数计算公式。有,(4.17),由式,(4.16),等号两端同时取对数，可得对数形式的，具有类似加权均值计算公式形式的加权几何平均数计算公式。有,(4.18),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.6,均值、调和平均数和几何平均数的比较,对于同一组数据，仅从数值比较的角度，有,均值大于等于几何平均数，几何平均数大于等于调和平均数,，即。,例,4.16,有一组数据为,4,，,5,，,6,，,7,，,8,，,6,，,7,，,8,，,9,，,8,，请分别计算均值、调和平均数和几何平均数。,解,：,分别计算如下：,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,4.1.7,均值、众数和中位数的比较,在均值、众数和中位数这三个测度中，,均值是唯一的数值型测度,。均值一般采用,算术平均方法,计算的集中趋势测度，,对极端数值的反应比较敏感，在数据的分布出现偏倚时，均值受到的影响最大,。众数和中位数都是,位置型的集中趋势测度,，其,具体取值不受极端数值的影响,。其中众数是对应于最大频数的数值，中位数是居于有序数据中间位置上的数值。,因此，若数据的分布是对称的，有均值、众数和中位数三个集中趋势测度的取值相等。,当,数据分布呈左偏态时，一般有均值的取值最小，其次是中位数，众数的取值最大,。在频数分布图上，,众数始终对应于峰顶,，均值和中位数偏在峰顶的左边，均值又在中位数左边；,当数据分布呈右偏态时，一般有均值的取值最大，其次是中位数，众数的取值最小。在频数分布图上，众数还是处在对应于峰顶的位置，均值和中位数偏在峰顶的右边，并且均值偏在最右边。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,图,4.1,对称分布,图,4.2,左偏分布图,4.3,右偏分布,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.1,集中趋势的度量,例,4.17,根据第三章中例,3.1,某学期某班,35,名学生的统计学考试成绩的原始数据。,要求,计算该班,35,名学生的统计学考试成绩的均值、众数和中位数，简要分析数据的分布状况。,解,由该班,35,名学生的统计学考试成绩均值、众数和中位数的具体取值，可得出三者之间的数值比较关系，有,则认为该班,35,名学生的统计学考试成绩呈左偏态，偏倚的程度不是很大，从均值角度来说，该班高分（超过均值,80,分）的同学较多，超过了半数。因为按分数排序处在正中间位置上同学的分数为中位数,82,分，高于均值,80,分的水平。,第,4,章数据分布特征的度量,4.2,离散程度的度量,统计学教程,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.1,异众比率,异众比率,（,Variation Ratio,）是非众数所在组的频数之和占总频数的比率，,一般用表示。,(4.19),异众比率是用于,评价众数的代表性的测度,。异众比率取值在,1,到,0,之间，一般用百分数表示。,异众比率数值越大,，越趋近于,1,，说明众数所在组的频数占总频数的比率越低，,众数的代表性越弱,，反映数据的频数分布不存在显著集中的态势，无法借助众数来反映数据的集中趋势；异众比率数值越小，越趋近于,0,，说明众数所在组的频数占总频数的比率越高，众数作为集中趋势测度的代表性越强。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.18,根据,例,4.1,某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。,要求,试计算众数,“,SP09-05,”,球衣的异众比率。,解,由式,(4.19),，有该新品球衣的前日和当日销售情况众数的,“,SP09-05,”,球衣的异众比率分别为,前日销售情况的异众比率为,45%,，当日销售情况的异众比率为,48.33%,，说明这两天众数,“,SP09-05,”,球衣的销售量都超过,50%,，表明在此场合使用众数,“,SP09-05,”,球衣作为该批新款球衣集中趋势的测度是比较有效的。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.2,四分位差,四分位差（,Quartile Deviation,）为,上四分位数与下四分位数的绝对离差,，也称为四分间距（,Inter-Quartile Range,），用表示。计算公式为,(4.20),式,(4.20),中的和分别为上四分位数与下四分位数。将原始数据按照由小到大，由低到高排序后得到的有序数据中，上四分位数是处在后四分之一位置上数据的数值；下四分位数是处在前四分之一位置上数据的数值。,所以，也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上，将排序后的有序数据分为了大于和小于中位数的两个部分，然后再在这两个部分中分别计算出来的中位数。四分位差反映了,处在有序数据中间位置上的,50%,的数据的绝对离差,。因此，,四分位差是与中位数相联系的离散程度测度。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.19,仍采用例,4.4,中某学期某班,35,名学生考试成绩的原始数据。,要求,试计算该班,35,名学生的统计学考试成绩的四分位差。,解,有上四分位数与下四分位数的计算公式为,解得,52,，,56,，,62,，,64,，,65,，,69,，,70,，,74,，,75,，,75,，,76,，,78,，,78,，,79,，,79,，,81,，,82,，,82,，,83,，,84,，,84,，,84,，,84,，,86,，,87,，,87,，,88,，,89,，,89,，,90,，,91,，,91,，,92,，,96,，,98,即可计算出考试成绩的四分位差为,该班,35,名学生的统计学考试成绩的四分位差为,13,分，说明处在中间位置上的一半该班同学的分数最大差距为,13,分，这一差异数值较小，表明,82,分的中位数对于集中趋势的代表性较好。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.3,取值范围,取值范围（,Value Area,）为全体数据中最大数值与最小数值之差，反映了数值变量取值的变动幅度。取值范围也称为全距，一般用,R,表示，有,(4.20),当使用样本数据的最大数值与最小数值之差，来计算该组样本数值变量取值区间，以反映总体变量取值的变动幅度时，一般称之为极差（,Range,），用表示。即,(4.21),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.20,某企业一车间甲乙两个生产小组的个人日产量件数数据如下,甲组：,50,，,55,，,60,，,70,，,80,，,85,，,90,乙组：,67,，,68,，,69,，,70,，,71,，,72,，,73,要求,试计算该车间甲乙两个生产小组的个人日产量的取值范围。,解,甲乙两个生产小组的均值都为,70,件，采用式,(4.20),，有,甲组：,乙组：,甲组的取值范围为,40,件，乙组的取值范围为,6,件，表明,70,件的均值对于乙组个人日产量的集中趋势更具有代表性，或者说乙组个人日产量的离散程度小，集中趋势更为显著。,取值范围的计算只使用了数值变量中的最大与最小两个数值，具有计算简洁，意义明确，易于理解的特点，但是没有充分利用数据的全部信息，是一个粗略的，简单的，尤其是容易受到极端数值影响的测度。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.4,平均差,平均差（,Mean Deviation,）是指全部变量值与其均值的离差的绝对值的均值，也称为平均离差，用,A.D.,表示。,简单平均差计算公式为：,(4.22),加权平均差计算公式为：,(4.23),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.21,仍然采用例,4.20,中的数据。,要求,试计算该该车间甲乙两个生产小组的个人日产量的平均差。,解,已知均值为,70,件，由式,(4.22),表,4.10,甲乙小组的个人日产量的平均差计算表件,甲组：乙组：,平均差测度同样表明乙组个人日产量的离散程度小，,70,件的个人日产量均值对于乙组的集中趋势更具有代表性。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.5,方差和标准差,方差,(Variance),是指,全部变量值与其均值的离差的平方的均值,。,方差以数据的重心,均值,作为基准数值来度量数据分布的离散程度，同时用,平方的方式消除了变量值与均值离差数值正负相抵,的问题，便于数学上的处理，方差是正态分布等概率分布的重要参数，是度量数值变量离散程度的基本测度。方差一般用或表示。,根据所拥有的数值变量数据的形式不同，方差的计算可以分为以下几种方式。,1,简单方差计算公式,当拥有未分组的数据时，采用简单方差公式计算方差。,(4.24),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.23,再次仍然采用例,4.20,中某企业一车间甲乙两个生产小组的个人日产量件数数据，并已知均值为,70,件。,要求,试计算该甲乙两个生产小组个人日产量的方差。,解,由式,(4.24),有,表,4.12,甲乙小组的个人日产量的方差计算表件,甲组：,乙组：,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,2,加权方差计算公式,当只具备已分组数据时，需要采用加权方差公式计算方差。,（,1,）当拥有单变量值分组数据时，加权方差计算公式为：,(4.25),例,4.24,根据例,4.7,中某机床总装车间,10,个装配小组日完成产品台数数据，并已知均值为,6.8,台。,要求,计算该机床总装车间装配小组日完成产品台数的方差。,解,由式,(4.25),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,（,2,）当拥有的数据为具有组均值的组距分组时，加权方差计算公式为：,(4.26),式,(4.26),中是采用各组的组均值与总体均值的离差的加权均值来反映数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的实际取值之间的差异，只有在各个变量的实际取值等于各组的组均值时，式,(4.26),才等于式,(4.25),；当这两者的差距越大，式,(4.26),与式,(4.25),之间的差距也就越大，并且有式,(4.26),计算的数值小于式,(4.25),计算的数值。式,(4.25),是与方差的定义一致的测度，而式,(4.26),只是式,(4.25),近似计算。,4.2,离散程度的度量,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,（,3,）当拥有的数据为不具有组均值的组距分组时，需要采用组中值近似地替代组均值计算加权方差，这时计算公式为,(4.27),式,(4.27),不仅存在式,(4.26),以各组的组均值近似替代各组中各个变量的实际取值所产生的误差，而且还存在以各组的组中值近似替代各组的组均值所产生的误差。所以式,(4.27),也只能是对式,(4.25),近似计算。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,3,标准差,由于方差的,量纲,是变量原有量纲的平方，在实际使用时有所不便。因此，人们常常采用具有,与变量一致的量纲的测度,，方差的算术平方根,标准差。,标准差（,Standard Deviation,）为方差的算术平方根，即全部变量值与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和加权标准差计算公式。,(4.28),(4.29),2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.6,离散系数,离散系数（,Coefficient of Variation,）为,同一总体的标准差与均值的比值,。,通过采用标准差除以同一数据的均值，不仅将分子分母量纲相同相互约去，同时还,剔除了均值数值水平,，得到了一个没有量纲的相对数测度，这就是离散系数。计算离散系数的主要目的就是消除标准差的量纲和数值水平上的差异，使其成为一个抽象的，纯粹反映数据分布离散程度的测度，一个具有广泛的直接的可比性的离散程度测度。从形式上看，离散系数是一个相对的比值，一个相对数。,离散系数的计算公式为：,(4.30),离散系数一般用百分数表示。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.26,已知某公司,A,、,B,两种产品,2005,年的日产量及其标准差数据。,要求,试计算,A,、,B,两种产品,2005,年的日产量的离散系数，对该公司,A,、,B,两种产品生产过程的均衡性进行比较分析。,解,采用式,(4.30),，有,表,4.15 2005,年某公司产品的日产量的离散系数计算表,由此例可以看出，标准差的数值水平是由纯粹的数据分布离散程度（可用离散系数表示），和数据分布集中趋势的中心数值（一般用均值表示），这两者共同作用的结果。例如，,A,产品日产量的标准差,3,吨，等于离散系数,60%,，乘上均值,5,吨。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,4.2.7,标准化值,标准化值（,Standard Score,）是以变量值与其均值的差除以同一数据的标准差的比值，也称为标准分数，或,Z,分数。其计算公式为：,(4.31),标准化值的分子为第,i,个变量值与其均值的差，一般称为数据的中心化，表现为,变量值与其均值的绝对距离,。标准化值的分母为标准差，通过用标准差除以中心化后的数据，来消除标准化值的量纲和绝对水平，,剔除不同的数据分布离散程度在量纲和数值水平上的差异,，,使离散程度不同的数据之间具备了广泛的可比性,。使数据具有了普遍的可加性和直接的可比性。,2026年6月9日,/,*,统计学教程,第,4,章数据分布特征的度量,4.2,离散程度的度量,例,4.27,某中学有,A,、,B,两位

展开阅读全文

第4章 数据分布特征的度量.ppt

第4章数据分布特征的度量.ppt