收藏 分销(赏)

大数位数据化简的几种方法漫谈.pdf

上传人:自信****多点 文档编号:615877 上传时间:2024-01-16 格式:PDF 页数:2 大小:800.46KB
下载 相关 举报
大数位数据化简的几种方法漫谈.pdf_第1页
第1页 / 共2页
大数位数据化简的几种方法漫谈.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、在统计工作过程中,时常会碰到一些数位比较大的数据。这种数位冗长的“大”数据,不但会影响数据处理工作效率,增加统计工作难度,而且对于统计结果的展现与表达,统计结论的识记等,都会造成一定的障碍。因此,当统计数据较大时,就可能需要用到一些化简方法把“大”数据转化为“小”数据。以下是笔者归纳整理的几种大数位数据化简方法。一、“掐头”法如果把数据的高位数值作为头,低位数值作为尾,“掐头”法就是在处理一组统计数据时,把其中具有相同数位的高位数值去掉,只保留每一个数据中有差异的低位数值,以达到化简数据的目的。例如,在输入一组从 2000-2022 的顺序数据时,因为前两位数相同,可以只录入后两位数即 00-

2、22,再例如,当处理一组增长速度的数据时,因为每一个数的分母都是百分号,就可只截取分子进行处理,有时甚至可以只截取有差异的分子进行数据表达,如增长 1 个点、2 个点等。“掐头”化简法主要适用于那些体量较大,但变化较小的数据。在统计数据的可视化中,有一种能够保留数据原始信息的统计图叫茎叶图,茎叶图的绘制就是把高位数值提取出来作为“茎”,只保留低位数值作为“叶”绘制出来的图形,是数据“掐头”化简的典型。在统计实践中,常常有这样的一类数据,这类数据的某些数位在一定时间和空间内会发生变化,而另一些数位则不会发生变化,我们可以把前者称为“活数据”,后者称为“死数据”。一般来讲,“活数据”是低位数值,“

3、死数据”是高位数值。“掐头”化简的实质就是删除不变的“死数据”,仅保留有差异或有变化的“活数据”。“掐头”化简法不但可以减少“大”数据的位数,提高数据处理的效率,而且还可以保留数据的计量单位和计量精度等,是一种比较常见的数据化简方式。需要说明的是,“死数据”与“活数据”是相对的,随着统计条件的改变,“一些死数据”会转化为“活数据”。因此,使用“掐头”法对数据进行化简,要注意统计时间或空间节点的变化,合理删除数据的位数,以免产生类似计算机“千年虫”一样的统计“千年虫”问题,给统计工作造成困扰。二、“去尾”法与“掐头”化简法相反,有些统计大数位数据可以通过“去尾”法化简,即删除低位数值,只保留高位

4、数值的方法达到化简的目的。“去尾”在实际操作中主要通过两种方式实现。第一种方式的“去尾”就是我们都很熟悉的小数舍位法。当碰到小数位数较长的统计数据时,可以用四舍五入的方式或者直接把小数位删除来化简数据;第二种方式的“去尾”需要配合统计计量单位的变更来使用。当遇到计量单位较小的“大”数据时,可以先改变计量单位,然后再把低位数值舍弃以化简数据。例如,第七次全国人口普查公布我国人口总数为141178 万人,公布的人口数单位是“万”,而不是更为详细的“人”,已经是“去尾”简化的数字了。还可以把单位变为更大的“亿”,然后再用舍入法“去尾”,进一步化简为保留一位小数的 14.1 亿人或舍弃小数的14 亿人

5、。与“掐头”法不同的是,“掐头”化简删除的是“死数据“,数据化简后不会影响数据的精度;而“去尾”法删除的是“大”数据中低位数值的“活”数据,是通过舍弃低位数值达到数据简化的目的,是以损失数据信息为代价的。“去尾”法化简后的数据,因为低位数值的舍弃,计量精度会受到一定的影响,因此往往用于那些整体差异较大,但计量精度要求不是很高的“大”数据化简之中。三、指数化简法统计指数是两个数据对比形成的相对数,是考察社会经济现象差异与变化情况的统计指标。统计指数从其计算形式上看,是用报告期的数据除以基期的数据。如果报告期与基期的数据都是大数位的数据,则可以起到化简数据的作用。同类型的所有报告期数据,通过与特定

6、的基期数据相除,都会简化成以 1 或 100%为中心的相对数。对于社会经济发展中的一些统计结果,人们关注发展速度胜于关注发展水平,特别对于那些冗长的发展水平数据,统计受众往往是很难记住的,而通过转换变成统计指数后,更容易被记住和传OPINION 观点60播。比如更容易记住 GDP 增速、CPI 指数等,而对于GDP 总值、人口总数、粮食总产量等往往不易记住。通过指数法化简的数据,变成了没有单位的相对数,使得不同类型统计指标之间的比较成为了可能,可以更好地考察各种社会经济现象之间彼此的关系。例如,2010 年与 2020 年我国的人口总数分别为 133972 万人、141178 万人,同时期的粮

7、食产量分别为 55911.31万吨、66949.20 万吨,如果要考察十年间我国人口增长与粮食产量增长哪一个更快,因指标计量单位不同是无法直接比较的,但把 2020 年的报告期数据化简为累积增长率后,人口为 5.38%,粮食为 19.74%,很容易就看出,粮食产量增长更快,相当于人口增长的三倍多。所以,“大”数据通过指数化简后,对于提高统计指标的易读性和普及性可以起到重要的作用。指数法能否起到化简数据的目的,关键在于基期数据的选择,如果基期与报告期相差太大,则化简的效果就不明显。因此,在可能的情况下,使用指数法化简“大”数据时,应尽量选择与需要化简的报告期数据时间或距离上相近的数据作为基期为好

8、。四、中心化法这是在较为专业的统计分析所使用的一种数据化简方法。所谓数据的中心化,就是选择一组数据的中间值,这个中间值通常会选择平均数,然后用每一个数与这个中心值相减,得到一组化简后的差值。这些简化后的差值与原始数据之间是一种线性变换关系,大小关系不变,统计学中把这些差值称为离均差。为什么选择平均数作为化简的公因子而不选择其他数呢?那是因为统计原理中有一个重要的数学性质“离均差的平方和最小”,也就是说选择平均数作为化简公因子的化简效果最好。当数据较大时,化简效果就更加明显。通过计算离均差化简后所形成的是一组围绕均值分布的正负差值,大于均值的为正差值,小于均值的为负差值,非常直观且易于理解。数据

9、的中心化在一般普及性的统计文献中很少出现,鲜为普通受众所认识,但是,在很多专门的统计分析中,通过数据的中心化对数据进行简化,却是一个必须的过程。统计学中一些重要统计量的计算,都包含了数据中心化的应用。例如,统计特征指标中的平均差、方差与标准差、偏度系数与峰度系数、相关系数等的计算公式,都包含有数据中心化的过程。尽管数据的中心化法主要存在于较为专业的统计分析中,但随着统计教育的发展和统计知识普及程度的提高,这种数据化简方法将会被越来越多的人所认识。五、标准化法数据的标准化是与数据中心化密切联系的一种方法。其做法是把中心化的数据 再除以该组数据的标准差 s,用公式表达为 。当碰到比较复杂的“大”数

10、据时,也可以用标准化的方法对数据进行化简。数据的标准化从其计算过程来看,实际上是对数据进行了两次化简,首先经过中心化初步化简,然后再用中心化得到的离均差除以标准差进行二次化简。经过标准化后的数据,变成了一组以 0 为中心的正负数,如果数据为常态分布,则其最大值小于 3,最小值大于-3的概率达到了 99%,数据的化简效果是十分明显的。比如已知有一组符合常态分布的“大”数据,可以计算出这组数据的平均数与标准差,然后再把这一组数据采用标准化的方法进行化简,如果其中有一个数据的标准化值等于 0,另一个数据的标准化值等于 1.65,则可以根据相关原理判断,前者刚好等于平均数,后者位于平均数之上 1.65

11、 个标准差的位置,且大约有 95%的数据比它小。数据的标准化不仅化简了原始数据,而且任何一组标准化后的数据,平均数为 0,标准差为 1,因此在某种意义上也化简了平均数和标准差,这为许多统计分析方法的顺利进行提供了保障,是统计分析中回归分析和推断统计等的基础。数据标准化的意义还在于不仅实现了对数据的化简,还同时实现了数据量纲的统一,这就使得不同性质的数据在团体中地位的比较成为可能,特别是在教育领域能够解决不同学科分数的可加性问题,在教育统计与评价中有着重要的应用价值。与数据的中心化鲜为普通受众所认识不同,数据的标准化离我们并不遥远,我国一些省(市)的中、高考就曾经使用过标准化的方式进行计分,后因

12、一些技术性的问题而遭弃用,但当前的大学英语 CET 考试一直在使用标准化值进行转换记分。当然,使用标准化值对数据进行化简和转换,具有一定的使用条件和不同的操作方式,限于篇幅,不在此赘述。当前,人类正迈向数字文明时代。由于社会的高速发展,信息累积越来越多,数据呈几何级数的快速增长,使得统计数据变得越来越大。以计算机的信息容量 bt 为例,一般的个人计算机存储容量已经从最初的 K 级增大到 M 级、G 级,再到 T 级。如果以 M 为单位进行计量,个人计算机信息容量的数据位数已经从最初的四、五位数增加到了十几位数。尽管现代的信息处理技术和能力已经很高,对大数位数据进行统计分析可以说是轻而易举,但应该看到,有许多统计工作过程和环节,还是需要人工完成的,数据化简在“大”数据的处理中仍然具有较大的价值。更为重要的是,对“大”数据的化简,不仅可以化简统计分析过程,还可以简化我们的统计思维,提高统计结果的辩识度。因此,在我们所处的数字化时代,在面临统计数据不断膨胀的趋势下,无论是作为一个统计工作者还是普通人,掌握一些数据化简的方法和技术还是十分必要的。作者单位:黔南民族师范学院经济与管理学院(x-x)z=(x-x)/s

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服