基于结构匹配性视角的数据质量评估方法.pdf

资源描述

1、理论探讨统计与决策2023年第21期总第633期0引言数据作为国家各级部门制定相关政策的重要依据，开展数据质量评估方法研究有利于提高数据质量评估的精度，从中把握事物的内在规律，进而提高决策效率。近些年，如何利用科学方法来诊断数据的质量，也成为理论界重点关注和探讨的课题。关于数据质量评估的研究，从数据质量评估方法来看，主要集中在三个方面：一是利用Benford法则来检测统计数据质量，并构建面板模型进行实证分析1；二是基于异常值角度，运用数理统计方法检验数据中的异常值，对离群数据进行显著性检验来评估数据质量2；三是在多维统计数据的质量评估中引入Bootstrap统计分布检验法3。然而，鲜有学

2、者综合运用三种方法评估数据的质量。从数据质量评估对象来看，现有研究主要关注GDP、GNI4,5等指标，但鲜有学者将贫困县调研数据作为研究对象。从数据质量评估视角来看，既有研究要么从数据质量内涵着手，如从精度、准确性、关联性、及时性、一致性等多个维度评估数据质量；要么从误差分析入手，以准确性为着力点，研究数据生产过程中的异常值情况，从而判断数据质量6。然而，鲜有学者从结构匹配性视角出发研究数据质量。综上，既有文献虽为数据质量评估奠定了重要的理论和方法基础710，但在研究方法、对象和视角上仍存在可拓展的空间。同时，贫困县调研数据刻画了我国贫困地区农户的基本生活现状，对我国全面推进乡村振兴具有重要的

3、理论和现实意义。鉴于此，本文根据贫困县调研数据中家庭成员年龄结构和劳动能力结构与收入之间的匹配性关系，提出基于结构匹配性视角，由Benford法则、异常值检验、模型一致性和统计分布一致性四个维度共同组成的数据质量综合评估方法，以2020年S省Z贫困县的实地调研数据为样本，验证该方法的有效性，以期为高质量综合评估数据质量提供方法参考。1基于结构匹配性视角的数据质量评估方法1.1一般性数据质量评估方法1.1.1Benford法则数据质量评估方法Benford法则最早于1881年由美国天文学家和数学家Simon Neweomb发现。经过不断发展和完善，Benford法则在检验数据等方面的应用越来越广

4、泛。基于Benford法则检验数据质量的基本思想是：计算数据集中各位数字的理论频率与实际频率及其差异，构造卡方统计量与临界值比较，验证各位数字是否服从Benford法则。首位数字（非零非负）按Benford定律出现的频率为：p(d1)=lg(1+1d1)d1=1239（1）第二位数字出现的频率为：p(d2)=lg(1+1d1d2)d2=01239（2）其中，d1和d2分别表示首位和第二位数字的取值，p(di)表示第i位出现数字di的频率。由上式计算的首位和第二位数字按Benford法则分布基于结构匹配性视角的数据质量评估方法陶春海a,b，钟桂珍a（江西财经大学a.统计学院；b.财经数据科学重点

5、实验室，南昌 330000）摘要：数据是国家各级部门制定相关政策的重要依据，开展数据质量评估方法研究有利于提高数据质量评估的精度，从中把握事物的内在规律，进而提高决策效率。鉴于此，文章根据贫困县调研数据中家庭成员年龄结构和劳动能力结构与收入之间的匹配性关系，提出基于结构匹配性视角的数据质量评估方法，以2020年S省Z贫困县的实地调研数据为样本，验证该方法的有效性。研究结果表明：提出的结构匹配性视角下的数据质量评估方法确实有效，能够从不同方面、角度对数据质量进行评估，评估结果显示，样本数据异常值少，模型的经济学意义、统计学意义一致，抽样分布与原始数据分布一致，贫困县调研数据质量较高。该方法对于建

6、立健全数据质量评估体系、拓展结构匹配性视角数据质量评估方法的应用范围、加强对数据质量评估方法的研究具有重要的理论和实践意义。关键词：Benford法则；异常值检测；模型一致性；Bootstrap抽样中图分类号：F224文献标识码：A文章编号：1002-6487（2023）21-0017-06基金项目：国家社会科学基金资助项目（21&ZD150；20ATJ003）；江西省研究生创新专项资金项目（YC2022-B148）作者简介：陶春海（1972），男，江西新建人，博士，教授，研究方向：经济统计。钟桂珍（1993），女，江西泰和人，博士研究生，研究方向：贫困测度、农业农村测度。DOI:10.135

7、46/ki.tjyjc.2023.21.00317理论探讨统计与决策2023年第21期总第633期的理论频率见表1。表1首位和第二位数字按Benford法则分布的理论频率数位首位第二位00.1210.300.1120.180.1130.120.1040.100.1050.080.1060.070.0970.060.0980.050.0990.040.09卡方检验原假设为理论频率与实际频率无差异，备择假设为理论频率与实际频率存在差异。构造卡方统计量，2统计量的计算公式为：2=N9i=0或1(ei-bi)2bi（3）其中，ei表示第i位数字出现的实际频率，bi表示第i位数字出现的理论频率，N

8、为样本总量。比较卡方统计量的计算值与临界值。若卡方统计量的计算值小于临界值，则没有理由拒绝原假设，说明理论频率与实际频率无差异，数据遵循Benford法则。若卡方统计量计算值大于临界值，则拒绝原假设，说明理论频率与实际频率存在差异，数据不符合该法则。1.1.2异常值数据质量评估方法异常值的多少是衡量数据质量的方法之一，同时异常值的存在可能会对分析结果产生较大的负面影响，需要深入研究。通过异常值检验数据质量的原理是：若数据质量好，则数据围绕拟合线分布会比较集中，不会存在大量分布在很远的异常值。1.1.3Bootstrap数据质量评估方法Bootstrap方法的基本思想是：若初始样本足够大，则根据

9、初始样本生成的一系列Bootstrap样本计算得到的统计量会无限接近总体的分布，比较原始分布与Bootstrap抽样的统计分布是否一致，从而判断数据质量。1.2基于结构匹配性视角的数据质量评估方法虽然三种方法各有优点和缺点，例如，数据不遵循Benford法则并不意味着一定存在数据质量问题，但他们的适用范围相对较广，且约束条件较少，故在数据质量评估应用中较为普遍。此外，单一的多元回归、逐步回归和分位数回归模型并不能直接评估数据质量，但考虑到三种回归方法都是统计学的基本方法，应用较广，约束较少，若三个模型的经济学意义和统计学意义一致，则也能够在一定程度上说明数据质量的好坏。基于此，本文根据一般性数

10、据质量评估方法和相关回归分析理论，提出结构匹配性视角数据质量评估方法：首先，根据Benford法则初步判断某一核心指标是否服从该法则；其次，异常值的多少不仅影响数据质量，而且可能对建模产生较大的负面影响，故通过异常值检验判断数据质量，并找到异常值的具体位置；然后剔除异常值，再根据数据特征和变量间的匹配性关系分别构建线性和非线性模型，以模型的经济学意义和统计学意义是否一致判断数据质量；最后，根据Bootstrap抽样方法自助抽样1000次，检验关键核心指标的均值统计量是否呈对数正态分布，即与原始数据的统计分布是否一致，进而判断数据质量。1.2.1基于Benford法则的数据质量检验基于Benfo

11、rd法则的数据质量检验的基本思路是：计算数据中某个或某些关键核心指标首位和第二位数字出现的实际频率，比较实际频率与理论频率的差异，并通过卡方检验得到的首位和第二位数字的卡方值是否小于临界值来判断首位和第二位数字是否符合该法则。1.2.2基于异常值的数据质量检验基于异常值的数据质量检验的基本思路是：首先，画出散点图矩阵，初步判断变量之间的关系；其次，通过Q-Q图了解数据分布特征，初步识别异常值的大致位置；最后，利用R软件中的outlier test函数，以数据残差值的显著性为依据进行检验，从而找出异常值函数的具体位置和数值。1.2.3基于模型一致性的数据质量检验基于模型一致性的数据质量检验的基本

12、思路是：若数据质量好，则无论线性还是非线性模型，模型的经济学意义和统计学意义都应该保持一致，即数据质量不受模型变化的影响。在剔除异常值的基础上，分别构建多元回归、逐步回归、分位数回归模型，根据各模型参数估计结果的符号（经济学意义）和显著性（统计学意义）是否一致来检验数据质量。（1）多元回归模型初步分析数据的分布特征和趋势，厘清解释变量的内在结构和被解释变量之间的匹配性关系。依据相关回归分析理论，构建理论模型如式（4）所示。Y=0+1+2X2+3X3+4X4+5X5+6X6+iXi+（4）式（4）中，Y为被解释变量，X1至Xi为解释变量，为随机误差项，0至i为回归参数。（2）逐步回归模型考虑到多

13、元线性回归模型易受多重共线性问题的影响，进而影响模型的准确性，故选用逐步回归模型筛选合适的变量，避免变量过多等因素导致的模型精度下降，最终形成“最优回归方程”。虽然逐步回归模型在一定程度上改进了传统的线性回归模型，但无法回避的是，逐步回归模型本质上仍然是线性模型，也存在序列相关、异方差等缺陷，需进行经济学和统计学意义检验13。（3）分位数回归模型仅依靠线性回归模型很难对数据进行全面的质量评估，故需进一步构建非线性回归模型，收入指标常用的非线性回归模型是分位数回归模型。计算公式为：Yi=(p)0+(p)1X1+(p)2X2+(p)3X3+(p)i（5）其中，0p1表示数值小于第p分位数的比例。在

14、分位数回归模型中，根据垂直距离的加权总和来测量数据点和回归线之间的距离，在拟合线之上数据点的权重为p，否则为1-p。故Y到特定q值的距离为：dq(Yq)=(1-p)|Y-q|Yq（6）在进行分位数回归估计时，(p)i表示在第p分位数回18理论探讨统计与决策2023年第21期总第633期归下Yi和最小化拟合值Yi的加权距离总和的数值。分位数回归模型以解释变量对被解释变量的解释程度为依据，分析其匹配性关系。若线性模型和非线性模型的参数估计符号一致，即经济学意义一致，统计学意义显著，则可认为解释变量结构和被解释变量具有匹配性关系，数据质量好。1.2.4基于Bootstrap自助抽样法的数据质量

15、检验本文借鉴白永昕等（2020）3的做法，对数据质量评估研究的基本思路是：首先判断原始数据是否符合对数正态分布的条件。其次，构建均值统计量，运用Bootstrap抽样方法从原始数据中抽取1000次，对均值统计量进行Lil-liefor检验和Anderson-Darling检验，验证均值统计量是否也遵循对数正态分布规律。若均值统计量通过对数正态分布的检验，则认为Bootstrap机制抽样数据与原数据抽样机制的数据统计分布一致，数据质量较好；反之，则说明数据存在较大误差，需查找误差原因并加以修正，再进行上述检验。最后，人为扩大 1 倍原始数据再进行 Ander-son-Darling检验和Lill

16、iefor检验，若不能通过检测，则说明污染的数据是不能通过检验的。1.2.5基于结构匹配性视角的数据质量评估具体方法的递进关系综上可知，本文提出的基于结构匹配性的数据质量评估方法是从定性和定量两个方面，综合Benford法则、异常值检验、模型一致性、Bootstrap检验四个维度，从不同方面、角度对数据质量进行评估。具体评估方法之间存在递进关系，因模型一致性需多个指标同时满足三个模型的经济学意义和统计学意义基本一致，所以评估方法的优先原则是模型一致性检验优于Bootstrap检验，Bootstrap检验优于异常值检验和Benford法则检验。2实证分析2.1贫困县调研数据质量评估的数据来源和基

17、本假设2.1.1数据来源2020年是我国脱贫攻坚的决胜之年，且新冠肺炎疫情暴发，考虑到深度贫困地区的贫困脆弱性，课题组选取脱贫攻坚主战场之一的S省Z贫困县开展实地调研，深入了解深度贫困地区农户的情况。调研内容涉及农户的家庭成员年龄结构、劳动能力结构、家庭纯收入等，整理获得1193份有效贫困县调研数据。2.1.2基本假设马斯洛需求理论认为，在满足吃、穿、住等最基本的生存需要后，其他需要才会成为新的激励因素，而这些均与收入息息相关。若贫困地区农户的收入高，则基本生存需要不存在问题；若低于某一标准，则基本生存需要存在问题。故贫困地区家庭纯收入的高低与家庭基本生活条件之间的关系是稳定的。基于此，本文提

18、出：假设1：家庭收入与家庭生活状况具有稳定性。虽然近些年农村空心化越来越严重，但外出务工人员中很多都是与农村家庭其他成员共享开支。除自然灾害、突发疾病、婚丧嫁娶等因素外，通常情况下家庭人员结构和劳动能力随时间推移遵循生老病死的自然规律，贫困地区家庭成员年龄结构和劳动能力结构具有相对稳定性。基于此，本文提出：假设2：一定时期内贫困地区家庭成员内部结构具有稳定性。凯恩斯货币需求理论认为，持有货币受三种动机影响，即交易动机、预防动机、投机动机。基于货币需求理论，贫困地区农户通过家庭成员提供劳动力等要素获得相应收入，来满足日常开支和应对不确定性等因素对家庭的影响。故贫困地区农户的要素贡献与家庭纯收入之

19、间具有结构稳定性。基于此，本文提出：假设3：要素贡献和家庭纯收入之间具有结构匹配性。2.2变量说明2.2.1变量定义被解释变量：家庭纯收入。虽然该指标仅能反映农户的经济状况9，但考虑到非收入指标缺乏相对统一的标准，且从1978年开始收入已作为测量我国贫困标准的重要指标，数据又相对容易获得和处理，因此借鉴汪三贵（2018）10的做法，选取家庭纯收入作为被解释变量。解释变量：考虑到家庭成员的年龄结构和劳动能力结构是影响家庭收入的重要因素，本文借鉴已有研究5,6的做法，选取家庭常住人口数、义务教育年龄段人数、1660周岁人数、60周岁及以上人数、患大病人数、残疾人数、患慢性病人数作为解释变量。家庭常

20、住人口数代表家庭人力资本情况，人力资本通过劳动创造家庭纯收入。义务教育年龄段人数能反映家庭潜在的劳动力情况。1660周岁人数反映家庭获得家庭纯收入的最大劳动力人数情况。60周岁及以上人数能反映家庭人员结构中需赡养的人员数。患大病人数反映家庭无劳动能力的人数情况。残疾人数和患慢性病人数反映弱劳动力或半劳动力的人数情况。2.2.2描述性统计贫困县调研数据的描述性统计分析结果见表2。表2变量说明及描述性统计变量符号YX1X2X3X4X5X6X7变量名称家庭纯收入家庭常住人口数义务教育年龄段人数1660周岁人数60周岁及以上人数患大病人数残疾人数患慢性病人数变量说明取值为0N，一年内家庭纯收入取值为1

21、N，共享经济开支或共同生活的家庭人口总数取值为1N，615周岁人数取值为1N取值为1N取值为1N取值为1N取值为1N样本量11931193119311931193119311931193均值55206.514.581.302.310.370.030.110.07标准差35237.392.131.391.460.650.180.330.31从表2可以看出，S省Z贫困县家庭纯收入的均值为19理论探讨统计与决策2023年第21期总第633期55206.51元，家庭常住人口数的均值约为5人，结合这两项数据计算可知家庭人均纯收入约为11000余元，高于国家贫困线标准，故贫困县调研数据与我国宣布的消

22、除绝对贫困的结论一致。贫困地区每个家庭义务教育年龄段人数的均值约为1人，贫困地区家庭1660周岁人数的均值约为2人，60周岁及以上人数、患大病人数、残疾人数和患慢性病人数的均值和方差均较小。2.3贫困县调研数据质量评估结果根据前文基于结构匹配性数据质量评估方法的分析，接下来以贫困县调研数据为例，对其进行Benford法则检验、异常值检验、模型一致性检验、Bootstrap检验，进而从不同方面、角度评估贫困县调研数据质量，并根据数据质量评估结果验证该方法的有效性。2.3.1基于Benford法则的数据质量评估结果计算家庭纯收入指标首位和第二位数字的实际频率，与根据Benford法则计算的理论频率

23、进行比较，比较结果见表3。表3家庭纯收入指标数据的实际频率、理论频率及差异范围家庭纯收入数位首位第二位频率观察频率Benford频率差异观察频率Benford频率差异00.150.120.0310.190.30-0.110.120.110.0120.110.18-0.070.090.11-0.0230.140.120.020.100.10040.150.100.050.090.10-0.0150.130.080.050.100.10060.100.070.030.080.09-0.0170.080.060.020.080.09-0.0180.060.050.010.090.09090.040.

24、0400.100.090.01由表3可知，除个别数值外，贫困县调研数据的家庭纯收入指标首位数字整体呈现递减趋势，第二位数字呈现波动趋势，但差异的绝对值较小。故需通过卡方拟合优度检验来判断数据是否符合Benford法则。经计算，首位数字的2统计量为174.18，高于临界值15.51，拒绝原假设，说明家庭纯收入首位数字的理论频率和实际频率存在差异。但这并不意味着数据质量存在问题，可能是该法则不适用于贫困县调研数据质量评估，故需进一步采用其他方法综合研判。第二位数字的2统计量为16.70，低于临界值16.91，没有足够的理由拒绝原假设，表明该指标的第二位数字符合该法则。这与吴继英和薛艳杰（2021）

25、1的研究结果一致。综上，虽然Benford法则应用范围广泛，但并不意味着该法则能适用于所有数据。故本文将从异常值检验、模型一致性和统计分布一致性三个维度出发综合考量贫困县调研数据家庭成员年龄结构和劳动能力结构与收入之间的匹配性关系，从而验证该方法的有效性。2.3.2基于异常值的数据质量评估结果根据散点图矩阵归纳特征点的分布模式，结果如图1所示。家庭纯收入指标大致呈正态分布，家庭纯收入指标数据随家庭常住人口数、义务教育年龄段人数和1660周岁人数的增加而增加，家庭纯收入随60周岁及以上人数、患大病人数和残疾人数的增加而下降。为进一步分析数据中是否存在异常值，本文构建相应模型进行检验。由图2可知，

26、1193个样本点中仅有3个离群点，分布在样本中的第848、500和797位，故从Q-Q图来看，贫困县调研数据样本点中离群点较少，贫困县调研数据质量较高。100000-100000200004000060000 80000100000120000140000200004000060000 80000100000120000140000Fitted valuesFitted valuesStandardized residualsResidualsStandardized residualsStandardized residualsScale-LocationResiduals vs Fitte

27、d62-262-2Theoretical QuantilesNormal Q-QResiduals vs Leverage-3-2-1012300.050.100.150.200.250.30Leverage2.01.00图2家庭纯收入的Q-Q图运用R软件进行outlier test函数检测发现，在1193个样本点中检测出10个离群点，分布在样本的第848、500、797、1028、115、503、501、1031、46 和 1020 位，占比不到1%，说明贫困县调研数据质量较高。经分析发现，outliertest函数检测的前3位离群点与Q-Q图中的离群点位置一致，说明这3个必然是离群点。ou

28、tlier test函数检测出其他7个离群点的P值均小于0.00，残差值显著，因此建模时也需要删除。综合两种方法的检测结果来看，离群点均较少，检测结果具有一致性，说明贫困县调研数据质量较高。2.3.3基于模型一致性的数据质量评估结果根据模型设计，剔除outlier test函数检测出的10个异常值，运用R软件进行模型参数估计，具体结果见表4。表4模型一致性参数估计结果变量常数项X1X2X3X4X5X6X7多元回归5216.50*7065.20*-495.807622.60*5546.50*-8042*-6981.10*-6986.90*逐步回归5346.80*6756.40*7858.30*5

29、810.30*-8105.10*-7029.50*-6993.80*0.25分位数-135.80*5955.32*-352.084359.60*2679.08*-1841.84-2046.60-4491.16*0.50分位数845.046555*-6597698.98*4999.96*-6629.31-3723.62-5679.50*0.75分位数5675.657918.22*-263.149970.65*5955.13*-13233.56*-7268.94*-4396.12注：*、*、*分别表示10%、5%、1%的显著性水平。以多元回归模型为例，分析家庭成员年龄结构、劳动能力结构与家庭纯收入

30、指标之间的关系。被解释变量为家庭纯收入，X1为家庭常住人口数，斜率为正，且在1%的水平上显著。当其他变量保持不变时，家庭人数越多，潜在的具备劳动能力的人数也越多，提高家庭纯收入的可能性越大。X2为义务教育年龄段人数，斜率为负，但不显著。在其他变量保持不变的情况下，义务教育年龄段的人数与家庭纯收入之间关系不显著。X3为1660周岁人数，斜率为正，且在1%的水平上显著。当其他变量保持不变时，贫困地区农户家庭1660周岁人数越多，农户家庭纯收入越高。X4为60周岁及以上人数，斜率为正，且在62840202500000630630201.502 4 6 8 100 2 4 6 801230 10000

31、0 2500000 1 2 3 4 5 60123scatter plot matrix0 0.5 1.0 1.5 2.0图1贫困县调研数据变量的散点图矩阵20理论探讨统计与决策2023年第21期总第633期1%的水平上显著。当其他变量保持不变时，60周岁及以上人数越多，家庭纯收入越高，这与人口老龄化会加重家庭负担是不一致的。究其原因，一是贫困地区多是自给自足，家庭养老负担较城市更轻；二是受经济发展水平提升、医疗水平提高等因素影响，劳动力减弱需要一个过程，农村地区60周岁及以上的人仍参加社会生产活动的现象较为普遍，这会增加家庭收入。X5为患大病人数，斜率为负，且在5%的水平上显著。当其他

32、变量保持不变时，家中患大病人数越多，家庭纯收入越少。患大病的劳动力不仅无法获取收入，还需支付大额的看病开销。照顾患大病的人也很难获得收入，家庭整体劳动能力减弱，获取收入的能力下降。X6为残疾人数，斜率为负，且在1%的水平上显著。当其他变量保持不变时，家庭残疾人数越多，家庭纯收入越少。X7为患慢性病人数，斜率为负，且在1%的水平上显著。当其他变量保持不变时，患慢性病如高血压等的人数增加，会使得家庭成员劳动能力减弱，家庭纯收入减少，同时还需支付一定的医疗费用。从表4的参数估计结果可知，无论是非线性回归模型还是线性回归模型，X1、X3、X4的参数估计结果都显著且参数符号为正，表明家庭常住人口数、16

33、60周岁人数、60周岁及以上人数与家庭纯收入存在正向关系。X2、X5、X6、X7的参数估计结果符号为负，且X2不显著，表明义务教育年龄段人数与家庭纯收入的关系不显著，患大病人数、残疾人数和患慢性病人数与家庭纯收入存在负向关系。由此可知，线性和非线性回归模型的参数估计结果具有一致性，从匹配性角度来看，家庭成员年龄结构和劳动能力结构与家庭纯收入是相匹配的，说明贫困县调研数据质量较高。2.3.4基于Bootstrap抽样的数据质量评估结果Cheng等（2000）4已经证明，当统计量反映了总体规模生产、收入等对象时，统计量近似服从对数正态分布。贫困县调研数据中家庭纯收入反映了贫困地区农户的家庭总收入，

34、很容易验证统计量满足规模统计的三个条件，故贫困县调研数据中的家庭纯收入服从对数正态分布。采用Bootstrap方法对贫困县调研数据的家庭纯收入指标的数值进行有放回的重复抽样1000次，得到1000个Bootstrap样本，计算得到1000个样本均值。为了验证均值统计量是否服从对数正态分布，给出了统计量对数的直方图，如图3所示。Histogram of boot.mean150100500Frequency10.6210.6410.6610.6810.7010.7210.7410.76boot.mean图3Bootstrap抽样均值统计量分布直方图根据图3可知，统计量近似服从对数正态分布。此外，

35、Lilliefor检验和Anderson-Darling检验是统计中用来检验数据是否服从正态分布的检验方法，利用上述两种检验方法对统计量的对数进行检验。原假设：数据符合正态分布。备择假设：数据不符合正态分布。经计算，Lilliefortest 检验的 D 值为 0.02，接近于 0，P 值为 0.76，明显大于0.05，没有足够的理由拒绝原假设，因此样本数据近似服从对数正态分布。Anderson-Darling检验结果显示：A值为0.31，P值为0.55，没有足够的理由拒绝原假设，故Boot-strap抽样数据的样本均值服从对数正态分布。将原始数据扩大1倍，即人为增补1193个数据，再进行Li

36、lliefor检验和Anderson-Darling检验，两个检验的P值分别为2.2e-16和2.2e-6，远小于0.05，说明检验对于伪数据很敏感，即使对原始数据作很小的变动，检验结果也不能通过。综上，本文提出的结构匹配性视角下的数据质量评估方法确实有效。3结论与启示3.1结论本文运用系统性思维，从解释变量的结构与被解释变量的匹配性视角出发，提出由Benford法则、异常值检验、模型一致性和统计分布一致性四个维度共同组成的数据质量综合评估方法。以2020年S省Z贫困县的实地调研数据为样本，从贫困县调研数据中劳动要素结构与收入的匹配性视角出发，应用结构匹配性数据质量评估方法检验贫困县调研数据的

37、质量，从而验证该方法的有效性。实证研究发现，调研数据中家庭纯收入指标的首位数字不符合Benford法则，第二位数字符合Benford法则，Q-Q图和outlier test函数检测结果显示，数据样本点中异常值较少，剔除异常值后，多元回归、逐步回归和分位数回归三个模型中的参数估计符号和显著性基本一致，说明劳动要素与收入之间的结构匹配性关系较强，对比Bootstrap机制的模拟抽样数据与真实贫困县调研数据的分布结构可以发现，两套机制收集的数据分布一致，综合来看，调研数据质量较高。综上，通过实证检验，贫困县调研数据验证了本文提出的结构匹配性视角下的数据质量评估方法确实有效，能从不同方面、角度对数据质

38、量进行评估。3.2启示第一，建立健全现有的数据质量评估体系。在研究对象上，数据质量评估既要关注GDP等宏观性指标，也要关注家庭收入等重要指标；在研究视角上，既要关注准确性、误差最小化等传统视角，也要将结构匹配性视角纳入现有数据质量评估体系中；在数据质量评估方法上，既要关注单一方法的数据质量检验思路，也要注意到联系是普遍的，运用系统性思维，综合运用多种方法检验数据质量的思路是可行的。第二，拓展结构匹配性视角数据质量评估方法的应用范围。结构匹配性数据质量评估方法不仅能应用于贫困县调研数据，也能应用于其他具有匹配性关系的数据。但是在拓展该方法的应用范围时，要注意各种方法的适用范21理论探讨统计

39、与决策2023年第21期总第633期围和约束条件，找到多种方法融合的可能性，不断优化和改进结构匹配性数据质量评估方法。第三，加强对匹配性数据质量评估方法的研究。除结构匹配性视角外，理论界还可以从其他维度考虑，以加强对匹配性数据质量评估方法的改进或创新研究。如从空间匹配性视角对基本条件相似的两个地域，就某个或某些指标展开数据质量评估；再如，随着大数据技术的广泛应用，学术界可以从不同数据源的匹配性视角出发，对数据质量展开评估。参考文献：1吴继英,薛艳杰.我国脱贫攻坚指标数据质量检验基于Benford法则和面板数据模型J.江苏大学学报(社会科学版),2021,23(4).2成邦文,石林芬,杨宏进.统

40、计数据质量检查与异常点识别的模型与方法J.系统工程,2001,(3).3白永昕,闫懋博,田茂再,等.基于Bootstrap方法的多维统计数据质量评估J.统计与决策,2020,(11).4Cheng B W,Dong L Y,Yang J.Checking Quality and Identifying Outliers of Multidimensional Statistics by Means of Logarithm NormalDistribution J.Statistical Research,2000,(1).5石安其琛,周新发.健康冲击、医疗保险与家庭消费J.统计与决策,202

41、1,(19).6黄薇,祝伟.精准帮扶政策的多维评估：基于G省B市扶贫实践的经验分析J.管理世界2021,37(10).7游士兵,严研.逐步回归分析法及其应用J.统计与决策,2017,(14).8李庭辉.基于匹配性的GDP数据质量评估研究D.长沙:湖南大学学位论文,2013.9李小云,于乐荣,唐丽霞.新中国成立后70年的反贫困历程及减贫机制J.中国农村经济,2019,(10).10汪三贵.中国40年大规模减贫:推动力量与制度基础J.中国人民大学学报,2018,32(6).（责任编辑/方思）Data Quality Assessment Method From the Perspective of

42、 Structure MatchingTao Chunhaia,b,Zhong Guizhena（a.School of Statistics,b.Key Laboratory of Financial Data Science,Jiangxi Universityof Finance and Economics,Nanchang 330000,China)Abstract:Data is an important basis for national departments at all levels to formulate relevant policies.Carrying out r

43、e-search on data quality assessment methods is conducive to improving the accuracy of data quality assessment,grasping the inher-ent laws of things,and improving decision-making efficiency.In view of this,this paper proposes a data quality assessment meth-od based on the perspective of structural ma

44、tching according to the matching relationship between the age of family members andthe structure of labor capacity and income in the survey data of poverty-stricken counties.Field survey data of Z poverty-strickencounty in S Province in 2020 are taken as samples to verify the effectiveness of the me

45、thod.The research results show that the dataquality assessment method from the perspective of structural matching proposed in the paper is indeed effective,and can evaluatethe data quality from different aspects and angles.The evaluation results are shown as below:The sample data has few outliers,an

46、d the model has economic and statistical significance,the sampling distribution is consistent with the original data distribution,and the quality of the survey data in poor counties is good.This method has important theoretical and practical significance for es-tablishing and improving the data quality assessment system,expanding the application scope of the data quality assessment meth-od from the perspective of structural matching,and strengthening the research on the data quality assessment method.Key words:Benford s law;outlier detection;model consistency;Bootstrap sampling22

展开阅读全文