户籍登记系统的净误差估计.pdf

资源描述

1、2023 年第 4 期(总第 259 期)人口与经济POPULATION&ECONOMICSNo.4,2023(Tot.No.259)人口统计学研究收稿日期:2022-10-17;修订日期:2023-02-16基金项目:国家社科基金后期资助暨优秀博士论文一般项目“人口普查登记误差估计”(21FTJB002)。作者简介:胡桂华,重庆工商大学数学与统计学院教授,博士生导师;吴笛(通信作者),重庆工商大学数学与统计学院硕士研究生;刘誉环,重庆工商大学数学与统计学院硕士研究生。户籍登记系统的净误差估计胡桂华,吴笛,刘誉环(重庆工商大学数学与统计学院,重庆 400067)摘要:户籍登记系

2、统存在登记误差,为发挥其作用,应估计其净误差。我国尚未估计户籍登记系统的净误差,这一状况应该改变。双系统估计量是目前估计净误差的重要方法。本研究的目的是,用组合式三系统估计量替代双系统估计量来估计我国户籍登记系统的净误差,即目标总体的未知实际人口数与已知的户籍登记系统人口数之差,为相关部门或有关人员科学使用户籍资料提供依据。采用抽样理论和数理模型方法构造组合式三系统估计量,利用样本普查小区的三份人口名单演示其计算过程。研究发现:虽然户籍登记系统是获得人口统计数据的重要来源,但由于它内含错误登记或漏登人口的登记误差,因此它所提供的人口数偏离实际人口数,需要采取恰当的方法估计这种偏离程度;抽样登记

3、的组合式三系统估计量适合于净误差估计;为使估计的户籍登记系统净误差符合统计口径的一致性要求,样本普查小区的普查人口名单、事后计数调查人口名单和户籍人口名单中的每一个人必须具有本地户籍,否则从名单中剔除;组合式三系统估计量须在同质人口层建立,否则内含异质性偏差,低估总体实际人口数;在分层二重抽样下,组合式三系统估计量各个元素的估计量采用双重扩张估计量构造,抽样方差采用分层刀切法近似计算;净误差估计既可以在普查年进行,也可以在非普查年进行。本研究的意义在于,组合式三系统估计量有望被国家统计局采纳,用于未来户籍登记系统的净误差率估计。此外,还可以用来估计人口普查、农业普查及经济普查的净误差率。关键词

4、:抽样调查;政府统计;人口行政记录;组合式三系统估计量;分层刀切法中图分类号:C921.2 文献标识码:A 文章编号:1000-4149(2023)04-0056-19DOI:10.3969/j.issn.1000-4149.2023.00.028 65胡桂华,等:户籍登记系统的净误差估计一、引言国民经济发展中迫切需要解决的一个关键问题是人口数目的准确性问题。对作为世界第一人口大国的中国尤其如此。人口统计调查和人口行政记录是我国国家统计局获得人口统计数据的两大来源。人口统计调查包括每隔 10 年进行一次的人口普查及非普查年进行的人口抽样调查。户籍登记系统、常住人口登记系统、出生人口登记系统、

5、死亡人口登记系统和人口迁移登记系统,是我国常见的人口行政记录。从对总体人口登记的范围和准确性等来看,户籍登记系统是最重要的。中国公安部每年向国家统计局提供户籍登记系统人口数。相关信息表明,我国的户籍登记系统人口数存在误差,因而有必要研究或估计它,其必要性具体体现在两个方面:一方面,作为我国人口行政记录中最重要的户籍登记系统,在登记目标总体人口的过程中,通常会发生两种误差,一种是应该登记却未登记而引起的漏登误差1,另外一种是无效登记引起的错误登记误差2-3,包括重复登记、目标总体外登记和地址错误登记。漏登误差使户籍登记系统不适当减少人口数,而错误登记误差导致户籍登记系统虚增人口数。漏登误差和错误

6、登记误差相抵后的结果,即为净误差。另一方面,为确定能否使用及在多大程度上使用户籍登记系统人口数提供依据,因为使用较大净误差的户籍登记系统人口数可能会影响决策的科学性。本文拟用组合式三系统估计量来估计中国户籍登记系统的净误差4,即目标总体未知的实际人口数与已知的户籍登记系统人口数之差。实际人口数可以采用双系统估计量、普通三系统估计量和组合式三系统估计量估计5-10。组合式三系统估计量相对较优,首先它比普通三系统估计量利用的信息更多,其次它不像双系统估计量那样要求系统之间独立。与已有相关论文和其他研究成果相比,本文具有一定的学术价值和应用价值。学术价值体现在四个方面。第一,提出抽样登记的组合式三系

7、统估计量,使其应用于户籍登记系统净误差估计成为可能。第二,利用不完整三维列联表单元数据构造的组合式三系统估计量的缺失单元估计量的分子和分母,分别是若干个普通三系统估计量的缺失单元估计量的分子和分母之和,其中每个子总体指标使用线性估计量构造。第三,研究不同抽样方法下的刀切抽样方差估计量及复制权数计算公式,为相关人员提供更多选择。第四,利用样本普查小区的三份人口名单和公式,计算户籍登记系统的净误差及抽样方差估计值,使相关人员可以正确使用组合式三系统估计量。应用价值体现在三个方面。第一,为政府统计部门制定户籍登记系统净误差估计方案提供参考,提高方案的科学性和可操作性,对户籍登记系统的质量作出客观科学

8、评价。第二,为相关工作者正确认识和使用户籍登记系统数据提供依据。第三,开发利用包括户籍登记系75 联合国发布的世界人口展望 2022 报告显示,中国 2022 年 7 月 1 日总人口数为 14.25887 亿人。净误差可定义为漏登误差与错误登记误差之差,或者定义为目标总体实际人口数与户籍登记系统人口数之差。各国政府统计部门在人口普查净误差中使用第二种定义。本文也采用第二种定义计算户籍登记系统的净误差。目标总体实际人口数为全国各个普查小区的应该有本地户口的无重复的人口数之和,其中包括应该且实际拥有本地户口的人口数和应该有但实际上没有本地户口的人口数。户籍登记系统人口数为全国所有公安部门派出所

9、户籍底册所显示的某一指定时点的人口数之和,或者是全国各个普查小区的拥有本地户口的人口数之和。双系统估计量依据普查人口名单和在它之后进行的事后计数调查人口名单建立,普通三系统估计量依据这两份调查人口名单和户籍人口名单构造,组合式三系统估计量的缺失单元估计量依据多个普通三系统估计量的缺失单元估计量建立。人口与经济 2023 年第 4 期统在内的行政记录资料,从而为实施以户籍登记系统为核心的行政记录式人口普查创造更好的条件。二、文献综述包括美国、北欧在内的许多西方发达国家,以及部分非洲国家已经建立起类似于中国、朝鲜和贝宁的户籍登记系统的民事登记系统和人口动态统计系统11。民事登记系统是确立一国个人权

10、利和特权的法律基础,是对活产、胎儿死亡、死亡、结婚、离婚、收养等重要民事事件进行强制性、连续性记录的系统。人口动态统计系统依据民事登记系统的人口动态记录,人口普查、抽样调查和行政记录的人口记录,样本登记区的人口动态记录和保健服务部门的记录建立。只要坚持详细登记,民事登记系统就可以成为人口动态统计系统的主要来源。户籍登记系统是登记自然人的姓名、出生日期、户主或与户主关系、住址、性别、籍贯、居民身份证号码、文化程度、婚姻状况、民族、死亡和收养等的系统。我国户口登记条例规定,出生者和死亡者应该携带有关证件在规定时间内到常住地办理入户、注销户口,每个人都有资格上户口,而且只能有一个户口。这三个系统

11、的共同点都是对总体人口的登记,存在登记误差和需要估计净误差。不同点是:建立户籍登记系统的目的是限制人口的无序流动,减少人口管理的社会成本,提供人口数不是其主要功能,而是其副产品;构建民事登记系统有双重目的,即行政和法律目的及统计、人口和流行病学目的;建立人口动态统计系统的主要目的是为政府统计部门和其他相关部门提供准确的人口数。由于这三个系统的登记人口数已知,所以净误差估计只与总体实际人口数的估计有关,与这三个系统的功能和登记对象无关,组合式三系统估计量适合于它们的净误差估计。相关文献资料显示,关于民事登记系统、人口动态统计系统和户籍登记系统的研究主要集中在系统的建立、资料来源及用于政策或计划的

12、制定方面12-15。有关估计这三个系统净误差的研究成果并不多见16。因此,本文研究中国户籍登记系统的净误差估计。为提高中国户籍登记系统净误差估计精度,了解其发生登记误差的三个原因是很有必要的。第一,虽然户籍管理条例明确规定为出生者或户口迁移者及时入户,为死亡者及时销户,但实际上从出生到入户,从迁出地到迁入地入户,从死亡到销户有一个时间差。如果这个时间差发生在估计户籍登记系统净误差时,就会发生漏登误差和错误登记误差。第二,我国曾经实施过严格的计划生育政策,禁止为超生婴儿入户,或只有缴纳足额罚款才让超生婴儿入户,导致较为严重的漏登误差。随着二孩或三孩政策的实施,虽然所有出生时的活产婴儿目前都有资格

13、入户,但仍然没有做到一旦出生便及时入户。第三,在实行农村养老保险政策之前,有些农村老年人一辈子都没有上户口,导致漏登误差。随着新型农村社会养老保险试点指导意见的实施(有户籍的年满 60 周岁的农村老人可以按月领取养老金),漏登户口的情况显著减少,尽管这样,及时入户并未做到。第六次人口普查前的户籍整顿结果显示,全国有85 1971 年到 2015 年,为控制人口增长,我国实行计划生育政策。在这一政策背景下,超生婴儿是无法入户的。如果不能入户,就失去读书和享受福利等权利。为鼓励生育,解决劳动力不足问题,我国于 2015 年起开始实施二孩或三孩政策,所有活产婴儿都有资格入户,户籍登记系统漏登人口的幅

14、度减少。胡桂华,等:户籍登记系统的净误差估计1300 万净无户籍人口,占总人口的 1%。净无户籍人口数就是净误差,为无户籍人口数与重复登记户籍人口数和死亡未注销户籍人口数之差。从以上三方面的原因分析可知,我国户籍登记系统确实存在登记误差,应该采取恰当方法估计其净误差。联合国经济及社会事务部和统计司在关于人口动态统计系统的原则和建议(修订版2)报告中,使用双系统估计量来估计民事登记系统或人口动态登记系统的净误差。该报告未提及户籍登记系统有两个原因,一是世界上只有三个国家实施户籍登记制度,二是这两个系统的净误差率估计方法同样适合于户籍登记系统。这里的双系统估计量中的两个系统包括民事登记系统和人口

15、统计调查系统。使用双系统估计量的前提条件是,民事登记系统对总体人口的覆盖率不得低于既定标准(如 80%)。美国全国卫生统计中心建立的民事登记系统的覆盖率在 1960 年以后接近 100%。美国人口普查局构造人口统计分析模型所需要的出生人口数和死亡人口数可以直接从该系统获得。美国对民事登记系统的净误差率每年或每隔 23 年估计一次。然而,一些非洲国家的民事登记系统的覆盖率往往达不到标准,不具备使用双系统估计量的条件。我国户籍登记系统的覆盖率超过标准,可以使用双系统估计量来估计其净误差率。使用双系统估计量还要满足另外一个条件,即两个系统必须独立,否则会低估或高估总体实际人口数17。相比依据人口普查

16、资料和人口抽样调查资料构造的双系统估计量,根据民事登记系统和人口统计调查资料建立的双系统估计量,能比较好地满足独立性条件。这是因为,人口普查资料和人口抽样调查资料均来源于政府统计部门,独立性自然难以保证,而民事登记系统数据和人口统计调查资料分别来源于行政管理部门和统计部门,独立性应该能够满足。也就是说,在民事登记系统净误差估计中,构造和使用依据民事登记系统和人口统计调查资料的双系统估计量是合适和可行的。尽管如此,我们还是认为用三系统估计量取代双系统估计量更为合适。一方面,双系统估计量只利用了两种资料,而三系统估计量利用了三种资料。抽样理论指出,在构造估计量的时候,利用的有效信息越多,估计量的精

17、度也会越高。另一方面,三系统估计量不要求三个系统相互独立,既可以在它们独立,也可以在它们非独立的情况下构造。按照缺失单元估计量构造方法的不同,三系统估计量包括普通和组合式两种。对我国来说,在人口普查年,三系统估计量的三个系统分别是人口普查、人口普查之后组织的事后计数调查和户籍登记系统;在非人口普查年,三个系统分别是人口抽样调查、人口抽样调查的事后计数调查和户籍登记系统。基于三系统估计量的户籍登记系统净误差估计工作,既可以在人口普查年进行,也可以在非人口普查年实施。我国国家统计局尚未开展户籍登记系统净误差估计工作,这一状况应该改变。使户籍登记系统在人口统计中发挥应有作用,应加强户籍登记系统净误差

18、估计基础理论研究,尤其是组合式三系统估计量的研究工作,逐步建立起符合我国国情的以组合式三系统估计量为核心的户籍登记系统净误差(率)估计体系。95 数据来源于国家统计局马建堂解读中国第六次全国人口普查, 2023 年第 4 期三、理论使用组合式三系统估计量估计人口普查年中国户籍登记系统的净误差,需要建立相应的理论,包括普通和组合式三系统估计量、户籍登记系统净误差及其抽样方差估计,以及对三份人口名单的必要说明。1.普通三系统估计量为了更好地理解和运用组合式三系统估计量,有必要对其进行简要介绍。这个估计量的理论基础是三次捕获模型。“出现在本次捕获结果之中”和“未出现在本次捕获结果之中”是每一次捕获

19、结果的两种取值。用来构造普通三系统估计量的普查人口名单、事后计数调查人口名单和户籍人口名单分别对应于三次捕获模型的第一次、第二次和第三次捕获。三次捕获模型要求总体中的个体同质,而人类总体中的人不具有同质性,这样在构造基于三次捕获模型的普通三系统估计量之前,需要对总体中的人进行同质性分层。我们将总体划分为 V 个同质人口层,并且将同质人口层 v(v=1,2,V)中的人在三份人口名单的登记结果指定到不完整三维列联表的相应单元,其中七个单元的人口数是已知的,其和用 xv表示,一个缺失单元的人口数未知,其估计量使用 m000,v表示。普通三系统估计量(General Triple System Est

20、imator,GTSE)由这两部分组成。七个单元中的每个单元的实际人口数使用xijk,v表示,右下标 i,j,k 分别为同质人口层 v 的人是否在普查人口名单、事后计数调查人口名单和户籍人口名单的登记结果的变量。i=1 表示该人登记在普查人口名单,i=0 表示该人未登记在普查人口名单;j=1 表示该人登记在事后计数调查人口名单,j=0 表示该人未登记在事后计数调查人口名单;k=1 表示该人登记在户籍人口名单,k=0 表示该人未登记在户籍人口名单。将这些符号及其人口数填写在表 1 中。注意,表 1 假设事后计数调查为全面调查。表 1 同质人口层 v 的不完整三维列联表三次登记结果在户籍人口名单未

21、在户籍人口名单在事后计数调查人口名单未在事后计数调查人口名单在事后计数调查人口名单未在事后计数调查人口名单在普查人口名单x111,vx101,vx110,vx100,v未在普查人口名单x011,vx001,vx010,vx000,v根据表 1,同质人口层 v 的普通三系统估计量为:GTSEv=xv+m000,v(1)其中,xv的计算公式为:xv=1i=01j=01k=0 xijk,v(2)其中,i,j,k 不同时为零。显然,构造同质人口层 v 的普通三系统估计量的关键是给出 m000,v的计算公式。该公式的形式依据普查人口名单、事后计数调查人口名单和户籍人口名单之间的统计关系确定。三份人口名

22、单之间有八种统计关系,相应地,m000,v有八种形式。本文不打算构造这八种形式的缺06胡桂华,等:户籍登记系统的净误差估计失单元估计量,对此有兴趣的读者,请见参考文献 18。2.组合式三系统估计量及方差估计首先构造同质人口层和总体的组合式三系统估计量19-20,然后构造其分层刀切抽样方差估计量。(1)同质人口层的组合式三系统估计量。为了估计中国户籍登记系统的净误差(率),需要提出一种全新的、充分有效利用信息的、在同质人口层(v)构造的组合式三系统估计量(Combined Triple System Estimator,CTSE):CTSEv=xv+CTSE000,v(3)其中,xv和 CTSE

23、000,v的计算公式分别为:xv=x111,v+x110,v+x101,v+x100,v+x011,v+x010,v+x001,v(4)CTSE000,v=x100,vx010,v+x100,vx001,v+x010,vx001,vx110,v+x101,v+x011,v(5)式(5)中,组合式缺失单元估计量依据三种普通缺失单元估计量的分子和分母分别相加得到的。这三种普通缺失单元估计量 m000,v分别为:(x100,vx010,v)/x110,v、(x100,vx001,v)/x101,v和(x010,vx001,v)/x011,v。不难看出,式(5)利用了不完整三维列联表 6 个已知单元的

24、人口数。从充分利用信息提高估计量精度的角度来看,式(5)是更优良的缺失单元估计量。这就是使用组合式三系统估计量的原因所在。式(3)到式(5)未考虑到事后计数调查时点与人口普查标准时点之间的人口移动。事实上,这两个时点之间是存在三种人口移动的,分别是无移动者(Non-movers,缩写为 n)、向内移动者(In-movers,缩写为 i)和向外移动者(Out-movers,缩写为 o)。事后计数调查人口有两种构成方法,即 A 构成法和 B 构成法,我国一直采取 B 构成法,本文也采取 B 构成法。在 B 构成法下,式(3)到式(5)变为:CTSEBv=xBv+CTSEB000,v(6)xBv=x

25、111n,v+x111i,v+x110n,v+x110i,v+x101n,v+x101i,v+x100n,v+x100i,v+x011n,v+x011i,v+x010n,v+x010i,v+x001n,v+x001i,v(7)CTSEB000,v=(x100n,v+x100i,v)(x010n,v+x010i,v)+(x100n,v+x100i,v)(x001n,v+x011i,v)+(x010n,v+x010i,v)(x001n,v+x011i,v)(x110n,v+x110i,v)+(x101n,v+x101i.v)+(x011n,v+x011i,v)(8)考虑到向内移动人口不可能出现在本

26、小区的户籍人口名单中,因此向内移动人口涉及户籍人口名单的项目一律为零,即 x111i,v=x101i,v=x011i,v=x001i,v=0。此时,式(6)到式(8)相应地转变为:16 无移动者指一直居住在本样本普查小区的人口。向内移动者指人口普查标准时点居住在其他普查小区,事后计数调查标准时点居住在本样本普查小区的人口。向外移动者指人口普查标准时点居住在本普查小区,事后计数调查标准时点居住在其他普查小区的人口。A 构成法由无移动人口和向外移动人口构成,B 构成法由无移动人口和向内移动人口构成。人口与经济 2023 年第 4 期CTSEBv=xBv+CTSEB000,v(9)xBv=1i=01

27、j=01k=0 xijkn,v+x100i,v+x110i,v+x010i,v(10)其中,i,j,k 不同时为零。CTSE000,v,B=(x100n,v+x100i,v)(x010n,v+x010i,v)+x001n,v(x100n,v+x100i,v)+x001n,v(x010n,v+x010i,v)x110n,v+x110i,v+x101n,v+x011n,v(11)至此,我们的讨论局限于三份人口名单是对同一总体的全面登记,之所以规定这三份人口名单对同一总体全面登记,是因为建立在三次捕获模型基础之上的组合式三系统估计量要求三份名单对同一总体全面登记,否则无法构造。如果我们能够获得三份人

28、口名单全面登记的资料以及其匹配资料,就可以使用式(9)到式(11)来估计总体实际人口数及户籍登记系统的净误差。然而,在实际工作中,所使用的数据来自人口普查的事后计数调查所抽取的样本,在这种情况下,只能获得普查人口名单和户籍人口名单的全面资料,而无法获得事后计数调查人口名单的全面资料。虽然理论上只要有足够的调查经费和调查时间,在事后计数调查中就可以像人口普查或户籍登记系统那样,对总体人口进行一次全面登记,但实际上没有哪一个国家的政府统计部门这么做,因为统计调查总是会受到经费和调查时间的制约。因此,所有国家的政府统计部门在事后计数调查中均采取抽样调查,在这种情况下,只能获得样本普查小区的三份人口名

29、单。此时,式(9)到式(11)每一项指标或估计量均要使用样本数据来估计,采取估计量的形式,这样,式(9)到式(11)相应地变为:CTSEBv=xBv+CTSEB000,v(12)xBv=1i=01j=01k=0 xijkn,v+x100i,v+x110i,v+x010i,v(13)CTSE000,v,B=(x100n,v+x100i,v)(x010n,v+x010i,v)+x001n,v(x100n,v+x100i,v)+x001n,v(x010n,v+x010i,v)x110n,v+x110i,v+x101n,v+x011n,v(14)在式(13)到式(14)中,等号右边的估计量依据事后计数

30、调查采取的抽样方法来构造21-25。我们采取分层二重抽样抽取样本普查小区。将式(13)到式(14)等号右边的每个估计量统一用符号 Yv表示,并使用双重扩张估计量来构造,公式如下:Yv=Hh=1Ghg=1nhi=1hgixhgiIhgiyhgi(15)其中,yhgi表示层 hg 的第二重样本的普查小区 i 的人口数,其中的每个人首先按照在三份人口名单的登记结果划分到不完整三维列联表的相应单元,然后按照同质性分配到相应的同质人口层;H 表示第一重抽样前对总体普查小区划分的总层数,h 表示其中的任意层;Gh表示对h 层的第一重样本普查小区进一步划分的总层数,g 是其中的任意层;xhgi为示性函数,x

31、hgi=1 表26 三次捕获模型是在三次捕获对同一动物总体全面捕获的前提下建立的,以三次捕获模型为理论基础的组合式三系统估计量自然要求三份名单对同一人类总体全面登记。胡桂华,等:户籍登记系统的净误差估计示层 h 的样本普查小区 i 在层 g,xhgi=0 表示层 h 的样本普查小区 i 不在层 g;Ihgi为示性函数,Ihgi=1 表示层 hg 的第一重样本普查小区 i 进入第二重样本,Ihgi=0 表示层 hg 的第一重样本普查小区 i 未进入第二重样本;hgi表示层 hg 的第 i 样本普查小区经过二重抽样后进入第二重样本的抽样权数;nh表示层 h 的样本普查小区数。在以普查小区为抽样单位

32、的分层二重抽样中,如果每重采用简单随机抽样,那么经过二重抽样后,层 hg 的第 i 样本普查小区的抽样权数 hgi为:hgi=(Nh/nh)(Mhg/mhg)(16)其中,Nh表示层 h 的普查小区总数,nh表示层 h 的样本普查小区数,Mhg表示层 hg 的普查小区总数,mhg表示层 hg 的样本普查小区数。(2)同质人口层的组合式三系统估计量方差估计。抽样理论指出,只构造总体参数估计量而不构造其抽样方差估计量,不属于抽样调查范畴。换句话说,抽样调查必须计算抽样方差,有时候还要计算均方误差和偏差。从式(13)到式(16)可以看出,式(12)是一个很复杂的估计量。国外学者提出了多种方法来近似计

33、算复杂估计量的抽样方差26-27,这些方法通常分为两类:再抽样方法和基于模型的方法。再抽样方法包括刀切法、自助法及其改进法,这些方法广泛应用于人口、经济和教育调查中。基于模型的方法通常源于复杂样本中的泰勒级数近似,基于简单随机样本的正态近似分布和学生 T 分布近似的公式属于这一类。鉴于刀切法在人口统计调查中的成熟应用,故采用刀切法近似计算总体实际人口数及户籍登记系统净误差的抽样方差,并从简单随机抽样、分层抽样和分层二重抽样三个层面讨论刀切法。刀切法就是计算一系列估计值(t),其中(t)是从样本中剔除 t 样本普查小区后重新计算的估计值,又称复制值。假设从容量为 N 的总体中抽取样本 x=(x1

34、,x2,xn)得到估计量=s(x)。刀切样本为 x(t)=(x1,x2,xt-1,xt+1,xn),t=1,2,n。剔除第 t个单位后的复制估计量为(t)=s(x(t)。如果采取简单随机重复抽样,那么刀切抽样方差估计量(Jack-knife,通常缩写为 Jack)为:VarJack=n-1nnt=1(t)-()2(17)其中,()=ni=1(t)/n,复制估计量(t)依据复制权数 w(t)i计算。w(t)i的公式为:w(t)i=0i=tnn-1wii t(18)其中,wi=N/n。如果采取简单随机不重复抽样,那么刀切抽样方差估计量为:VarJack=1-nN()n-1nni=1(t)-()2

35、(19)其中,复制估计量(t)依据复制权数 w(t)i计算。w(t)i的公式同式(18)。36人口与经济 2023 年第 4 期如果采取分层不重复随机抽样,且抽样层的总层数为 H,每一抽样层(h)的普查小区总数分别为 Nh和 nh,那么刀切抽样方差估计量为:VarJack=Hh=1nht=11-nhNh()nh-1nh()(t)-()2(20)其中,复制估计量(t)依据复制权数 w(st)hi计算。w(st)hi计算公式为:w(st)hi=0i=tnhnh-1 whih=s,i twhih s(21)其中,whi=Nh/nh。如果采取分层二重不重复抽样,那么刀切抽样方差估计量与式(20)相同,

36、但其中的复制估计量(t)所依据的复制权数(st)hgi的计算公式不同于式(21),其计算公式如下:(st)hgi=NhnhMhgmhgh sNhnh-1Mhgmhgh=s,xhgi=0Nhnh-1Mhg-1mhgh=s,xhgi=1,Ihgi=0,i tNhnh-1Mhg-1mhg-1h=s,xhgi=1,Ihgi=1,i t0h=s,xhgi=1,Ihgi=1,i=t(22)其中,s 和 t 分别表示被剔除的第一重样本普查小区 t 所在的抽样层 s,(st)hgi表示剔除(st)后样本普查小区 hgi 的复制权数。使用式(20)写出式(12)基于刀切法的抽样方差估计量 Var(CTSEBv)

37、Jack:Var(CTSEBv)Jack=Hh=1nht=11-nhNh()nh-1nh()(CTSEB(st)v-CTSEB(st)v)2(23)CTSEB(st)v=1Hh=1nhHh=1nht=1 CTSEB(st)v(24)CTSEB(st)v=xB(st)v+CTSEB(st)000,v(25)xB(st)v=1i=01j=01k=0 x(st)ijkn,v+x(st)100,i,v+x(st)110,i,v+x(st)101i,v(26)CTSEB(st)v=(x(st)100,n,v+x(st)100,i,v)(x(st)010,n,v+x(st)010,i,v)+x(st)00

38、1,n,v(x(st)100,n,v+x(st)100,i,v)+x(st)001,n,v(x(st)010,n,v+x(st)010,i,v)x(st)110,n,v+x(st)110,i,v+x(st)101,n,v+x(st)011,n,v(27)46胡桂华,等:户籍登记系统的净误差估计式(26)到式(27)等号右边的每个估计量使用下式计算:Y(st)v=Hh=1Gg=1nhi=1(st)hgixhgiIhgiyhgi(28)(3)总体的组合式三系统估计量及其方差估计。式(12)和式(23)分别给出了同质人口层 v(同质总层数使用 V 表示)的组合式三系统估计量及其分层刀切方差估计量。

39、在此基础上,给出总体的组合式三系统估计量及其分层刀切方差估计量。总体(P)的组合式三系统估计量及其刀切抽样方差估计量分别为:CTSEBP=Vv=1 CTSEBv(29)Var(CTSEBv)Jack=Vv=1 Var(CTSEBv)+2V-1v=1Vv v Cov(CTSEBv,CTSEBv)(30)Cov(CTSEBv,CTSEBv)=Hh=1nht=11-nhNh()nh-1nh()(CTSEB(st)v-CTSEB(st)v)(CTSEB(st)v-CTSEB(st)v)(31)式(31)是同质人口层 v和v 之间的协方差,可能为正、负和零。若为正,增加总体抽样方差,若为负,减少总体抽样

40、方差。其中,CTSEB(st)v=1Hh=1nhHh=1nht=1 CTSEB(st)v,CTSEB(st)v=1Hh=1nhHh=1nht=1CTSEB(st)v。3.总体的户籍登记系统的净误差(率)及方差估计分别使用 HMSBP、CTSEBP和 HMSP表示总体户籍登记系统净误差、总体实际人口数和总体户籍登记系统人口数。HMSBP=CTSEBP-HMSP(32)由于 HMSP是常数,所以式(32)的抽样方差为:Var(HMSBP)Jack=Var(CTSEBP)Jack(33)估计的总体的户籍登记系统的净误差率 HMSRBP定义为净误差HMSBP与总体实际人口数CTSEBP之比:HMSRB

41、P=CTSEBP-HMSPCTSEBP(34)需要注意的是,式(34)的分母是目标总体人口数的估计量 CTSEBP,而不是户籍登记系统的人口数 HMSP。这么规定的理由在于,CTSEBP利用了三个来源的人口数据信息,而 HMSP只利用了一个来源的人口信息,因而前者比后者更加接近于目标总体实际人口数,另外,在56人口与经济 2023 年第 4 期计算公式中,应该使用准确度或精确度高的指标。式(34)显然是一个极为复杂的估计量。按理,应该采用前面的刀切法近似计算其抽样方差,但是我们不打算这么做,之所以如此,一是因为计算量过大;二是因为前面已经给出了复杂估计量的刀切法抽样方差公式;三是因为政府统计部

42、门在计算比率指标的抽样方差时往往将分母视为常数,以简化比率估计量的抽样方差计算。鉴于此,我们给出式(32)的刀切法抽样方差估计量公式如下:Var(HMSRBP)Jack=Var(CTSEBP)Jack(CTSEBv)2(35)4.对三份人口名单的必要说明或规定为了正确地、合乎逻辑地使用式(12)到式(35),有必要对用来构造组合式三系统估计量的普查人口名单、事后计数调查人口名单和户籍人口名单做必要说明或规定。前两份调查人口名单依据普查表和事后计数调查表编制而成,户籍人口名单依据派出所提供的户籍登记底册编制。组合式三系统估计量的使用须符合我国人口口径、统计调查及估计理论的要求。我国户籍登记系统净

43、误差为目标总体实际人口数与户籍登记系统人口数之差。按照国家统计局人口口径的划分,目标总体实际人口数有三种口径,即常住人口数、现有人口数和户籍人口数。依据统计指标计算要求,目标总体实际人口数与户籍登记系统人口数在口径上需一致。对于实际人口数估计,就是要估计目标总体有户口且只有一个户口的户籍人口数。按照统计调查要求,对发生的人口动态事件要及时登记或处理,所估计的户籍人口数就应该包括在普查标准时点前出生但未入户的婴儿,但不包括该时点前死亡但未注销户口者,也不包括重复户口者。按照户籍登记条例及现实做法,公安部门公布的户籍登记系统人口数包括了死亡未注销户口者和重复户口者人数,但未包括应该及时入户的婴儿人

44、数。可见,估计的目标总体户籍人口数不同于户籍登记系统人口数。为了获得与户籍登记系统人口数在口径上一致的目标总体户籍人口数的估计值,在确定三份人口名单的户籍人口时,要坚持三项原则。一是研究范围原则。如果研究范围是重庆市,只要这个人在该市的任何地方上了户口,就可作为本样本普查小区的户籍人口,而不要求这个人的户口登记在本样本普查小区的所在地。如果研究范围是全国,只要这个人在全国的任何地方有户口,即可视为本样本小区的户籍人口。例如,某人是重庆市的常住人口,但其户口登记在武汉市,也可以算作是本样本普查小区的户籍人口。这是可以理解的,因为使用组合式三系统估计量估计的是研究范围内拥有户籍的人口数,而不是估计

45、所有样本普查小区本身有户口的人口数。二是登记范围原则。普查标准时点居住在本样本普查小区的人,不管其户籍登记在何处,以及户口登记在本样本普查小区但在该时点未居住在本样本普查小区的人,无论其外出时间多长、外出原因如何,都要进行登记。对于出差、旅游、走亲访友等原因临时外出的人口,也要进行登记。为避免重复登记,临时来访的人不登记。标准时点后出生的人和该时点前死66胡桂华,等:户籍登记系统的净误差估计亡的人、港澳台和外籍人员以及现役军人不登记。使用出生医学证明、死亡医学证明、居民身份证号码或现场调查法,核对样本普查小区的三份人口名单,判断它们是否登记了普查标准时点之前出生的婴儿及死亡者或重复户口者。如果

46、未登记该时点前出生的婴儿,则添补到这三份人口名单,这是因为这类婴儿在该时点具备了上户口资格,未上户口是因为其他难以抗拒的原因,因此应该视为户籍人口。如果三份名单登记了该时点之前死亡者或重复户口,或者登记了标准时点之后出生的婴儿,则从中剔除。三是分割指定原则。组合式三系统估计量对总体户籍人口数的估计依据的是样本普查小区的三份人口名单,因而须获得这样的三份人口名单,可是我国的户籍登记系统并不是按普查小区划分的,而是以街道为范围登记的,街道建立了分建筑物的普查小区户籍登记系统。这样一来,为了获得本样本普查小区的户籍人口信息,需要在街道的户籍登记系统搜索本样本普查小区的户籍人口,或者比对本样本普查小区

47、三份人口名单的人口地址和街道户籍登记系统的人口地址。四、实证研究按理应该以全国为实证范围估计全国户籍登记系统的净误差率,但是因为无法获得估计全国户籍登记系统净误差的原始数据,所以从数据可获得性及数据处理难度两个方面考虑,选择重庆市某行政区为研究范围,估计其2010 年11 月1 日户籍登记系统的净误差率(没有获得该行政区 2020 年户籍登记系统净误差率估计所需要的原始数据)。1.抽样方法采用分层二重抽样方法。在抽取第一重样本之前,为提高样本对总体的代表性及便于编制抽样框,按照住房单元数将该行政区的总共 2200 个普查小区分为两层(H=2)。h=1 表示含 80 个及以上住房单元的普查小区层

48、,h=2 表示含80 个以下住房单元的普查小区层。以普查小区为抽样单位,在每层采用简单随机不重复抽样方式抽取样本普查小区。Nh表示层 h 的普查小区总数,nh表示从层 h 抽取的样本小区数。对抽取的第一重样本普查小区,了解每一样本普查小区的户籍人口数,并作为第二重抽样的辅助变量。依据户籍人口占全部人口数比例将第一重样本普查小区重新分为两层(G=2)。g=1 表示户籍人口比例不足50%的普查小区层,g=2 表示户籍人口比例大于等于 50%的普查小区层。Mhg表示交叉层 hg 的普查小区总数,mhg表示从交叉层 hg 抽取的样本小区数。表 2 和表 3 为样本形成过程及抽样权数,其中,第一重样本含

49、普查小区 13 个,第二重样本含普查小区 8 个。表 2 抽样层及样本规模第一重抽样层 h抽样层 h总规模 Nh抽样层 h样本规模 nh第二重抽样层 g交叉层(hg)交叉层(hg)总规模 Mhg交叉层(hg)样本规模 mhg1100081(11)521100082(12)322120051(21)322120052(22)2276人口与经济 2023 年第 4 期表 3 抽样层及第二重样本普查小区抽样权数第一重抽样层 h抽样层 h总规模 Nh抽样层 h样本规模 nh交叉层(hg)总规模 Mhg交叉层(hg)样本规模 mhg样本普查小区符号样本小区抽样权数 hgi110008521312.511

50、0008522312.5110008523110008524110008525110008326187.5110008327187.5110008328212005321 360212005322 360212005323212005224240212005225240 注:和表示第一重样本小区进入第二重样本;表示数据缺失,下同。2.数据采集与处理估计该行政区户籍登记系统的净误差,所需要的是表 2 中带有“”号和“”的 8 个样本普查小区的三份人口名单。通过比较,得到了每个样本普查小区人口在三份人口名单的登记结果。为简化计算,按照性别对样本普查小区的人口同质分层(V=2),v=1 表示男性层

展开阅读全文