人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf

资源描述

1、第 40 卷第 3 期统计研究 Vol.40，No.3 2023 年 3 月 Statistical Research Mar.2023 人口普查中行业和职业编码智能化*国际经验与中国进程孙望书孙旭内容提要：行业和职业编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节。随着信息技术的快速发展及其在社会管理工作中的广泛应用，人口普查行业和职业编码走上了智能化探索之路。智能化计算机编码极大减少编码工作对人工的依赖，显著降低编码成本，提高数据的时效性，控制编码环节的再生性误差。本文结合国内外相关研究，总结计算机编码的两种基本实现思路，阐述字典编码方法和模型编码方法的原理、技

2、术及其在人口普查编码实践中的应用。我国在前六次人口普查中，行业和职业编码均由人工完成，第七次全国人口普查采用计算机辅助编码技术，初步实现行业和职业编码智能化。未来可以有针对性地借鉴其他国家社会调查编码工作的先进经验，向全面智能化方向迈进，进一步提高计算机编码方式在我国社会精准化管理中的服务水平。关键词：行业和职业编码；人口普查；信息技术；文本检索；机器学习 DOI:10.19343/ki.111302/c.2023.03.012 中图分类号：C812 文献标识码：A 文章编号：10024565(2023)03015110 *基金项目：全国统计科学研究项目“大型社会调查中行、职业编码的智能化及质

3、量控制研究”（2022LZ25）；国家社会科学基金一般项目“人工智能驱动的职业流动模拟及2035年劳动力市场技能短缺状况预估研究”（22BTJ032）。Research on Automated Coding of Industries and Occupations in the Population Census:International Experience and the Process in China Sun Wangshu&Sun Xu Abstract:Industry and occupation coding is the necessary stage between

4、data collection and quantitative analysis in the population census.With the rapid development of information technology and its wide application in social management,the industry and occupation coding in the census is developing towards intelligence.The application of automated coding significantly

5、reduces the human input,coding time and costs,and especially the reproducibility error.Combined with relevant domestic and foreign research,this paper summarizes two basic methods of automated coding,and expounds the principles and techniques of dictionary coding method and model coding method with

6、their application in the census coding.In the first six population censuses of China,industry and occupation coding was all completed manually,till the seventh census which initially applied automated and intelligent coding.In the future,it is beneficiary to draw on the advanced experience of social

7、 survey coding in other countries in a targeted manner,move forward in the direction of comprehensive intelligence,and further improve the service level of automated coding in the precise management of Chinas society.Key words:Industry and Occupation Coding;Population Census;Information Technology;T

8、ext Retrieval;Machine Learning 152 统计研究 2023 年 3 月一、人口普查中行业和职业信息的开放式采集与编码（一）人口普查中的行业和职业开放题人口普查是国家了解人口结构与人口发展变化的重要途径，为政府制定政治措施提供重要依据。人口普查通过普查表采集信息，普查表中设置的问题从形式上可分为封闭题和开放题：封闭题在提问的同时给出若干答案，要求被调查者根据实际情况从中进行选择；开放题则只提出问题，不设答案，由被调查者根据自身情况自由填报。封闭题备选答案简短明确，便于统计处理和定量分析，是人口普查中大部分项目的信息采集方式；开放题主张采集独立真实、生动丰富的非结

9、构化信息，是人口普查中比重较轻但必要的信息采集方式。行业和职业项目是开放题中的典型代表。行业和职业信息是支持社会精准化管理、服务经济高质量发展的必要统计信息，行业和职业开放题是人口普查的关键项目。人口普查表中设置“单位详细名称”“主要产品或主要业务”“本人从事的具体工作”或措辞类似的开放题。利用开放题采集行业和职业信息主要考虑以下两个因素，第一，行业和职业类别过多。行业和职业是社会劳动分工的产物，人口普查中涉及的行业和职业类型繁多，结构和功能复杂。行业分类体系根据经济活动的同质性将国民经济行业划分为门类、大类、中类和小类4级，职业分类体系根据工作性质的相似性将职业划分为大类、中类、小类、细类4

10、层。人口普查中以多达数百种的中类和小类标准分别采集行业和职业信息，普查表有限的版面不足以一一列举各行业和职业。第二，被调查者对行业和职业项目的了解程度不足。开放题不要求被调查者了解行业和职业分类体系，也不需要被调查者对所处的行业和从事的职业加以归纳总结，被调查者只需具备基本的表达能力，能够使用自然语言独立阐述其行业和职业即可。利用开放题采集行业和职业信息是国际劳工组织倡导的调查方式，也是我国在人口普查的行业和职业项目中采用的方式。（二）行业和职业编码：开放题填报文字的必要整理环节人口普查表采集的行业和职业填报文字是一种非结构化的文本型数据，为便于量化处理、汇总和分析，必须将其转换成结构化的数

11、值型数据。人口普查中的行业和职业编码就是依照指定的行业和职业分类标准，将行业和职业填报文字转换为对应的数值型行业和职业代码的过程。编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节，实践经验表明职业编码的复杂性略高于行业编码，因此下文关于行业和职业编码问题的讨论中将以职业编码为主要对象，行业编码可以依此类比。开展职业编码有三个基本要素：待编码的职业信息、职业编码表和编码规则（边燕杰等，2006）。待编码的职业信息即为人口普查中职业填报文字，职业编码表和编码规则均来自普查指定的职业分类标准，其规定了全社会职业的分类结构和类别，指定各类职业的名称、代码并说明主要工作内容。其中，职业

12、编码表由职业分类标准中统一规范的职业代码构成，是职业填报文字将被转换成的全部数值型职业代码的集合；编码规则为职业分类标准中职业名称、代码与职业描述的对应关系。各国职业分类标准是多样化的，中国、美国、俄罗斯、日本等许多国家自行制定了符合本国国情、本国管理使用需要的职业分类体系，一些国家还存在两种及以上的职业分类标准。国际劳工组织编制修订的国际标准职业分类（International Standard Classification of Occupation，ISCO）为全球各国制定或修订本国的职业分类标准提供了基础，也为职业量化分析的国际比较创造了基本条件。我国于2020年开展的第七次人口普查规

13、定职业填报文字依据中华人民共和国职业分类大典（GB/T 6565-2015）编码，该标准采用线分类法将全社会职业划分为8个职业大类、75个职业中类和434个职业小类，职业代码为5位数字层次码，第1位代码表示大类，第23位代码表示中类，第45位代码表第 40 卷第 3 期孙望书孙旭：人口普查中行业和职业编码智能化 153 示小类。（三）行业和职业编码的误差来源与质量检验实际编码工作中，编码员赋予行业和职业填报文字的代码并不总是对应被调查者最恰当的行业和职业类别。因此，编码是人口普查数据再生性误差的来源之一，误差产生的原因复杂多样。以职业编码为例，第一，待编码职业信息不足或表述模糊。众多职

14、业填报文字长度参差不齐，从几个字到几十个字不等，加之被调查者对职业分类原则和标准认识不足，无法在近似职业类别间做出准确的区分和描述。第二，职业分类标准与现实匹配度还有待完善。职业分类标准并非客观存在，而是人为将复杂异构的职业聚合为有限类别。然而现实经济社会中职业的多样性、复杂性和可变性，使得职业分类标准往往难以囊括所有职业，职业类别的边界可能重叠或模糊，还需不断调整和更新以适应经济社会发展。职业填报文字与职业分类标准之间很难实现完全匹配或一一对应。第三，编码结果受编码员的知识、经验和工作态度影响。编码工作依赖编码员对填报文字的理解和对职业分类标准的掌握来完成，对于同一填报文字，缺乏训练的编码员

15、和训练有素的编码员赋码结果可能并不一致。事实上，即便在经验丰富的编码专家之间，赋码结果不一致的现象也时有发生，甚至同一编码员在不同时期的编码结果也可能不一致。为检验编码工作的总体质量，普查机构通常运用抽样和再次编码，对样本赋码结果的可靠性和有效性进行检验。职业的可靠性检验又称信度检验，指职业填报文字经同一编码员或多名编码员多次重复赋码结果的一致程度；职业的有效性检验又称效度检验，指编码员赋码结果与填报文字的“正确”职业类别的吻合程度。样本赋码结果的可靠性和有效性越高，估计总体的编码质量越高，编码环节的数据再生性误差就越小。（四）编码方式的发展：从人工到智能人口普查工作中，行业和职业填报文字的

16、编码是一项紧张繁重的工作。20世纪80年代之前，编码工作均由人工完成。为保证普查数据的时效性，普查机构需要预先选调大量编码员，并进行行业和职业分类原则、体系和方法等方面的培训。编码工作过程中，编码员依据对行业和职业分类标准的主观理解和掌握，为填报文字手动赋码。整个编码工作投入大量人力和物力，编码过程耗费时间，成本较高。同时，由于参与工作的编码员众多，编码的可靠性和有效性无法保障。事实上，各国的调查项目中编码质量有较大差异，美国1970年和1980年人口普查的行业编码有效性分别为90.9%和93.1%，职业编码有效性分别为86.7%和91.9%；瑞典1975年人口普查的行业和职业编码有效性分别为

17、96.5%和92.2%（Biemer和Lyberg，2003）。Mannetje和Kromhout（2003）报告英国1989年至2003年的4项研究的行业编码可靠性分布在59%98%之间。Elias（1997）报告英国1981年至1990年的6项社会调查的职业编码可靠性在66%78%之间。随着信息技术的快速发展及其在社会调查工作中的应用，从20世纪80年代开始，美国、英国、加拿大等国家的官方普查机构以及多所知名大学的研究机构开始探索行业和职业编码智能化。计算机编码方式是编码智能化的核心内容，利用计算机语言将行业和职业编码规则编写成特定的运算指令，再由计算机（“机器编码员”）自主读取识别行业和

18、职业填报文字，执行编码指令，输出编码结果。计算机编码的兴起部分解决了人工编码存在的问题。首先，计算机编码最鲜明的优势在于大大减少编码环节对人工的依赖，从而大幅降低编码成本；其次，计算机执行编码指令的速度远远高有效性是一个具有主观意味的指标，这里的“正确”职业类别是指编码专家认定的填报文字职业类别。关于行业和职业编码质量的公开数据较少，特别是近几十年来计算机和人工编码方法混合使用之后，相关数据更为少见。154 统计研究 2023 年 3 月于人工，计算机编码方式取代人工编码将有效地缩短编码时间，提升人口普查数据的时效性；最后，计算机的编码操作是标准化的，控制了部分可变误差，既定编码规则下计算

19、机编码的可靠性为100%。人口普查编码工作中计算机的应用，将人工从大量重复性劳动中释放出来，编码员和研究者的工作重心转移到计算机环境下的自然语言语义分析和编码规则运算指令编制。进入21世纪，机器学习、文本挖掘等领域的技术创新与发展，进一步促进计算机编码智能化水平的不断提升。二、人口普查中行业和职业的计算机编码方法与技术（一）基于字典检索的计算机编码规则 OReagan（1972）最早提出计算机职业编码方法，是基于文本检索技术，以“如果那么”的布尔逻辑组织编码规则，实现计算机的自动编码。该编码方法的基础是构建一个“职业特征字典”，因此这一编码方法被称为字典型编码或规则型编码。早期的字典型计算机编

20、码遵循文本精准检索思想，可以实现填报文字与唯一职业代码相匹配。随着数据库和信息处理技术的发展，在模糊检索匹配算法的推动下，字典型编码方法的智能化水平不断提高，呈现如分词字典、同义字典、加权职业特征字典等多种功能和内容的组合模式。分词字典将职业填报文字拆分为细粒度的字和词语，同义字典随即对这些检索词进行必要的标准化同义转换。加权职业特征字典中，各职业类别下的特征词依据其反映该职业特性的能力被指定相应权重。职业填报文字检索词可能与字典中多个职业类别下的某些职业特征语句匹配，利用统计计量方法计算和比较职业文本与这些潜在匹配职业的匹配概率，可以从中确定最恰当的职业类别。如Thompson等（2012）

21、在美国社区调查（American Community Survey，ACS）的行业和职业计算机编码工作中，将每个潜在职业下的全部匹配特征语句的权重进行简单加总，再构建以被调查者个人特征及语句权重加总结果为自变量且以潜在职业为因变量的多类别Logit回归模型，基于模型系数计算各潜在职业匹配概率，并按照从大到小的顺序将其与对应的职业代码一并输出。字典模糊匹配的优势在于将精准匹配中“一致与否”的简单判断逻辑延伸为“匹配概率”的定量计算，使字典型编码功能从“查找匹配唯一职业类别”扩展为“模糊匹配多个潜在职业类别”，这不仅大大提高字典型计算机编码方法在社会调查实践中的实用性，也能够从知识和概念的层面提供

22、关于职业填报文字更丰富的编码信息集合，更好服务于编码处理、检验和分析。目前，许多国家的普查机构开发了基于行业和职业特征字典的计算机编码工具。1982年，美国开发了行业和职业的自动化编码系统（Automated Industry and Occupation Coding Software，AIOCS），并应用于1990年的美国人口普查。这是计算机编码方式在人口普查中的首次实践，取得了很好的成效（Knaus，1987；Kirk等，2001）。加拿大统计局在AIOCS系统的基础上，加强了自然语言文本的预处理，开发出通用性更强的文本检索编码软件ACTR（Wenzowski，1988；Tourigny

23、和Moloney，1997），并成功应用于加拿大1991年人口普查的行业和职业编码工作。意大利统计局引进了ACTR软件，将其改写为意大利语环境下的编码工具，并应用于1998年人口普查中（Ferrillo等，2008）。另一个著名的事后编码工具CASCOT由英国就业研究所和英国华威大学于1993年共同开发。CASCOT是一个开源系统，允许使用者修改或自定义编码规则，提供包括国际标准职业分类（ISCO）的多个职业分类标准编码表。CASCOT工具的多语言版本开发工作得到了欧盟社会科学和人文科学数据服务基础架构的资助，目前已开放支持英文、荷兰文、芬兰文、法文、德文、意大利文、葡萄牙文、斯洛伐匹配概率

24、在一定程度上反映了特征字典的适用性，如果与职业填报文字匹配的多个潜在职业类别的匹配概率彼此相近，意味着该特征字典不足以确立某些职业的边界，有必要进一步调整完善。第 40 卷第 3 期孙望书孙旭：人口普查中行业和职业编码智能化 155 克文和西班牙文9种语言版本。2016年2月，CASCOT项目启动了阿拉伯语、中文、印地语、印度尼西亚语和俄语版本的开发工作，目前中文和印地语编码工具仍在调整之中。CASCOT编码工具目前已被来自不同国家的100多家企业和商业调查机构使用。字典是对行业和职业特征的知识性总结、概括和提炼，因此以字典为基础的计算机编码方法具有常识层面的可解释性和认同性。同时，字典

25、表现出较好的灵活性和扩展性，可以根据调查项目的对象、特点和目标的职业分类标准作出调整，适应不同时期、不同目的甚至不同语言环境的社会、经济和商业调查。在人口普查中，字典的质量很大程度上决定了计算机编码的性能，只有覆盖全社会经济活动的、详尽的字典才能服务于如此大规模的编码工作。然而，编制一部完备的行业和职业特征字典并非易事，既要囊括真实经济活动中各类别行业和职业的直观特征，还需挖掘其潜在性质。同时，字典的修订和维护是一项长期工作，需不断丰富细节，确立行业和职业特征的边界，并需敏锐捕捉行业和职业随社会发展表现出的融合和变迁，使特征字典能够适应各种生产形式和新兴职业活动。因此，尽管字典型计算机编码方法

26、已经在一些国家的人口普查中使用，但由于编制和修订行业和职业特征字典的过程繁琐耗时且成本不菲，随着现代社会行业和职业分类任务的复杂性不断增强，字典型计算机编码方法变得越来越缺乏吸引力（Measure，2014；Thompson等，2012；Javed和Jacob，2015）。（二）基于机器学习的计算机编码模型进入21世纪，机器学习和人工智能领域的迅猛发展为计算机行业和职业编码提供了新的思路：基于机器学习文本分类技术，利用监督式多类别分类模型实现行业和职业的计算机自动编码。相较于字典型计算机编码方法，基于机器学习的模型编码方法回避了人工构建字典知识系统和确立编码规则的艰巨工作，利用机器学习算法，

27、令计算机自主从已有的高质量职业编码资料中进行学习，归纳资料中的编码规则，推演填报文字与职业代码的对应关系。构建机器学习职业编码模型，需以积累大体量、高质量职业编码资料为前提，将以往编码工作中的职业填报文字和编码结果资料作为训练样本，对职业文本进行清洗、分词、过滤停用词等处理（与字典型编码的文本预处理过程类似），从中提取职业特征词向量作为机器学习分类模型的输入变量，编码结果为输出变量，设定模型参数训练模型，令模型自主挖掘特征词向量与职业代码的对应关系。机器学习分类模型经训练习得职业编码资料中的编码规则，使用模型为待编码的职业填报文字赋码时，首先以与训练样本相同的文本预处理技术将待编码职业文本转换

28、为职业特征词向量，然后分别将每条填报文字下的全部词向量输入训练好的分类模型，模型将依照计算机学习所得的编码规则，自动执行职业分类和编码，并输出待编码填报文字对应的职业代码与匹配概率。目前，机器学习已经成为职业编码智能化的重要技术手段之一。对比字典型编码方法，基于机器学习的模型编码方法在人口普查等大型社会调查的职业编码工作中有更广阔的应用前景，其优势主要体现在以下两点：第一，利用适合的训练资料，机器学习编码模型的构建可以在短时间内完成，因而时效性高、成本低、适应性强；第二，利用机器学习算法搭建复杂分类模型，能够精细化模拟职业填报文字和职业代码之间多重、交叉的关联关系，充分利用训练资料中的编码经验

29、归纳其中反映的编码规则，取得更好的编码效果。同时，以往人口普查积累的职业编码资料体量庞大，覆盖全网站http:/www2.warwick.ac.uk/fac/soc/ier/software/cascot/。训练资料需同时满足以下基本条件：第一，训练样本集规模足够大，并且能够覆盖职业分类标准中的全部职业类别；第二，训练资料中的职业编码结果具备较高有效性，确保职业文本和编码结果的对应关系是有效的；第三，待编码职业填报文字集与训练样本集的结构须高度相似。156 统计研究 2023 年 3 月社会的经济活动，编码结果相对可靠，为构建职业编码模型提供了有利条件。近年来，针对英文等西文行业和职业文本

30、，美国人口普查局、澳大利亚统计局、德国就业研究所等官方机构持续关注并开展基于机器学习分类算法的编码模型开发研究。澳大利亚统计局将基于支持向量机算法实现的编码模型应用于2006年人口普查的行业和职业编码工作，美国人口普查局与企业Smart Software Co.达成合作，提供美国人口普查编码资料支持该企业开发基于自组织神经网络的行业和职业编码解决方案。Russ等（2014）、Gweon等（2017）、Schierholz（2018）等相继运用朴素贝叶斯、支持向量机、自组织神经网络、最近邻算法等机器学习分类算法构建计算机编码模型，相关研究的重点在于如何提升计算机的学习能力，改善分类模型的结构和性

31、能，使之能够更有效地组织训练样本中的编码规则，满足社会调查中编码工作的实际需要。三、人口普查中美国的智能编码方案与我国编码智能化实践（一）美国人口普查的行业和职业智能编码方案作为最早探索和应用计算机编码方法的国家之一，美国人口普查具有全球领先的调查技术和智能化水平。基于自动化行业和职业编码系统AIOCS，美国2000年人口普查采用了计算机自动编码与计算机辅助人工编码的组合编码方案。组合编码方案的核心在于设定一个计算机编码有效性水平，称为截止分数。运行计算机指令（规则或模型）进行职业编码时，返回职业的匹配概率是对其有效性的经验性度量，如果匹配概率高于截止分数，则计算机将自动采用该职业代码作为最

32、终赋码结果，这一过程即为计算机自动编码；反之，如果潜在匹配的多个职业匹配概率均低于截止分数，计算机会将这些职业代码推荐给编码员进行人工决断，即计算机辅助人工进行最终编码。编码方案中截止分数的设定关系到计算机编码的质量和生产率。生产率是指经由计算机编码的职业填报文字占全部待编码职业填报文字的比率，一定程度上反映了编码工作的整体效率。编码方案中截止分数的设定需要在编码质量和效率之间权衡，如果设定较高的截止分数，意味着普查机构对应用计算机自动编码的态度较为谨慎，计算机编码整体质量将取得较高的有效性水平，同时对应一个较低的生产率，编码工作依赖编码员的人工决断。反之，如果设定较低的截止分数，表明普查机构

33、对计算机自动编码结果较为信任，一定程度上放宽了对计算机编码的质量要求以获得较高的生产率，减少人工编码工作量，提升编码效率。在美国2000年人口普查的行业和职业编码工作中，为了验证计算机编码规则的性能，预编码阶段不设定截止分数（或者说截止分数设为“0”），AIOCS系统对行业和职业的自动编码生产率分别为86%和81%。在正式编码阶段，分别设定行业和职业截止分数，最终在31小时内自动编码行业和职业填报文字各约2250万条。该编码方案取得的行业自动编码生产率为59%，对应行业自动编码有效性达94%；职业自动编码生产率为56%，有效性达92%。至于匹配概率低于截止分数、未能被计算机自动编码的行业和职业

34、填报文字各1000万余条，美国人口普查局选调300余名编码员，在AIOCS系统的辅助下用时28周完成了人工编码（Kirk等，2001）。AIOCS系统不仅具备计算机编码功能，还将人员培训、执行监督和质量核查纳入到规范化编码工作流程中。在编码前期的人员培训阶段，AIOCS设有计算机交互式培训、模拟编码、在线帮助和计算机返回多个潜在匹配职业时，一般只判断最高匹配概率是否高于截止分数。然而一些时候有多个潜在职业的匹配概率均高于截止分数，且匹配概率彼此相近，系统也会将这些职业代码推送给编码员进行人工决断。为了控制编码误差，编码方案中还设定一个“最低分数”，一旦匹配概率低于最低分数，认为计算机赋码结果

35、不具备参考价值，编码员将进行独立于计算机的人工编码。第 40 卷第 3 期孙望书孙旭：人口普查中行业和职业编码智能化 157 培训考核4项功能模块，为编码员提供标准化的培训课程和资料，帮助编码员适应工作平台和工具，提供实时的在线指导，以及对编码员进行统一的岗前测试。编码实施阶段，AIOCS系统对编码员的编码速度实行监督，对于编码速度异常的编码员，系统会进行提示和必要的干预。在AIOCS系统的支持下，美国人口普查局制定和实施了“随机抽样+独立验证”质量核查方案：首先，AIOCS系统从待编码总体中随机取出一部分行业和职业填报文字，标记为核验样本；其次，将核验样本复制三份重新汇入总体并随机分发

36、给所有编码员，使每条核验样本分别由三名不同编码员独立赋码；最后，基于核验样本的三次赋码结果测算样本编码的有效性和可靠性，进而估计待编码总体的编码质量（Kirk等，2001）。（二）我国人口普查中行业和职业编码的智能化实践人口基数大是我国的基本国情。2020年，我国开展了第七次全国人口普查（以下简称七普），这是全球范围内规模最大的社会调查。依照普查细则规定，按10%的抽样比例对调查户进行长表调查，行业和职业开放题是普查长表的调查项目之一。由此可见，我国第七次人口普查的待编码行业和职业填报文字数以亿计，编码任务空前繁重。根据国务院第七次全国人口普查领导小组办公室的统一部署，七普的行业和职业编码工

37、作由县（市、区）级普查机构利用计算机辅助编码方式集中进行。在行业和职业信息采集阶段，七普首次全面采用电子化数据采集方式，行业和职业等长表调查项目信息由普查员使用电子设备填报，取代了此前的纸质调查表；实时直接上报数据，集中部署数据处理工作。数字化信息采集方式既提高了人口普查信息的时效性，也避免了信息过录环节可能产生的再生性误差，提高了数据质量和精度。在编码员招募和培训阶段，县级普查机构选调具备一定劳动工资统计或经济统计经验的编码员，从工作责任和工作能力两方面对编码员进行岗前业务培训：一方面讲解编码工作的重要性和具体工作要求，强调编码工作的严谨性；另一方面在编码员了解本地区经济产业结构、劳动力市场

38、用工情况的基础上，要求编码员认真学习行业和职业分类原则及方法，熟悉行业和职业分类体系，掌握计算机赋码系统操作。此外，七普基于机器学习方法开发了计算机辅助编码工具，训练样本库包括2015年1%人口抽样调查、第四次全国经济普查、月度劳动力调查中的行业和职业填报文字与编码结果，以及行业和职业分类标准编制、历次修订中形成的词条字典与知识库。依照普查细则规定采用的国民经济行业分类（GB/T 4754-2017）和中华人民共和国职业分类大典（GB/T 6565-2015）将训练样本库编码对应调整为行业中类3位码和职业小类5位码。使用Jieba中文分词组件进行填报文字的分词处理，随即运用机器学习文本分类技术

39、实施编码模型训练。编码阶段，编码员进入人口普查数据处理平台智能赋码系统，在线获取待编码行业或职业填报文字；系统自动推荐与填报文字匹配概率最高的5个行业或职业，并将行业或职业类别及代码按照匹配概率降序呈现；编码员结合自身对填报文字的理解和判断，点选其中认为最恰当的行业或职业代码。智能赋码系统包含关键字检索功能，可通过模糊或精准查询对包含某关键字的行业和职业填报文字进行批量赋码。如果编码员认为系统推荐的行业或职业类别均不恰当，也可进入人工独立编码模块，根据平台提供的行业和职业分类编码表，按照（门类）大类、中类、小类的顺序依次分析判断填报文字对应的行业或职业类别，并手动赋码。编码工作进行期间，国务院

40、第七次全国人口普查领导小组办公室采取多项质量控制措施，如组织编码质量省级抽查，督促各地加强编码工作管理；根据编码结果倒查原始记录，纠正编码错误等。从编码质量核查流程上看，七普的行业和职业编码结果具有较高的可靠性水平。158 统计研究 2023 年 3 月四、行业和职业编码智能化研究的前沿进展与启示（一）行业和职业编码智能化研究的前沿进展自开展行业和职业编码以来，欧美发达国家已经在基础研究方面投入大量成本，采取政府和研究机构、商业机构合作的开发模式，鼓励大批编码智能化方法和质量控制研究。前沿研究主要有三个方向：第一，通过构建和优化分类模型与智能统计方法提升计算机编码性能；第二，尝试引入其他人

41、口特征变量补充编码信息；第三，发展新的行业和职业信息采集与编码形式。计算机编码性能提升方面，研究者在优化计算机文本分类方法上做出广泛尝试，通过实验量化比较和分析各类编码规则或模型的编码性能。研究文献表明，各类编码规则或模型在不同国家语言和调查项目间的编码性能存在较大差异。Biemer和Lyberg（2003）指出，由于一项瑞典消费者调查中的职业文本普遍为单字结构，精准匹配检索编码方法在此项调查中具有60%80%的生产率，明显高于此方法应用于其他国家职业编码的生产率。Measure（2014）基于对美国工伤与职业病调查的职业编码实证研究认为，逻辑回归和支持向量机算法的编码有效性高于朴素贝叶斯算法

42、。Gweon等（2017）、Esuli等（2019）指出，训练样本数目和模型参数组合设置对模型的编码性能具有显著影响。Schierholz（2014）在编码实践场景下比较了朴素贝叶斯和多项式贝叶斯编码模型的编码性能，通过分别绘制两个模型的生产率和有效性关系曲线，直观地发现在低生产率一侧多项式贝叶斯模型的编码有效性高于朴素贝叶斯模型，而在高生产率一侧则完全相反。总结而言，众多研究无法得出某一类编码规则或模型具有最优编码性能的一致性结论，目的在于面向各国语言、各类调查研究的特征和实际编码需要开发特定的适宜编码模型。研究者尝试通过引入其他人口特征变量提升行业和职业编码的有效性。美国AIOCS系统考虑

43、到职业编码较行业编码相对困难的经验事实，首先基于行业填报文字进行行业编码，随后将行业编码结果作为职业填报文字之外的补充信息加入职业编码规则中（Gillman和Appel，1994）。Thompson等（2012）尝试将被调查者年龄、性别等155个独立人口特征变量引入美国社区调查的行业和职业编码规则中，实证结果表明其中101个变量有助于提升行业编码规则性能，79个变量有助于提升职业编码规则性能。Measure（2014）引入美国工人从业所在州代码、所属组织机构类别代码等变量与职业填报文字联合构建编码模型，并有效提高了模型编码有效性。计算机编码方式的兴起为发展新的编码形式提供了有利工具。Tijde

44、nsn（2015）在荷兰一项网络调查中试验了利用封闭题采集职业信息，在其开发的在线语义匹配工具辅助下，67%的被调查者完成了自我编码。Schierholz等（2018）首先从经验出发论证了被调查者自我编码的科学性和成本优势，随即提出一种职业编码形式，即在面访中将计算机编码结果实时反馈给被调查者，辅助被调查者实地自我编码。这一编码形式由德国就业研究所委托给TNS公司在电话调查中试验应用，试验结果显示72.4%的被调查者对其本人的计算机职业编码结果表示认同。（二）我国行业和职业编码的智能化提升路径我国七普中使用计算机辅助编码系统，有效缩短编码时间、降低编码成本，是智能化行业和职业编码的一次成功实

45、践。然而，我国编码智能化研究仍处于起步阶段，亟待从以下4个方面提升计算机编码在我国社会精准化管理中的服务水平。第一，政府适度开放行业和职业脱敏资料，鼓励智能化编码方法和技术研究。普查数据质量一直受到各界广泛关注，国内专家学者重点围绕普查覆盖误差和内容误差展开深入研究（胡桂华，2011；第 40 卷第 3 期孙望书孙旭：人口普查中行业和职业编码智能化 159 胡桂华等，2017；吴婷等，2019；金勇进和陶然，2011；徐蔼婷和杨玉香，2015），而有关数据处理阶段以行业和职业编码误差为代表的数据再生性误差的探讨则十分少见。国内编码理论和智能化方法研究起步较晚，研究基础较为薄弱，可获得的原

46、始数据资料也相当有限。现有面向中文的智能化职业编码研究，仅任莉颖等（2012）、吴琼等（2019）利用中国家庭动态跟踪调查（Chinese Family Panel Studies，CFPS）职业信息，分别进行了人工编码和机器学习模型编码在性能和质量方面的探讨。在确保数据安全和信息脱敏的前提下，灵活、适度地定向开放部分行业和职业原始数据和编码工作资料，将有助于编码问题研究。第二，推进计算机自动编码，打造人口普查行业和职业编码全流程智能化链条。七普采用计算机辅助人工的编码方式，但尚未实践计算机自动编码。事实上我国已经积累了大量行业和职业编码资料，具备探索和制定计算机自动编码方案的基础条件。研究者

47、可以通过充分挖掘和分析编码资料，基于我国现有的、以及未来将进一步发展和完善的计算机行业和职业编码模型，实证测算截止分数、生产率与有效性之间的数量关系，开展计算机自动编码实验。继而，以计算机自动编码技术为基础，吸收国际先进经验，打造我国人口普查智能化集成系统，实现从前期人员培训、过程监督管理到后期质量核查的全流程智能化。此外，在集成系统的辅助下，可以尝试运用调查员实地编码和被调查者自我编码等实地、分散编码形式部分替代当前的事后、集中编码形式，以构成信息接收与编码核验之间的反馈回路。一方面计算机能够督促被调查者充分合理填报信息，另一方面被调查者能够纠正计算机引入的系统误差。这是一种既提高数据采集与

48、处理效率，又降低人员成本，同时提高数据质量的理想方案。第三，促进深度学习、句法分析等前沿中文文本挖掘技术在编码实践中的转化。中文具有独特的语言文化背景和文字特征，如中文文本的词语间没有分隔标志，语言结构可以相当复杂，语序灵活，词汇丰富，因此西文编码的技术和经验并不一定适用于中文环境。可喜的是，中文文本挖掘技术已经取得良好的研究进展，而计算机行业和职业编码可以被视为中文文本挖掘技术在统计调查工作中的一项具体应用。引进文本挖掘技术领域的前沿技术，如深度学习文本分类算法、中文预训练文本分类模型、依存句法分析等，可以丰富编码问题的研究基础，拓宽研究思路。此外，科研单位可以合力建立和维护一个优质开放的行

49、业和职业文本信息数据库，使之成为一项探讨中文短文本、多类别文本分类问题的典型数据源，吸引统计学、语言学、计算机等多个领域的研究者参与到实证场景下的行业和职业编码研究中来。第四，扩展行业和职业编码的社会化和商业化应用。计算机行业和职业编码技术的实践应用不仅局限于人口普查等大型经济社会调查的数据处理，也在劳动保护、医疗、保险、教育、税收等相关场景下具有应用价值（Measure，2014；谢莉花等，2017；Ikudo等，2019）。可以说，行业和职业编码技术是文本信息标准化的通用工具，是搭建劳动就业及相关领域良好数据环境的切入点。发达国家和国际组织在行业和职业编码的社会化、商业化应用方面积累了一定

50、经验，值得我国借鉴。美国、英国和欧盟将行业和职业编码工具作为一项公共服务免费向公众开放，便于公众检索求职招聘、职业健康安全等信息；英国国家统计局网站鼓励使用者反馈未能被编码工具正确赋码的文字描述，这一做法既能为优化编码工具带来启发，也为发现新兴职业、修订分类标准积累素材。数字经济时代到来，数据成为提升我国社会智能水平和运行效率的基础性战略资源，编码的应用场景和实践需求也将随之增多。中文编码智能化研究具有广阔的前景，期待出现更多本土化、有针对性研究。160 统计研究 2023 年 3 月参考文献 1 边燕杰,李路路,蔡禾.社会调查方法与技术:中国实践M.第1版.北京:社会科学文献出版社,200

展开阅读全文