收藏 分销(赏)

2024年中国上市公司数字化转型报告.pdf

上传人:宇*** 文档编号:4662789 上传时间:2024-10-08 格式:PDF 页数:26 大小:1,002.47KB
下载 相关 举报
2024年中国上市公司数字化转型报告.pdf_第1页
第1页 / 共26页
2024年中国上市公司数字化转型报告.pdf_第2页
第2页 / 共26页
2024年中国上市公司数字化转型报告.pdf_第3页
第3页 / 共26页
2024年中国上市公司数字化转型报告.pdf_第4页
第4页 / 共26页
2024年中国上市公司数字化转型报告.pdf_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、 中国上市公司中国上市公司数字化转型报告数字化转型报告 2024 李涛李涛 聂辉华聂辉华 金星晔金星晔 左从江左从江 方明月方明月 I 摘要摘要 当今世界,新一轮科技革命和产业变革加速推进,以大数据、云计算、物联网、区块链、人工智能等为代表的新一代数字技术从根本上改变了传统经济的生产方式和商业模式,成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。企业数字化转型是我国转变发展方式、优化产业结构、转换增长动力的重要内容,是实现质量变革、效率变革、动力变革的关键举措。在此背景下,精准把握中国上市公司数字化转型的现实情况,明确数字化转型进度与成效,有助于提高数字化转型的效率和效果,

2、并为后续的数字化转型战略提供重要参考。全面评估中国上市公司数字化转型现状的核心是企业数字技术使用的识别。而现有研究对企业数字化转型的测度仍存在着测度对象不够统一明确与测度方法不够科学准确的问题,难以准确反映企业数字化转型的现实情况。这导致很多研究结论不可比较、难以复制和相互冲突。为了解决上述难题,本报告使用金星晔等(2024)的做法,利用前沿的机器学习方法和大语言模型,基于 2006-2023 年中国上市公司年报文本,立足全面体现各种数字技术在企业中的实际使用状况,构造了一套新的企业数字化转型指标。该指标具有对象明确、指标齐全、准确度高和可复制的优点。在此基础上,本报告对中国上市公司数字化转型

3、现状进行了深入研究。首先,本报告使用金星晔等(2024)的做法,更加准确地测度了企业数字化转型情况。已有研究常用方法有三种,包括词频法、客观指标法与问卷法。这些方法或存在较大测度误差,或者使用范围有局限,存在主观性和覆盖范围较少的偏差。本报告将数字技术具体划分为大数据、人工智能、移动互联、物联网、云计算和区块链六类,在人工阅读、标注大量上市公司年报文本构建训练集的基础上,采用百度开发的中文大语言模型 ERNIE(Enhanced Representation through Knowledge Integration)进行训练,逐句分析年报文本,从句子层面判断企业数字技术应用情况。这一方法较好

4、地克服了文本识别不准确的问题,与企业数字技术使用现实高度吻合。其次,本报告全面分析了中国上市公司数字化转型现状。(1)数字化进程不断深入:)数字化进程不断深入:企业数字化比例持续攀升。企业数字化比例持续攀升。从 2006 年开始,上市公司中使用数字技术的企业数量与使用数字技术的比例持续上升。直至 2023 年,上市公司中使用数字技术的企业数量上升至 4722家,使用数字技术的比例上升至91%,绝大部分上市公司均使用了数字技术。(2)小型企)小型企业数字化转业数字化转型:资源与能力瓶颈待突破。型:资源与能力瓶颈待突破。2006-2023年,小型企业数字化企业比例为52%。大中型企业数字化比例高于

5、小型企业,小型企业仍然存在“不会转”、“不愿转”、“不敢转”等现实问题,在数字化转型中往往陷入自身资源与能力不足的困境。(3)服务行业)服务行业数字化趋势显著:通信、银行、计算机等行业全面实现数字化。数字化趋势显著:通信、银行、计算机等行业全面实现数字化。数字化企业比例最高的五个行业是:通信(100%)、银行(100%)、计算机(100%)、传媒(98%)、电子(97%)。(4)新冠疫情助推:商贸零售业数字化转型实现跃进。)新冠疫情助推:商贸零售业数字化转型实现跃进。受新冠肺炎疫情的影响,商贸零售类企业的数字化比例在 2020-2021 年期间大幅提升,从 82%上升至 90%。(5)新)新能

6、源车崛起:引领汽车相关行业数字化比例激增。能源车崛起:引领汽车相关行业数字化比例激增。2020-2021年,随着新能源车零售量的显著增加,汽车相关行业数字化比例大幅增加,从79%上升至94%。(6)地区差异显现:经)地区差异显现:经济发达省份数字化进程领先。济发达省份数字化进程领先。经济发达省份引领数字化进程,多省份数字化企业比例超七成,全国数字化进程迅速普及。(7)国企数字化转型加速:与非国企差距不断缩小。)国企数字化转型加速:与非国企差距不断缩小。政策推动作用下,国有企业加快数字化转型步伐。2020 年以来,国有企业加速数字化进程,已经接近非国有企业的数字化水平。(8)初创企业积极布局:转

7、型比例高于老牌企业。)初创企业积极布局:转型比例高于老牌企业。随着企业年龄的增长,数字化企业比例越来越低。成立 1-15 年的企业中,有 94%的企业进行了数字化转型;成立 16-25 年的企业中,有 91%的企业进行了数字化转型;成立 26 年及以上的企业中,这一比例为88%。(9)高成长性与创新性驱动:科创板与创业板企业数字)高成长性与创新性驱动:科创板与创业板企业数字II 化比例领先。化比例领先。上交所科创板企业与深交所创业板企业数字化比例分别为 97%、95%。上交所主板企业与深交所主板企业数字化比例则分别为 88%、89%。(10)政府重视度与数字)政府重视度与数字化转型:在政府更重

8、视的地区,企业数字化转型比例高。化转型:在政府更重视的地区,企业数字化转型比例高。政府重视程度对国有企业与非国有企业数字化比例均有推动作用,在政府重视程度高的地区,企业数字化转型的比例更高。此外,本报告评价了 2023 年数字化转型程度最高的二十家公司、分行业统计了各行业内数字化程度最高的五家公司以及数字化转型前五十强。最后,本报告提出了推进企业数字化转型的政策建议。第一,加强数字化转型引导,第一,加强数字化转型引导,激发数字化转型内生动力。激发数字化转型内生动力。政府应分行业分领域遴选企业数字化转型标杆、加强企业数字化转型相关政策衔接,并结合当地实际出台配套措施,针对“转什么”、“如何转”、

9、“怎么转”等问题加强分类指导和跟踪服务。第二,制定有针对性政策,促进数字化均衡第二,制定有针对性政策,促进数字化均衡发展。发展。政府应着重支持小型企业、制造业及房地产业、处于经济发展水平较低地区的企业、国有企业、成立时间较久的企业、主板企业的数字化转型,促进数字化均衡发展。第三,第三,营造良好数字生态,优化数字化发展环境。营造良好数字生态,优化数字化发展环境。政府应营造开放数字生态、完善数据安全保障体系,强化数据安全监管,规范数字市场行为,确保数字经济的健康有序发展。同时,政府应加大新型基础设施建设力度,优化中小企业数字化转型外部环境,降低企业数字化转型的门槛和成本,为企业数字化转型提供有力支

10、撑。本报告本报告的媒体引用的媒体引用方式方式:李涛、聂辉华、金星晔、左从江、方明月,2024,中国上市公司数字化转型报告 2024,中央财经大学中国互联网经济研究院研究报告。III 作者简介作者简介 李涛,中央财经大学经济学院教授、博士生导师。中央财经大学副校长。国家级高层次人才项目入选者,“新世纪百千万人才工程”国家级人选,国务院政府特殊津贴获得者,教育部新世纪优秀人才支持计划人选,北京市卓越青年科学家项目人选;中国商业史学会副会长,中国职业技术教育学会常务理事。主要研究方向为数字经济、文化与经济等。在经济研究、管理世界、American Journal of Agricultural Ec

11、onomics等中英文权威期刊发表论文九十余篇。聂辉华,中国人民大学经济学院教授、中国人民大学企业与组织研究中心执行主任,先后入选教育部青年长江学者项目、国家万人计划哲学社会科学领军人才项目以及北京高校卓越青年科学家项目。他近期主要关注政企关系和数字化治理,在 Review of Economics and Statistics、Journal of Development Economis、中国社会科学、经济研究等国内外顶级刊物上发表了几十篇学术论文。他向中央提交的多篇内参获得了党和国家领导人的重要批示。金星晔,中央财经大学经济学院副教授,中央财经大学青年龙马学者,中国互联网经济研究院研究员

12、,清华大学中国经济思想与实践研究院研究员,全国数字经济教育发展联盟秘书长。他近期主要关注数字化转型、企业 ESG 发展以及长期经济发展问题。研究成果发表于经济研究、世界经济、China Economic Review 等中文权威期刊和 SSCI英文期刊。主持北京市社会科学基金项目,担任国家社科基金重大项目子课题负责人。获北京市第十六届哲学社会科学优秀成果奖二等奖。左从江,中央财经大学经济学院博士研究生,主要关注数字化转型、企业 ESG 以及文化与经济等。研究成果发表于经济研究等期刊。获上海市优秀毕业生、北京市优秀毕业生等荣誉称号。方明月,中国农业大学经济管理学院副教授、博士生导师,担任国家自然

13、科学基金项目通讯评审专家、教育部学位中心论文评审专家、中国数量经济学会理事,兼任中国人民大学企业与组织研究中心研究员、中央财经大学中国互联网经济研究院特聘研究员。主要研究方向为公司金融、绿色金融、数字经济,在经济研究、管理世界、世界经济、金融研究、数量经济技术经济研究、Economic Modelling、China&World Economy、Review of Development Economics 等国内外重要学术刊物上发表了三十余篇论文。IV 目录目录 一、数字化转型背景.1 二、数字化转型识别策略.1 三、企业数字化转型现状.6(一)数字化进程不断深入:企业数字化比例持续攀升.6

14、(二)小型企业数字化转型:资源与能力瓶颈待突破.7(三)服务行业数字化趋势显著:通信、银行、计算机等行业实现全面数字化.8(四)新冠疫情助推:商贸零售业数字化转型实现跃进.9(五)新能源车崛起:引领汽车相关行业数字化比例激增.10(六)地区差异显现:经济发达省份数字化进程领先.10(七)国企数字化转型加速:与非国企差距不断缩小.11(八)初创企业积极布局:转型比例高于老牌企业.13(九)高成长性与创新性驱动:科创板与创业板企业数字化比例领先.13(十)当地政府重视度与数字化转型:政府重视程度高促进企业转型.14(十一)数字化转型领军:转型程度前二十强.16(十二)行业数字化先锋:转型标杆前五强

15、.17(十三)数字化转型黑马:进步幅度前五十强.18 四、结论与政策建议.19 参考文献.20 数据下载.21 媒体联络.21 致谢.21 中国上市公司数字化转型报告 2024 1 一、一、数字化转型背景数字化转型背景 在大数据、人工智能、区块链等数字技术加速创新,日益融入经济社会发展各领域背景下,数字技术赋能实体经济创新发展,成为实现经济高质量发展的重要着力点。党的十八大以来,党中央高度重视发展数字经济,将其上升为国家战略。习近平总书记在十九届中央政治局第三十四次集体学习时亦强调:“发展数字经济意义重大,是把握新一轮科技革命和产业变革新机遇的战略选择。”经过数年发展,数字经济成为中国国民经济

16、的重要组成部分。中国信通院发布的中国数字经济发展研究报告(2023)指出:2022 年中国数字经济规模达到 50.2 万亿,占 GDP 的比重达 41.5%,超过了第二产业占 GDP 的比重39.9%。与传统经济相比,数字经济借助大数据、区块链等数字技术,不断释放数据要素价值,引发了生活生产方式与治理方式的全方位变革,从根本上改变了当下经济发展方式和产业格局。在数字经济快速发展的背景下,数字化转型已成为我国应对国内外环境重大变化复杂局面,抢占未来竞争制高点的战略选择。而企业作为国民经济和社会发展主力军,是数字化转型的重要主体。我国政府高度重视企业数字化转型的发展,从“十四五”数字经济发展规划到

17、中小企业数字化赋能专项行动方案,一系列政策文件相继出台,为上市公司数字化转型提供了坚实的政策支撑和明确的发展方向。2023 年政府工作报告亦指出:“加快传统产业和中小企业数字化转型,着力提升高端化、智能化、绿色化水平。”企业数字化转型是我国转变发展方式、优化产业结构、转换增长动力的重要内容,是实现质量变革、效率变革、动力变革的关键举措。所谓数字化转型,是企业借助数字技术变革其生产方式、经营模式与管理方式,重构商业模式的过程。通过数字化转型升级生产方式、管理模式和组织形式、提高企业生产效率,亦是企业打造核心竞争力、实现高质量发展的必然选择。然而,企业数字化转型是涉及生产经营模式的全方位系统性变革

18、,需投入大量人力物力资源,是涉及未来发展方向的重大战略抉择,可能存在着“不会转”、“不愿转”、“不敢转”等现实问题。在此背景下,多角度分析中国上市公司数字化转型现状,全面把握中国数字化转型发展进程,有助于科学高效推进上市公司全面数字化转型,并为后续企业数字化发展推进战略提供支撑。精准识别企业数字技术使用情况是全面评估中国上市公司数字化转型现状的关键。而现有研究在企业数字化转型的测度上尚未达成共识,且均存在着测度对象不够统一明确与测度方法不够科学准确的问题。这导致很多研究结论不可比较、难以复制和相互冲突。在充分扬弃现有研究利弊的基础上,本报告使用金星晔等(2024)的做法,利用前沿的机器学习方法

19、和大语言模型,基于 2006-2023 年中国上市公司年报文本,立足全面体现各种数字技术在企业中的实际使用状况,构造了一套新的数字化转型指标。该指标具有对象明确、指标齐全、准确度高和可复制的优点。在此基础上,本报告对中国上市公司数字化转型进行了全面研究。二、二、数字化转型识别策略数字化转型识别策略 1.第一步:确定文本分析对象第一步:确定文本分析对象 由于数字化转型涉及企业组织结构、内部管理、业务流程等方方面面的变革,难以在财务指标中完整显示,但上市公司有强烈的意愿在年报中披露,以获得资本市场的青睐,因此文献中通常使用基于年报的文本分析法来衡量数字化转型水平(方明月等,2022)。借鉴已有文献

20、的做法,本报告同样采用上市公司年报作为企业数字化转型指标的文本基础。2 本报告通过爬虫和手动整理收集了上市公司年报,来源包括 Wind、巨潮资讯网和上市公司官网。由于 2007 年 1 月 1 日起施行的新企业会计准则对企业财务指标要求有较大变化,而 2006年年报实际披露于 2007年一季度,因此我们选择 2006年至 2023年间披露的上市公司年报进行分析。在年报中,“管理层讨论与分析”(MD&A)分析了企业在报告期内的经营情况、描述未来的发展战略并披露公司所面临的风险状况。因此,已有文献几乎都选择这个部分作为分析文本(例如,袁淳等,2021;赵宸宇等,2021)。还有部分公司选择在“目录

21、、释义及重大风险提示”中披露公司可能面临的风险,其中也可能包含企业数字化转型相关信息。因此本报告选择“管理层讨论与分析”和“目录、释义及重大风险提示”这两个章节作为文本数据。2.第二步:构建待预测句库和待标记句库第二步:构建待预测句库和待标记句库 本报告先将全部文本按照句号和分号分割,得到待预测句库。由于年报中大多数句子与数字化转型无关,如果完全随机抽取句子进行阅读,得到的大多数标签都将与数字技术无关,为了提高人工阅读的效率并防止上下文对人工阅读产生干扰,需要使用关键词抽取具有不同代表性的年报句子,并与随机抽取的句子一起构成待标记句库(金星晔等,2024)。为此,我们先定义数字技术,并构建数字

22、技术词典。在定义数字技术时,我们首先考虑政策口径。国家统计局在数字经济及其核心产业统计分类(2021)中提到,产业数字化代表性技术为物联网、人工智能、大数据、云计算、移动互联等数字技术。国务院和工信部等部门多次出台政策文件,提出了促进大数据、人工智能、云计算、物联网、移动互联和区块链等数字技术发展的指导意见。其次是企业界的定义。腾讯董事会主席马化腾在The Chinese Digital Economy一书中指出:近年来,移动互联、云计算、大数据、人工智能、物联网、区块链等数字技术不断突破和融合发展,推动了数字经济快速发展(Ma et al.,2021)。综合以上定义,本报告将数字技术分为六种

23、类型:大数据、人工智能、移动互联、云计算、物联网和区块链(金星晔等,2024)。表1 展示了具体的数字技术的定义以及例子。表 1 数字技术定义 定义定义 例子例子 大数据:大数据:传统处理技术、算法无法处理的大型复杂数据集;具有数据体量巨大、数据类型多、处理速度快、价值密度低,商业价值高、数据真实性的特征 对象储存、分析型数据库、关系型数据库、键值数据库、批量计算、时序数据库、数据集成、数据建模 人工智能:人工智能:利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统 知识图谱、自然语言处理、增强现实、监督学

24、习、无监督学习、强化学习、深度神经网络 移动互联移动互联:互联网的技术、平台、商业模式应用与移动通信技术结合并实践的活动的总称 移动搜索、移动中间件、移动操作系统、移动通信网络 云计算:云计算:是一种技术手段,通过云计算,将有能力把现有的信息孤岛进行数据、信息整合,实现“大数据”集中处理和综合分析,进行更加有效的策略制定 并行计算、弹性云服务器、工业云、公有云、混合云 物联网:物联网:通过一定的设备,把物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络 RFID、电子标签、射频识别、读写器、传感器、微纳传感器、红外感应器、激光扫描器 区块链区块链:将数据

25、区块以顺序相连的方式组合成的链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本 区块链、区块结构、分布式网络、分布式计算、智能合约、分布式账本 通过构建关键词词典缩小随机阅读的范围,这种做法在类似研究中也经常使用。例如,Chen et al.(2019)使用有监督的机器学习方法对金融科技相关专利文本进行分类。在人工阅读之前,他们基于自行构造的金融词典,在原文本库的基础上筛选出符合要求的文本,然后再抽取文本进行标注。中国上市公司数字化转型报告 2024 3 在定义了六类数字技术后,本报告基于政策文本、研究报告和已有文献,并结合人工阅读,收集整理了一个包含了311个数字技术关键词的词

26、典(表2)。之后,我们抽取了包含 10 个及以上不同关键词的年报文本,并取出其中含有关键词的句子。同时,为了提高模型对不含关键词句子的预测能力,我们又随机抽取了年报中的其他句子。由于上市公司总数逐年增加,如果直接在上述两部分句子中进行随机标注,将导致大部分被标注的句子靠近当前年份(金星晔等,2024)。为了解决年份分布不均匀的问题,在这两部分句子的基础上,我们按照年份分组,在每个年份中取出相同数量的句子,再从这部分均匀分布的句子中进行不放回的随机抽取,得到本研究的待标记句库。表 2 关键词列表 类型类型 关键词关键词 大数据 大数据、海量数据、异构数据、big data、对象储存、分析型数据库

27、、关系型数据库、键值数据库、批量计算、时序数据库、数据集成、数据建模、数据可视化、数据脱敏、数据挖掘、数据资源、图数据库、文档数据库、隐私计算、元数据管理、数据资产、数据管理平台、数据技术、EB级存储 人工智能 AI、人的智能、人类能力、人类智能、机器学习、人工智能、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、虚拟现实、增强现实、监督学习、无监督学习、强化学习、深度神经网络、深度学习、迁徙学习、主动学习、演化学习、神经网络、量子计算、认知计算、机器智能、增强智能、机器人(含医疗机器人、陪伴机器人等)、计算机视觉、计算成像学、图像理解、三维视觉、动态视觉、视频编解码、情感交互、体

28、感交互、脑机交互、自然语言生成、自然语言问答、机器翻译、语义理解、问答系统、支持向量机、决策树、深度置信、卷积神经、受限玻尔兹曼、循环神经、粒子群优化、多目标演化、身份识别、CIMS、人证核验、人脸识别、虹膜识别、指静脉识别、声纹识别、步态识别、价值挖掘、个性化推荐、Artificial、Intelligence、人机对话、人机交互、语音测评、语音交互 移动互联 移动搜索、移动中间件、移动操作系统、移动通信网络、4G、5G、3G、无线局域网(WLAN)、无线 MESH 网络、IEEE、802.21、移动搜索、移动社交网络、IOS、Android、手机百度、手机商店、手机广告、携程网、美团、大众

29、点评、平板电脑、移动上网设备、LBS、移动支付、移动导航、移动定位、移动社交、手游、移动电子商务、手机广告、移动应用商店、手机客户端、微信、微店、移动支付、手机购物、支付宝、移动办公、移动即时通信、APP、手机音乐、抖音、短视频、直播带货、手机订单、滴滴打车、移动电子政务、公众号、微店、手机淘宝、移动智能终端、智能手机 云计算 并行计算、弹性云服务器(ECS)、多重租赁技术、多租户技术、访问控制技术、分布式并行编程模式、分布式存储、分布式云、分级存储、负载均衡技术、工业云、公有云、混合云、基础设施即服务(IaaS)、集成平台即服务(IPaaS)、教育云、金融云、密钥管理、内部云、平台即服务(P

30、aaS)、区域云、软件即服务(SaaS)、私有云、同态加密、网格计算、效用计算、行业云、虚拟化技术(VT)、虚拟机、医疗云、应用程序平台即服务(APaaS)、应用虚拟化、云安全、云备份、云仓储、云操作系统、云储存、云存储、云端、云端化、云端管控、云端灾难恢复、云端智慧化信息搜索、云服务、云管理、云呼叫、云互动、云计算、云计算平台管理、云技术、云架构、云媒体、云密文、云平台、云上容灾、云社交、云手机、云电话、云手游、云数据管理、云数据加密、云数据中心、云搜索、云物流、云业务、云营销、云硬盘(EVS)、云游戏、云原生技术、云战略、云支付、云制造、云转码、中心云、专有云、资源虚拟化、移动云(OSS)

31、、视频即服务(VaaS)、视频监控即服务(VSaaS)、视频会议即服务(VCaaS)物联网 RFID、电子标签、射频识别、读写器、传感器、微纳传感器、红外感应器、激光扫描器、条码、条形码、红外扫描、识读器、微机电系统、MEMS、传感网、物品标识、磁卡识别、PML、射频标签、GPS、全球定位系统、GIS、ZigBee、蓝牙、工业无线网络、无线传感、WSN、IrDA、NFC 技术、WiMAX、工业无线技术、HART、M2M、NB-IoT、车联网、可穿戴设备、在线监测、定位追溯、远程控制、无线 pos 10个及以上这个阈值是一个经验数值,更低的阈值会包含更多的年报,但可能会导致人工阅读的效率降低。另

32、外,不直接从待预测句库中找含有关键词的句子是因为,直接抽取句子会导致句子的来源难以确定。而先抽取年报再取句子不仅可以满足随机性,还可以保证句子的来源可回溯,从而方便打标签以及排查错误。4 类型类型 关键词关键词 机、远程监控、物联网、工业物联网、嵌入式系统、边缘计算、IoT、Internet of Thing 区块链 区块链、区块结构、分布式网络、分布式计算、智能合约、分布式账本、链式数据结构、去中心化、信息不可篡改、共识机制、对等式网络、共识机制、侧链、多链、块链式数据、梅克尔树、工作量证明、数字货币、许可链、非许可链、公有链、私有链、联盟链、比特币、以太坊、以太币、ETH、BaaS、数字资

33、产、非同质化代币、NTF、IOC代币、产品溯源、libra、加密货币 3.第三步:对待标记句库的句子进行人工标注第三步:对待标记句库的句子进行人工标注 人工标注的思路是,先判断企业使用了哪种/哪几种数字技术,进而判断企业是否进行了数字化转型。人工标注的目的是形成训练集、测试集和验证集,为后面的机器学习打下基础。我们将24位研究人员分为12组,每组两人定期轮换。为了统一对句子打标签的标准,在正式打标签之前,我们多次讲解打标签任务的详情,并对容易混淆的标签进行了重点讲解和示范。明晰标准后,我们进行了充分的打标签训练,并对标注过程中发现的难点和疑点定期商讨。正式标注时,待标记句库中的每个句子都会被两

34、位研究成员标记。如果双方标注结果一致,则句子标签被记录;对存在分歧的句子,经过全部成员讨论后确定其标签;对难以确定标签的句子,不纳入训练集。最后,所有待标记句库中的句子被分类至八个标签下,包括六种新型数字技术、非新型数字技术、非数字技术。4.第四步:采用有监督的机器学习方法训练模型第四步:采用有监督的机器学习方法训练模型 度量数字化转型的关键步骤是训练机器学习模型,让人工智能技术替代人工来判别文本中包括数字技术关键词是否意味着真正进行了数字化转型,从而避免第二类统计错误(纳伪)。参考金星晔等(2024)的研究,我们使用百度开源的、内嵌了 ERNIE 的PaddleHub 框架来开展模型训练,用

35、其内置的 tokenizer 函数快速将句子转为 ERNIE 模型训练所需要的格式。我们将全部被标记的句子按照 8:1:1 的比例分为训练集、测试集和验证集。同时,为了比较不同模型之间的分类性能,我们也训练了 SVM(支持向量机)和Neural Networks(神经网络)两类模型。机器学习的主要目的是识别文本是否以及体现了哪种数字技术。对于这种分类模型,通常用精确度(Precision)、召回率(Recall)和正确率(Accuracy)来度量模型的性能(金星晔等,2024)。考虑到训练集各类型标签数量分布不均,通常使用 F1-Score 来衡量模型的整体分类能力。表 3 比较了不同模型在相

36、同训练集上的表现。ERNIE 模型的精确度、召回率、正确率和 F1-Score 分别达到了 81%、70%、93%和 75%,并且在各个性能指标上都是最佳,这也是本报告最终选择使用 ERNIE模型的原因。表 3 不同机器学习算法的分类性能 Precision Recall Accuracy F1 ERNIE 81.1%70.0%92.9%75.1%Neural Networks 73.4%64.7%92.5%68.8%SVM 78.0%56.3%92.4%65.4%5.第五步:采用第五步:采用 ERNIE 模型构造数字化转型指标模型构造数字化转型指标 非新型数字技术指传统的数字技术或者数字技术

37、的泛称。例如,互联网、宽带、通信技术、网购、平台经济、数字化、数字技术、智能化等提法。Precision度量全部被预测为 Positive类(“是”)的句子中,真的是 Positive类的比例;Recall是模型能够将一份年报中全部Positive类句子找出来的能力;Accuracy 是度量模型的分类在多大程度上是正确的能力,包括了 Positive 类和 Negative 类(“否”),F1是 Precision和 Recall的调和平均数。假设一份文本中有 100 个句子,其中 10句经人工判断被认为与数字技术相关,模型预测全文有 12句与数字技术相关,比对后发现模型预测出的 12 句中有

38、 8句与人工判断的结果一致,则 Precision值为 8/12=0.75,Recall值即为 8/10=0.8,两个指标的区别主要在于分母,此外该结果说明模型对 90句 Negative 类的判断有 4句错误,对 10句 Positive 类的判断也有 2句的错误,则 Accuracy 即为(10-2)+(90-4)/100=0.94。F1=2*Presicion*Recall/(Precision+Recall)=0.774194。中国上市公司数字化转型报告 2024 5 基于 ERNIE 大语言模型,我们对 2006-2023 年待预测句库中的每一句文本进行预测,判断企业是否使用了数字技

39、术以及使用了何种数字技术。我们分别构造了两类指标:(1)企业数字化转型哑变量,即公司在当年只要使用了大数据、人工智能、移动互联、云计算、区块链和物联网中的任意某种技术,则指标赋值为 1,反之为 0。(2)企业数字化转型程度指标,分别从公司使用数字技术的相关句子数量与其占当年年报全部句子数量的比例两方面衡量。基于此方法所构造的数字化转型指标在最大程度上克服了文本识别不准确的问题,与企业数字技术使用现实高度吻合,具有对象明确、指标齐全、准确度高和可复制的优点,有效克服了现有研究在测度数字化转型方面所存在的问题(金星晔等,2024)。现有文献在测度企业数字化转型程度时,通常使用了三种方法。第一种方法

40、是客观数据法,这包括计算本企业与数字技术相关的软件投资或硬件投资占总资产的比例(Mller et al.,2018;刘飞和田高良,2019;祁怀锦等,2020),基于调查数据度量企业内机器人的使用(Acemoglu&Restrepo,2020)或者分析预测工具的使用(Brynjolfsson et al.,2021),基于行业计算机软硬件投资额度量行业的信息技术密度(IT Intensity)(Chun et al.,2008)。然而,此方法有两个缺点。第一,范围太窄,只适合度量某一种具体的数字技术的非人力成本投入。例如,某个企业招聘了从事数字化转型的工程师,但是支付给工程师的工资成本并不能体

41、现为数字化硬件或软件的投入,此时就会被漏记。第二,度量比较粗糙。例如,笼统地统计数字技术硬件或软件的做法,无法区分不同类型数字技术的应用。第二种方法是问卷法,即使用问卷调查获取相关数据,通过企业对数字技术使用相关题项的回答来测度其数字技术使用水平。该方法则存在调查成本高、数据量受限、不可复制以及主观偏误等问题,且受抽样方法影响,准确度有待验证。第三种方法,也是最主流的方法词典法,即先构建一个包含各种数字技术的关键词词典,然后根据这些关键词在上市公司年报中“管理层讨论与分析”部分出现的次数或比例,构建企业数字化转型指标。一个上市公司年报中提及数字技术的次数或者比例越高,表示企业的数字化转型程度越

42、高。很多研究企业数字化转型的文献直接使用了 CSMAR 数据库自带的数字技术词频统计表(例如,黄逵友等,2023;耀友福和周兰,2023),作为企业数字化转型程度的指标。CSMAR词典总共包含了 62个数字技术关键词,例如“机器学习”、“数字货币”、“物联网”和“数据挖掘”,并且分为四类技术:人工智能技术(27 个关键词)、区块链(8个关键词)、云计算(17个关键词)和大数据(10个关键词)。以 CSMAR 为代表的词典法存在的第一个问题是,词典构建不完备,即它遗漏了不少属于数字技术但是未被纳入词典的关键词。在统计学上,这属于第一类错误,即“弃真”。表 4 的一些例句表明,一些明显属于数字技术

43、的关键词,例如“云+API”、“OCR”、“小语种识别”和“图像识别”,均未被收录到 CSMAR的关键词词典。表 4 CSMAR词典的遗漏问题 例句例句 遗漏问题遗漏问题 二是聚焦在出行、医疗、教育等用户自然生活需求的场景构建,通过“云+API(应用程序编程接口”的方式输出金融服务能力,提高客户粘度与产品渗透率)云+API 能够表示企业使用了云计算等数字技术 利用光学字符识别技术(OCR 赋能证件识别,识别成功率达 98%以上,提升了业务审核效率 OCR是人工智能技术的运用 研发完成通过较小代价提升方言与小语种识别可用性的技术路径,方言与维语、藏语识别效果大幅提升 小语种识别等关键词也能够表示

44、企业使用了人工智能技术 上市公司(股票代码为 600036)2018年年报。上市公司(股票代码为 000001)2020年年报。上市公司(股票代码为 002230)2017年年报。6 配合先进的图像识别算法可保证图像识别正确率95%图像识别能够表示企业使用了人工智能技术 之所以会出现关键词遗漏,是因为这些关键词都是研究者根据部分文献人为选定的词语,而每个人选择的标准又很难统一。在实践中,各种数字技术层出不穷,新的名词不断涌现,因此用词典法来测度数字化转型必然存在“挂一漏万”和更新迟滞的问题。事实上,除了 CSMAR的关键词词典,其它文献使用的关键词词典也存在明显的遗漏问题。人为选择关键词导致的

45、附带问题是,由于每个研究者的主观标准不同,选择范围不同,这导致不同文献使用的关键词差异很大,从而基于不同词典构造的数字化转型指标缺乏可比性。以公开了关键词词典的几篇代表性文章为例。吴非等(2021)的词典包含了 76 个关键词,李云鹤等(2022)包含了 95 个关键词,杨金玉等(2022)包含了 76 个关键词,方明月等(2022)包含了 112 个关键词。从词典范围来看,方明月等(2022)包含的关键词最多,CSMAR 最少,这导致这些词典之间的重合度不高。例如,CSMAR 词典与吴非等(2021)、李云鹤等(2022)均有 39个关键词相同,相同的关键词占 CSMAR词典总数 62个的比

46、例(即重合度)为 63%。不过,吴非等(2021)和李云鹤等(2022)的关键词又不完全相同,后者比前者多了 19 个关键词。此外,词典个数最多的方明月等(2022)与词典个数第二多的李云鹤等(2022)有 19 个关键词相同,重合度为 17%。第二个问题是,词典法存在表意不真实的问题,即错误地将一些并不表示企业数字化转型实践的内容包括在内,这属于统计学上的第二类错误,即“纳伪”。仍以 CSMAR 为例。在一些上市公司的年报中,即便某个句子中包含了数字技术关键词,根据句意也不能判断该企业进行了数字化转型。具体来说,这包括三种情况:第一,句子采用了否定表述;第二,公司可能表示将在未来进行数字化而

47、不是现在;第三,企业可能描述的是行业的发展背景而不是自身行动。这些情况都会导致词典法出现误判。表 5 提供了这三种情况的一些例子。表 5 CSMAR词典的表意错误问题 例句例句 表意错误问题表意错误问题 为了避免项目存在的不确定性与技术研发风险,公司暂时将智能教育机器人研发中心项目推进节奏放缓,因此尚未对该项目有较大的投入 企业否定了数字化转型 未来公司将利用物联网行业高速发展的有利环境,努力扩大业务规模并提高公司盈利能力 描述的是未来而不是当前 2021 年,公司将稳步拓展大屏与专业显示器业务,进一步丰富产品品类,充分利用 5G 基站建设、特高压、城际轨道交通、新能源汽车充电桩、大数据中心、

48、人工智能、工业互联网七大领域发展带来的新机遇 描述的是宏观发展情况,而不是目标企业数字化 三、三、企业数字化转型现状企业数字化转型现状(一)数字化进程不断深入:企业数字化比例持续攀升(一)数字化进程不断深入:企业数字化比例持续攀升 企业数字技术的采纳与应用比例呈现出稳步上升的趋势。企业数字技术的采纳与应用比例呈现出稳步上升的趋势。依据上文所述企业数字化转型识别策略,图 1 描绘了利用上市公司数据所做的分年份数字化企业统计图。新一轮工业革命背景下,我国政府高度重视数字化转型发展,围绕加快新型基础设施建设、推动行业数字化转型、促进融通发展等方面作出重要部署,数字化进程不断加快。总体而言,从2006

49、 年开始,上市公司中使用数字技术的企业数量与使用数字技术的比例持续上升。至 上市公司(股票代码为 002767)2017年年报。上市公司(股票代码为 300010)2019年年报。上市公司(股票代码为 603236)2019年年报。上市公司(股票代码为 000727)2020年年报。中国上市公司数字化转型报告 2024 7 2023年,上市公司中使用数字技术的企业数量上升至 4722家,使用数字技术的比例上升至91%,绝大部分上市公司均使用了数字技术。随着新冠肺炎疫情的全球蔓延与持续影响,数字化转型进程显著加速。随着新冠肺炎疫情的全球蔓延与持续影响,数字化转型进程显著加速。一方面,大量传统企业

50、加速数字化转型,以应对疫情带来的经营压力和市场变化。另一方面,新兴数字化企业也借助疫情带来的机遇,迅速发展壮大。在 2020-2021 年期间,受新冠肺炎疫情的影响,数字化企业数量和比例增长速率达到高峰。2020年,数字化企业数量为 3112家,数字化比例为 78%;2021年数字化企业数量迅速上升至 4042家,数字化比例高达 88%。图 1 分年份数字化企业统计图(二)小型企业数字化转型:资源与能力瓶颈待突破(二)小型企业数字化转型:资源与能力瓶颈待突破 在企业数字化进程中,小型企业数字化转型步伐更慢。在企业数字化进程中,小型企业数字化转型步伐更慢。大中型企业数字化比例明显高于小型企业,凸

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服