1、2023年9月计算机应用文摘第39 卷第19 期基于主题模型的商业企业数字化价值共生的演化研究沈琪琦(南昌大学公共政策与管理学院,南昌330 0 31)摘要:当前数字化时代发展迅速,各种数字化技术层出不穷,企业响应时代和国家的号召,逐步开始数字化转型。如何快速全面地了解企业数字化转型过程中的价值观念、各类模式已然成为企业数字化领域需要解决的一个问题。文章采用Python的scrapy爬虫框架爬取巨潮资讯网相关企业的企业年报文本数据,对文本数据进行数据预处理后进行中文分词,并使用TF-IDF算法提取年报文本数据的关键词,结合LDA主题模型对其进行主题分类,同时根据分类结果对企业年报文本进行主题标
2、注,对其主题在时间维度上进行演化分析并做可视化展示。从主题演化分析角度可以看出在企业数字化进程中主题随着时间推移产生的变化,从而得出企业的工作重心和价值观念。关键词:企业数字化;TF-IDF;LDA主题模型;主题演化;企业年报数据SHEN Qiqi中图法分类号:F721Research on evolution of digital value symbiosis ofcommercial enterprises based on topic model(School of Public Policy and Administration,Nanchang University,Nanchan
3、g 330031,China)Abstract:The current digital era is developing rapidly,and various digital technologies are emergingone after another,Enterprises have gradually begun digital transformation in response to the call ofthe era and the country.How to quickly and comprehensively understand the values and
4、variousmodels in the process of enterprise digital transformation has become a problem that needs to besolved in the field of enterprise digitalization.The article uses the Python scrapy crawler frameworkto crawl the corporate annual report text data of related companies on Juchao Information Networ
5、k,preprocess the text data and perform Chinese word segmentation,and use the TF-IDF algorithm toextract the keywords of the annual report text data,combine it with the LDA topic model to classifyit,and at the same time label the corporate annual report text according to the classification results,an
6、d conduct evolutionary analysis and visual display of its theme in the time dimension.From theperspective of topic evolution analysis,it can be seen that the theme has changed over time in theprocess of enterprise digitalization,so as to obtain the focus and value of the enterprise.Key words:enterpr
7、ise digitization,TF-IDF,LDA theme model,theme evolution,enterprise annualreport data1引言近年来,国家对数字经济和数字化建设空前重视,企业进行数字化转型也迫在眉睫,数字化技术深刻影响企业数字化的价值概念和业务模式。在政策指引、企业自身需求和技术推动的影响下,企业数字化转型的速度也在不断提升,数字化建设蓬勃发展,各类数字化概念和价值观念不断涌现。企业通过自身数字化变革、构建数字化平台增加竞争力,同时优化价值观念,促使企业良性发展。在企文献标识码:A业数字化的进程中,产生了许多文本数据,若要精准、全面、迅速地了解上
8、市企业数字化的最新发展动态、各类模式,通过传统的调查问卷的方式很难完成。通过对企业年报文本数据进行收集、分析、聚类,并构建主题模型对其主题进行提取,从而获得企业数字化过程中的热门主题,并探究其随时间演化的进程,研究企业数字化过程中的工作重心和价值观念,从整体上把握我国企业数字化过程中的工作重点和发展态势。2023年第19 期2相关研究评述企业数字化转型是指借助前沿的数字技术强化数据流动的有效性 1,从而提升要素和资源配置的效率,最终实现企业核心竞争力提升的系统化进程。王千等 2 以2 0 16 2 0 2 1年CNKI数据库中企业数字化转型领域的文献为研究对象,应用共词聚类分析和时区突现分析识
9、别出我国企业数字化转型领域较为热门的研究问题。易露霞等基于沪深A股上市企业2007一2 0 19 年的文本数据,通过对企业年报进行文本识别的方法,体现出企业数字化转型的强度,并研究企业数字化转型这一战略对企业主营业务的影响 3。这些研究对于分析诊断企业数字化领域存在的问题、创新企业数字化模式具有良好的推动作用。但从当前宏观管理、社会需求与技术变革的视角来看,这些研究还存在一些不足或可改进之处。本文在前人的研究成果基础上从企业数据化主题模型方面人手,并结合价值共生理论,收集企业年报文本并对其做主题分析,以LDA主题模型分析为主,探究我国企业数字化主题重点,监测其发展的最新动态,揭示企业数字化领域
10、发展现状及其演化规律。3楼数据准备和主题提取方法选择3.1文本数据获取本文以沪深A股上市企业为样本,对企业数字化进行主题演化研究。本文的数据样本时间区间为2011一2 0 2 2 年。因为本文研究的重点是企业数字化,所以需要选择对数字化敏感的企业,本文聚焦于信息传输、软件和信息技术服务业等相关企业,使用scrapy爬虫框架编写的程序从巨潮资讯网爬取相关企业的企业年报文本数据,并删除已退市的企业,最终收集到3410 条数据。3.2楼数据预处理爬取的企业文本数据是PDF格式,无法对其直接进行处理,因此,首先需将其PDF格式解析成TXT文件格式。在对解析完的文本数据进行主题提取之前需要对文本数据进行
11、标准化处理,标准化处理的第一步是对文本数据进行清洗。然后,对清洗后的文本进行中文分词,本文采用的是主流的中文分词方法,即使用Python的jieba分词库对企业年报文本数据进行中文分词。中文分词效果对最后的主题提取有直接的影响,因此需要自行添加适合的停用词表和用户词典。计算机应用文摘3.3三主题提取方法主题提取也被称为主题特征提取,提取文本数据的主题是获取文本最有价值信息的最有效也是最直接的方式之一。在自然语言处理领域,文本的主题提取是最为基础也是最为重要的一种方法。目前,较为常见的文本提取方法主要有三种:基于统计词频数据、基于语义模型分析和基于主题模型的提取方法。因为基于语义模型分析的方法计
12、算十分耗时并且难以降维,所以本文主要介绍主题模型这一提取方法。与其他算法的方法相比,主题模型方法更多关注的是如何从文本语料中挖掘词汇所隐藏的潜在的语义信息,并将文本向量从高维词向量空间映射到更低维的主题空间。主题模型应用最为广泛也是最为经典的模型就是隐含狄利克雷分布(LatentDirichletAllocation,LDA)主题模型,这一主题模型由Blei等提出,对文本进行主题提取具有很好的效果 4 54企业数字化价值共生主题文本挖掘4.1LDA主题模型构建4.1.1训练模型的构建在原始的非结构化的企业年报文本中,本文利用Python的开源第三方工具包gensim无监督地学习到文本隐层的主题
13、向量表达,以构建LDA主题模型。应用gensim对文本数据构建LDA主题模型,并根据实际情况调整参数,以提高训练结果的质量,获得更好的训练结果 6 4.1.2主题挖掘结果本文设置主题数目从110 进行迭代,对每一个模型进行训练并计算其主题的困惑度和主题一致性得分。一方面,为避免主题数量太少而难以对后续主题进行概括和解释;另一方面,使模型困惑度较低且主题一致性得分较高以获得更好的主题模型训练效果,因此本文最终确定的主题数量为9个。最终得到7 个主题分类结果,根据其关键词之间的联系分析其语义信息,对提取出的7 个主题进行总结并加以命名。将企业年报文本的具体主题提取结果分别命名为数字化技术、数字化战
14、略、数字化布局、数字化思维、数字化创新、数字化组织架构、协同共生。4.2主题统计分析从企业年报文本数据各主题的分布情况和发展趋势可以看出企业数字化过程中的重心和转移情况。本文将企业年报文本数据的7 个主题分为增长型、衰退型和波动型。(1)增长型主题主要包括协同共生、数字化创新、111112数字化思维、数字化技术。这类主题处于一个长期增长的状态,表明企业在这段时期对企业数字化的重视程度保持一个积极的态度,得益于数字化技术的发展和企业数字化思维的不断提升,同时,企业也重视企业之间的联系以及价值共生这一概念,持续改善企业结构,创新融合,也响应数字化布局的号召和规划,相关主题总体数量持续上升。(2)衰
15、退型主题为数字化组织架构。企业的组织化架构这一主题在数字化时代来临之前是个热点话题,企业内部也早已形成了稳定的组织架构,因此这一主题的数量也在逐年下降。同时,企业的重心转移到数字化创新和战略等方面,数字技术的提升也迫使企业重心的转移,更多专注于如何更好地适应数字化的变革。(3)波动型主题是指在特定的年份主题数量升且总体趋势是上升状态。这类主题包括数字化布局和数字化战略。其中,数字化布局主题在2 0 16 年迅速上升,在当年举办的G20峰会上,首次提出发展数字经济并加速开展企业数字化转型的倡议,在强调发展数字经济的重要性的同时,也推动了企业的数字化进程。5丝结论与讨论5.1石研究结论本文主要对我
16、国沪深A股上市企业年报文本数据进行文本挖掘,结合价值共生理论并应用主题模型的方法探究企业数字化过程的演化规律。从企业数字化过程中的时间进程来看,互联网和数字技术的发展,以及我国对数字经济重视程度的提高,都在推动企业数字化过程,因此大部分主题的数量都在逐年增加。从各类主题的占比和增长情况来看,数字化技术、协同共生、数据化思维等主题数量的关注度逐年上升,与此对应的数字化组织化架构主题在逐年下降,企业将工作重点转移到企业数字化战略构建上,可以看出是在响应国家重视数字经济,以更好地推动企业数字化的进程。同时,在数字化的过程中,企业计算机应用文摘也越来越重视价值共生理论,即将开放融合、合作共生等概念作为
17、企业的价值内核。5.2研究局限本文虽然基于相关技术和理论获得了一些结论,但也存在一定的局限和不足。(1)本文只选取了沪深A股上市公司的企业年报文本数据,未选取创业板等上市公司的企业年报文本数据。创业板的公司多为新型公司,这类公司通常更响应数字化的号召,数字化变革会更加迅速高效,同时会更注重融合共生,因此其在数字化进程中产生的文本数据也值得研究。(2)虽然本文根据所研究的企业数字化领域和价值共生理论建立了自定义的词典,但仍有一些数字化专属名词未能被精准识别,在一定程度上影响了分词的效果和后续的相关研究。在之后的研究中,会深人识别相关专属名词,进一步丰富自定义词典,从而改善模型的效果。参考文献:1
18、李苍舒,沈艳.数字经济时代下新金融业态风险的识别、测度及防控 J.管理世界,2 0 19,35(12):53-6 9.2王千,赖浣峰.中国数字化转型研究现状与展望一基于20162021年文献CiteSpace可视化分析 J.法制与经济,2 0 2 1,30(10):114-12 2.3黄漫宇,王孝行.零售企业数字化转型对经营效率的影响研究一基于上市企业年报的文本挖掘分析 J.北京工商大学学报(社会科学版),2 0 2 2,37(1):38-49.【4何帆,刘红霞.数字经济视角下实体企业数字化变革的业绩提升效应评估 J.改革,2 0 19,(4):137-148.5 BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocationJ.Journal of machine Learning research,2003,3(Jan):993-1022.6 LAMBIOTTE R,DELVENNE J C,BARAHONA M.LaplacianDynamics and Multiscale Modular Structure in Networks J/OLJ.https:/arxiv.org/pdf/0812.1770v3.pdf.作者简介:沈琪琦(1999一),硕士,研究方向:信息资源管理。2023年第19 期