基于文本技术距离的企业知识溢出研究.pdf

资源描述

1、数量经济研究The Journal of Quantitative Economics第 14 卷第 3 期Vol.14 No.32023 年2023基于文本技术距离的企业知识溢出研究*于云云1 冯树辉2 廖辉3 朱平芳1*（1.上海社会科学院数量经济研究中心，上海 200235；2.上海财经大学经济学院，上海 200433；3.上海交通大学安泰经济与管理学院，上海 200030）摘要：技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性，测度技术距离，并将其用于微观企业知识溢出研究。本文基于企业描述信息，使用词频-逆文档频率（TF-I

2、DF）方法和文本动态网络分类（TNIC）方法提取微观企业技术特征，构造两种基于文本技术距离的空间权重矩阵 WTF-IDF和 WTNIC；以长三角、珠三角、京津冀三大城市群科技型中小企业知识溢出为例进行实证研究，证实该方法在实际应用中的使用价值；并将其与传统技术距离构建方法进行比较，实证结果表明基于文本方法构造的技术距离在微观知识溢出实证研究中具有更好的效果。此外，实证研究也发现：三大城市群内科技型中小企业间存在正向的显性知识溢出，相比之下，京津冀的科技型中小企业显性知识溢出并不明显；三大城市群均出现了研发资本投入的挤占效应；京津冀地区技术壁垒较高的技术领域存在“隐性知识过度向中心集中”现象。关

3、键词：文本技术距离企业技术相似性矩阵知识溢出城市群中图分类号：F272 文献标识码：A*基金项目本文受到国家自然科学基金项目“偏线性分位数样本截取和选择模型的估计与应用基于非参数筛分法（Sieve Method）”（72273091）、“非线性动态因子模型和函数型时间序列的前沿理论及其应用”（71773078）和中国博士后科学基金第 73 批面上资助项目“政策评价中适用于高维数据的非参数模型估计与应用研究”（2023M732268）的联合资助。作者简介于云云（1992-），女，上海社会科学院数量经济中心博士研究生，研究方向为计量经济学、文本挖掘与机器学习。冯树辉（1992-）（通讯

4、作者），男，上海财经大学经济学院博士后，研究方向为科技统计评价、空间计量。廖辉（1995-），男，上海交通大学安泰经济与管理学院博士后，研究方向为科技统计评价、非参政策评价理论。朱平芳（1961-），男，上海社会科学院数量经济中心研究员，研究方向为计量经济学、宏观经济预测分析与政策评价。Technology Distance Measurement Based onText Method and its Application in EnterpriseKnowledge Spillover ResearchYu Yunyun1 Feng Shuhui2 Liao Hui3 Zhu Pingf

5、ang1（1.Research Center of Econometrics，Shanghai Academy of Social Sciences，Shanghai 200235，China；2.School of Economics，Shanghai University of Finance and Economics，Shanghai 200433，China；3.Antai School of Economics and Management，Shanghai Jiaotong University，Shanghai 200030，China）Abstract：Technology

6、distance is an important tool to measure technological differences andknowledge spillovers between firms，industries or regions.This paper proposes a text analysismethod to measure technology distance，and uses it to construct enterprise technology similaritymatrix，which is applied to micro enterprise

7、 knowledge spillover research.Based on the enter-prise description information，this paper uses the Term Frequency-Inverse Document Frequency（TF-IDF）method and the Text Dynamic Network Classification（TNIC）method to extract thetechnical features of micro enterprises，and constructs two spatial weight m

8、atrices WTF-IDFandWTNICbased on the text technology distance.Taking the Yangtze River Delta，Pearl River Del-ta，and Beijing-Tianjin-Hebei metropolitan area as an example，the empirical study is carriedout to confirm the practical application value of this method.This paper conducts an empiricalstudy o

9、n the knowledge spillovers of S&T SMEs，and compares it with the traditional technolo-gy distance construction method.The results show that the technology distance constructedbased on text method has a good effect in the study of micro knowledge spillovers.In addition，the empirical study found that t

10、here is a positive explicit knowledge spillover among S&T SMEsin the three metropolitan areas，while，the spillover effect is not obvious in Beijing-Tianjin-He-bei metropolitan area as that in Yangtze River Delta and Pearl River Delta，and the crowding-out effect of R&D capital investment occurs in all

11、 of them.The phenomenon of“over-centraliza-tion of tacit knowledge”exists in the technical fields with high technical barriers in the Beijing-Tianjin-Hebei region.Keywords：Text-Based Technical Distance Technology Similarity Matrix between EnterprisesKnowledge Spillover Metropolitan Areas471数量经济研究引

12、言创新不仅是经济发展的第一动力，更是我国突破发展困境实现经济高质量发展的关键。随着国家对于科技的战略性发展以及对区域协同创新的战略部署，技术攻坚和知识传播成为创新发展的核心。关于知识传播过程中的知识溢出研究虽然由来已久，但随着互联网的广泛应用及技术进步和数据可得性的提升，知识溢出的传播速度和传播过程都发生了变化，如何更科学、更准确地进行知识溢出的测度和研究是值得重新探讨的问题。作为内生增长理论的基础和创新研究的关键，近些年学者们对知识溢出的研究从未中断。内生经济增长理论注重知识的创造和溢出，主题思想为科研机构是创造知识并实现知识溢出的主体（宋洋和逄亚男，2021）。早期的研究对于空间关系的测度

13、主要是通过构建地理邻接矩阵进行的。然而，单纯以地理空间范式研究知识溢出无法合理解释文化、制度、技术等一些隐性要素影响知识溢出的空间根植性（王腾飞等，2020），尤其是随着互联网和计算机技术的发展以及交通便捷性的大大提高，企业的研发活动可以轻松突破地理距离的限制。已有研究表明，基于技术距离的测度能够更好地描述空间约束放宽背景下知识溢出的技术特征（Jaffe，1986；Li et al.，2022）。传统的基于技术距离的测度主要依赖技术分类手段，且主要使用专利引用数据及投入产出数据。现有文献对于技术分类的方法仍然较为粗糙，并且，由于技术特征信息通常难以体现和提取，技术距离测度方法的应用也有一定的局

14、限性。基于此，本文基于文本分析方法计算企业技术相似性从而测度技术距离，改进了传统的技术距离测度方法。通过文本信息测度的技术距离不仅可以提取直接技术特征信息，在微观知识溢出研究中非常实用且更加合理，同时，该方法也能提取行业技术特征信息，对行业知识溢出研究及宏观知识溢出研究提供了有益的借鉴和参考。本文同时以中国三大城市群的科技型中小企业间的知识溢出为例，证实这种基于文本技术距离测度知识溢出的方法在实证研究中是可行的，并且与传统方法进行了对比研究，该方法在实证中具有较好的研究效果。本文的边际贡献有：第一，本文使用了文本数据测度技术距离，在一定程度上拓宽了知识溢出领域的数据信息范围，同时在一定程度上拓

15、展了知识溢出的测度方法；第二，通过本文提出的方法对京津冀、长三角和珠三角三大城市群的科技型中小企业间的知识溢出进行实证研究，对比分析了三大城市群显性知识溢出和隐性知识溢出的不同特征，证实用文本技术距离测度知识溢出具备可行性的同时也发现了三大城市群科技型中小企业知识溢出的一些实际现象。本文发现，通过文本技术距离进行微观知识溢出研究更加便利，且在行业知识溢出研究中也能有效提取信息。本文的结构安排如下：第二部分为文献回顾；第三部分介绍两种基于文本分析方法构建知识溢出空间权重矩阵的方法；第四部分使用此方法对京津冀、长三角、珠三角三大城市群科技型中小企业的知识溢出情况进行实证研究，并与传统方法进行对比分

16、析；最后是本文的结论。571基于文本技术距离的企业知识溢出研究 1 文献回顾早期关于知识溢出的研究大多聚焦于知识溢出的机制分析及其在经济增长中的作用，并未引入地理空间相关性的概念对其进行定量测度。随着空间计量经济学的兴起，空间距离关系逐渐被引入知识溢出问题的研究中，对不同地区间知识溢出的定量测度逐渐成为研究热点。空间计量方法主要基于不同经济体之间的地理空间关系构建空间权重矩阵并将其引入计量模型。目前构建空间权重矩阵的方法主要有三种，分别为地理距离、经济距离和技术距离。其中，基于地理距离和经济距离的研究是早期空间计量研究的主流。地理距离方法基于不同个体间的邻接关系或距离长度构建权重矩阵（Fisc

17、her and Varga，2003；朱平芳和徐伟民，2003；Autant-Bernard and Lesage，2011；徐秋艳等，2019；李婧等，2010）。经济距离方法则是在地理距离的基础上将经济指标纳入计算范畴，考虑了地区间的经济差异对知识溢出的影响（张涵，2019；Amidi andMajidi，2020）。尽管基于地理距离和经济距离方法构建的空间权重矩阵能够反映不同地区间的地理和经济关系，但忽视了技术差异性对于知识溢出过程的影响。技术距离方法从技术相似性的视角出发构建权重矩阵，在弥补了上述缺陷的同时，也能够更好地适应互联网技术普及带来的时空距离压缩效应。Jaffe（1986）最

18、早提出基于技术分类的技术距离测度方法，并在之后被广泛应用于知识溢出的研究中。后继学者大多使用专利分类向量占比测算技术距离，主要从不同区域的专利向量占比（Rodriguez，2014；Caragliuand Nijkamp，2016；Li et al.，2022）和不同行业的专利向量占比（叶静怡等，2019）两个方面进行研究。最近的研究中，有学者使用微观企业层面的产品分类数据衡量技术邻近关系（Zhou et al.，2019），也有学者使用高校和企业的已授权专利数据测算企业和高校间的技术距离，研究高校知识溢出对企业创新的影响（易巍等，2021）。部分研究意识到仅使用单一的专利类别或行业类别构造技

19、术距离的局限，尝试通过不同空间距离的组合来改进对于知识溢出的识别效果。有学者将地理距离和技术距离相结合构建了能够同时反映空间和技术关系的权重矩阵（Klaus，2005）。杨蕙馨和刘春玉（2005）采用 Klaus 模型利用产业集聚研究的思想构造空间权重矩阵。另有一些学者采用构建复合权重矩阵的方法，将地理距离权重（张征宇和朱平芳，2010；朱丰毅和桂文林，2022）、人力资本权重（赵增耀，2015）等因素与技术权重矩阵结合起来，改进了空间权重矩阵的构建方法。例如，王鹏和吴思霖（2020）利用专利申请数量测算技术邻近度以后，使用地理距离的倒数进行加权，得到标准化的技术距离权重矩阵。以上研究大多基于

20、行业或企业的专利数据测算技术距离，然而专利数据仅能代表被固化为知识产权的显性技术水平，难以衡量大多数服务型企业的技术和知识储备，因此很难对地区间的实际技术距离进行准确测度。由于微观企业层面的专利数据可得性较差，且专利主体信息的获取难度较大，为进一步研究微观企业间的知识溢出机制，许多学者转而采用其他类型的数据与方法测671数量经济研究度技术距离，如周华和韩伯棠（2009）采用不同技术类别的咨询顾问数量等数据表示咨询企业的知识存量，并基于此测算咨询企业间的技术距离。朱平芳等（2016）基于投入产出理论构建空间权重矩阵，从而对上下游企业间的“垂直知识溢出效应”进行测度。这些研究通过能够代理知识传播

21、的相关变量测算知识溢出，但此类数据往往具有鲜明的行业特点，难以推广到其他行业和领域，因此方法的推广面临一定的局限性。综上所述，现有的技术距离测度方法在应用于微观企业间的溢出分析时仍有局限性，具体表现为：一是应用专利数据进行技术分类时有可能出现技术相似却分属不同行业类别的情况，从而引起误差；二是专利数据仅代表一小部分被固化为知识产权的显性知识，难以真正衡量不同行业或企业间的实际技术差异；三是除专利外其他用于测度行业技术邻近度的数据往往具有鲜明的行业特点，大多难以推广应用。本文使用的微观企业描述信息的文本特征提取方法能够较好地规避以上问题，并为微观企业间的知识溢出效应分析提供便利且易推广的分析工具

22、。2 基于文本技术距离构建空间权重矩阵的方法近些年随着大数据技术的推广，文本非结构化数据被广泛使用，文本数据开始在金融和经济学领域发挥重要作用（沈艳等，2019），也有学者开始使用文本数据进行科技创新相关的研究（陈强远等，2020；张杰和郑文平，2018）。本文借鉴 Hoberg 和Phillips（2016）使用上市公司年报数据进行行业动态分类的思想，将企业相似度用于知识溢出的研究，基于公司的企业描述信息，使用文本分析方法计算企业技术相似性，测度企业间的技术距离，并依此构建空间权重矩阵，用微观数据衡量企业间的知识溢出情况。本文将企业描述信息引入技术距离的测度中，该信息在公司年报及许多企业注册

23、管理网站都可获取。由于企业描述信息中一般会包含企业的经营范围、产品信息、主要技术领域等，因而可从该文本数据中提取相关信息，通过计算企业描述信息之间的文本相似度来揭示企业间的技术距离。当两企业描述信息的文本相似度很高时，说明两企业间的技术领域或经营范围很接近，由此可以认为两企业间的技术距离较为接近，且通常来看两个企业属于同一个行业的概率也比较大。使用这种方法测度技术距离的好处有：一是可直接从文本中提取技术特征信息；二是该距离信息既包含企业本身的信息，也涵盖了行业之间的信息；三是通常构建的空间权重矩阵多是 0/1 的二元离散稀疏矩阵，而这种基于文本的技术距离矩阵是 0，1 区间的连续型稠密矩阵，涵

24、盖的信息会更多。为保证此种思路的可行性，本文使用两种文本方法测度技术距离并构建空间权重矩阵，其一是使用基础的 TF-IDF 算法进行企业技术距离的计算，其二则借鉴 Hoberg 和Phillips（2016）进行文本网络行业分类时的测算方法（Textual Network Industry Classifi-cations，后文简称 TNIC 算法）。771基于文本技术距离的企业知识溢出研究 2.1 基于 TF-IDF 算法的空间权重矩阵 WTF-IDF构建TF-IDF（词频-逆文档频率）算法是文本挖掘中常用的加权方法，先使用该传统文本挖掘方法提取关键信息，并进行企业间技术相似性计算，用于衡量

25、企业间技术距离，进而构建空间权重矩阵，具体步骤如下。第一步：根据 TF-IDF 算法对每个企业的描述信息进行分词、计算词频、提取关键词，得到每个企业的词向量。需要说明的是，第一，在分词时使用哈工大的 HanLP 分词方法对所有企业的描述信息进行分词，剔除常用词和停用词等，得到词向量。第二，计算词频时考虑到企业的描述信息词向量长短不一，进行“词频”标准化，公式如下：tfij=nijknkj（1）式（1）中 tfij表示第 j 个企业中第 i 个词语标准化之后的词频。nij表示第 j 个企业中第 i个词语的词频，分母表示第 j 个企业的描述信息中所有词语的词频之和，即词语总量。第三，计算逆文档频率

26、时为避免词语不在语料库中而使分母为 0，这里分母做加 1 处理，公式如下：idfi=lnDj：tidj+1（2）式（2）中 idfi表示第 i 个词语的重要性，用含有该词语的企业信息数量占总的企业信息数量的比重取倒数并取对数来衡量。第四，提取关键词时按照 TF-IDF 算法的计算结果从大到小排序，每个企业提取 p 个关键词，注意关键词数量 p 取决于实际应用中的文本内容长短。第二步：构建关键词矩阵 QN M。将上面得到的关键词向量合并成为一个集合，共包含 M 个关键词；进行 One-Hot 编码，统计任意关键词 Mz在企业 i 中出现的次数，没有出现则为 0；每个企业得到一个 M 维的词频向量

27、，最终得到一个 N M 的稀疏矩阵 QN M。第三步：计算每两个企业之间的余弦相似度 wij=QiQjQi Qj，ij1，i=j 。值得注意的是，在测度企业间技术距离时，不同于余弦相似度计算结果，企业距自身的技术距离定义为 0 而不是 1，即当 i=j 时，wij=0，因此需要把主对角线元素进行修正，得到企业间的技术距离 wij。最终得到企业间的空间权重矩阵 WTF-IDF=（wij）N M，N 为企业个数。2.2 基于 TNIC 算法的空间权重矩阵 WTNIC构建Hoberg 和 Phillips（2016）的 TNIC 算法与 TF-IDF 算法类似，不同之处在于构建词矩阵时不进行词频统计

28、，而是去重得到所有的词语集合，也不进行关键词提取。词向871数量经济研究量坐标对应每个公司的位置，最终得到企业技术相似度网络。该方法的大致步骤和前一种方法类似，在每个步骤中需要注意：第一，和前一种方法的第一步形同，使用HanLP 分词方法进行分词，剔除常用词，使用不太常用的特殊名词向量 Mj表示公司 j的产业分布；第二，在构建词矩阵 QN P时，忽略词频，One-Hot 编码时词语在企业中出现则为 1，否则为 0，得到公司 j 的词向量 Pj，同时为保证内容短的文章不会被惩罚，进行向量标准化，单位向量 Vj=PjPj，j；第三，计算两两企业间的余弦相似度，即两个词向量在一个单位球中的角度，然

29、后通过对得到的企业相似度值进行主对角线修正，测度企业间技术距离，即 wij=cov（Vi，Vj），ij0，i=j。该方法得到的空间权重矩阵WTNIC=（wij）N M同上面构建的矩阵 WTF-IDF一样都是一个 0，1 区间的连续稠密矩阵。2.3 两种空间权重矩阵的比较上述两种方法构建的矩阵具有相同之处。第一，这两种基于文本信息得到的空间权重矩阵最终可映射至一个单位圆中，如图 1 所示。每个企业映射到该单位圆中就是一个点，任意两点之间的距离表示这两个企业的技术邻近度，即技术距离。该权重矩阵的元素为 0，1 区间的任意连续值，两个企业的文本相似度越高，则单位圆中的距离越近，技术邻近度越高，权重矩

30、阵的值越接近 1。第二，该技术距离不仅包含企业本身的技术信息，也包含行业信息，因此距离越近的两个企业，它们的技术邻近度越高，它们处于同一行业的概率也越高。以图 1 中企业 A 为例，单位圆中 A 企业到任意其他企业的距离由企业信息的相似度决定，A 企业的产品和技术信息与 B、C 企业相似度很高时，则与 B、C 企业离得较近，如果 B 企业与 C 企业距离也比较近，则可认为A、B、C 同属一个行业。Hoberg 和 Phillips（2016）就是通过此方法对企业进行行业分类，如果数据是面板数据，则可以得到企业的动态行业分类。图 1 企业相似度在单位圆中的映射上述两种方法的区别在于，第一，基于

31、TF-IDF 算法的空间权重矩阵 WTF-IDF考虑了词频，即每个词语在每篇文章中出现的次数，而 WTNIC不需要统计词频，只是提取每篇文章的词语集合。如果是对于词语频率影响较大的场景优先考虑前者，如某公司 A 有971基于文本技术距离的企业知识溢出研究 10 类技术，需要知道其中应用最广泛的技术，就可采用此种方法进行分析。相反，如果是对词频没有要求的场景则优先考虑后者，如本文即将用到的场景，我们只在意公司有哪些技术，不关注技术的应用广泛度。第二，WTF-IDF算法根据 TF-IDF 的值进行排序，并根据 TF-IDF 值的大小提取关键词，且只提取文章认为关键且不常用的词汇，但 WTNIC不进

32、行关键词提取，所有词汇全部保留。同样，哪种方式更好也是基于数据和场景去判断，本文的短文本数据中，词汇量不大，则不需要进行关键词提取，甚至可能在关键词提取时遗漏掉部分信息。但对于长文本数据，则最好进行关键词提取，否则每篇文章的词汇量过多，导致合成的语料库过大，词矩阵就会变成超高维的稀疏矩阵。第三，计算速度上，基于 TNIC 的矩阵构建方法计算速度更快一些，因为整体的计算复杂度相对较低，不需要统计词频和计算 IDF，也不需要进行排序。在样本量过大的情况下，基于 TNIC 的方法在计算速度上也会有比较大的优势。3 实证应用：三大城市群科技型中小企业的知识溢出为验证该文本技术距离测度方法在实际研究中的

33、可行性，本文以中国京津冀、长三角、珠三角三大城市群的科技型中小企业为例，进行企业知识溢出的实证研究。本文同时构建了一种基于传统技术距离测度方法的空间权重矩阵，并将知识溢出研究的实证结果与前者进行对比。3.1 数据处理及分析本文的微观经济数据来源于科技部火炬中心 2018 年入库的科技型中小企业填报数据。选取京津冀、长三角、珠三角地区 69653 家科技型中小企业进行知识溢出研究，并且对该填报数据进行处理，剔除不符合科技型中小企业评定条件的企业以及填报中信息缺失严重和信息异常的企业。本文使用的企业描述信息是从企业注册网站中爬取的科技型中小企业对应的工商注册信息，使用其中的最新经营范围来代替产品描

34、述信息，剔除文本描述信息为空或描述非常短的记录。数据清洗后的三大城市群的科技型中小企业领域分布如图 2 所示，可以看到，除去未明确分类的其他领域之外，航空航天、资源与环境、新能源与节能三个领域的企业较少。为防止数据太少带来的结论误差，本文仅重点分析企业数目排名前五的高新技术领域。根据科技型中小企业专利申请数在三大城市群的分布热力，珠三角区域以深圳为核心的区域专利分布密度最高；长三角区域以上海为核心的科技型中小企业专利分布较密，但除上海外，长三角区域的合肥、杭州、南京等城市也是科技型中小企业创新产出的密集点，说明长三角区域的知识外溢范围较广；而京津冀区域整体科技型中小企业创新产出分布较稀疏，主要

35、集中在北京和天津“双核”区域，对周边辐射力度较小。同时，科技型中小企业在三大城市群的分布和集聚情况并不相同，说明科技型中小企业的研发产出在这三个城市群可能产生了不同的知识溢出效应。且从这些企业的领域分布来看，科技型中小企业在这三大城市群的集聚差异又可能与它们的领域分布081数量经济研究图 2 三大城市群科技型中小企业分布181基于文本技术距离的企业知识溢出研究差异有关。因此，可从这三大城市群中的科技型中小企业中捕获企业和行业之间的技术差异和关联来进行分析，而这可以通过前文构建的基于文本的空间权重矩阵构建空间计量模型来实现。3.2 模型构建及指标说明3.2.1 模型构建本文选择 LeSage

36、和 Pace（2014）构建的空间杜宾模型（SDM 模型，也称空间交互模型），因为其既考虑到了空间误差项的自相关和因变量的滞后误差，同时也考虑了空间交互作用。模型如下：lnY=0+WlnY+1lnH+2lnK+WX+ki=1iControli+（3）其中，Y、H、K 分别表示研发产出、研发人力投入、研发资本投入，W 为上文构建的空间权重矩阵，X 表示所有解释变量构成的矩阵（lnH，lnK，Controli）n （k+2），Control 表示所有控制变量，WX 为空间杜宾项。能衡量显性空间知识溢出效应，通常用来表示隐性空间知识溢出效应的大小，本文用其表示空间关联性。3.2.2 指标说明基于上

37、文介绍的三大城市群的科技型中小企业的微观数据，本文从中选取科技型中小企业的研发费用作为模型的研发资本投入，选取科技型中小企业的科技人员数量代表研发人力投入，将这两个变量作为模型的核心解释变量。另外选取企业注册日期衡量企业的注册年限，选取是否为高新技术企业作为控制变量。在衡量企业研发产出时，本文没有单独使用专利申请总数量或是其中的发明专利申请数，而是综合考虑每个企业的发明专利申请数和软件著作权数。在对两个指标加权时，考虑每个领域的研发强度不同，对应的发明专利申请数和软件著作权数的权重也不相同，本文根据这 5 个领域各自的研发结构特点赋以不同的权重，最终加权得到每个企业的研发产出指数。具体变量表示

38、和含义见表 1。控制变量中 Firm_ age、High_tech 和 wey 控制了企业的特征，fz、turn 和 pr 控制了企业的经营状况。281数量经济研究有关显性知识溢出和隐性知识溢出的定义参考赵勇和白永秀（2009）。这里构建研发产出指数作为研发产出的替代变量，主要是衡量企业当年所有的研发产出认证申请量，构建方法如下：假设某个领域研发强度前 20%的企业平均发明专利申请数为 A，平均软件著作权数为 B，则第一次赋权的权重为 A/（A+B）和 B/（A+B）；第二次赋权考虑了科研成果认证从申请到批准的时间长度，根据 2017 年公布的专利优先审查管理办法（国家知识产权局令第 76

39、号）发明专利申请的审查时间为12 个月，软件著作权等其他成果审查时间为3 个月。因此，该领域企业的发明专利权重为 12A/（12A+3B），软件著作权和其他成果权重为 3B/（12A+3B），使用该权重对发明专利申请数和软件著作权数等研发产出认证申请加权即得到企业的研发产出指数。该研发产出指数同时考虑了不同领域的研发成果情况和科研产出以时间衡量的价值。表 1 指标说明变量类别变量符号含义因变量R&D_output研发产出指数核心解释变量R&D_K研发资本投入（万元）R&D_H研发人力投入（人）控制变量Firm_age企业注册年限（年）High_tech是否为高新技术企业（0/1）wey企业职

40、员工的平均受教育年限fz100 （总资产-净资产）/总资产turn资产周转率pr100 利润总额/销售收入3.2.3 基于文本技术距离的空间权重矩阵构建基于爬取到的科技型中小企业经营范围信息，使用前文提出的两种文本方法分别构建两个空间权重矩阵 WTF-IDF和 WTNIC。需要注意的是，在构建矩阵 WTF-IDF时需要提取关键词，而关键词个数 p 是一个超参数，需要自行定义。结合本文使用的企业经营范围信息进行词语数量分布统计后，取 p=20 即提取 TF-IDF 排名前 20 的词语进行相似度计算。因为企业的经营范围数据为短文本，且在研究企业间的知识溢出时只对企业使用的技术感兴趣，词频的统计是

41、非必要的，因而使用基于 TNIC 方法构建的矩阵作为空间权重矩阵分析知识溢出的效果可能优于传统的 TF-IDF 方法，但具体结果有待验证。3.2.4 空间相关性在对三大城市群的科技型中小企业的研发产出情况构建 SDM 模型之前，先对研发产出进行空间相关性检验，本文使用 MoranI 指数进行检验。MoranI 指数大于 0，说明企业之间存在正相关性，反之，说明存在负相关性。从表 2 可以看出这三大城市群大部分存在显著的空间自相关性，说明企业之间存在空间关联。具体的空间知识扩散情况需要通过构建模型进一步分析。表 2 企业研发产出的 MoranI 检验城市群全部领域电子信息高技术服务生物与新医药先

42、进制造与自动化新材料京津冀0.0100.009*0.007*-0.031*-0.022*-0.022（0.109）（0.073）（0.003）（0.065）（0.007）（0.101）长三角0.030*0.036*0.018*0.019*0.011*0.025*（0.000）（0.000）（0.001）（0.050）（0.000）（0.000）珠三角0.024*0.027*0.031*0.018*0.013*0.028*（0.002）（0.000）（0.029）（0.000）（0.000）（0.000）注：括号中为 P 值，*、*、*分别表示在 10%、5%和 1%的水平上显著。381基于文本

43、技术距离的企业知识溢出研究 3.3 实证分析及效果评价3.3.1 基于 WTNIC和 WTF-IDF的基准回归使用前文构建的两种空间权重矩阵 WTNIC和 WTF-IDF分别构建 SDM 模型，研究三大城市群中科技型中小企业的知识溢出情况，回归结果见表 3。所在行反映区域内研发产出所带来的整体显性知识溢出效应，W-R&D_K 和 W-R&D_ H 所在行分别反映研发资本投入和研发人力投入所带来的隐性知识溢出效应。可以看到，整体基于无词频的空间权重矩阵 WTNIC的回归结果与基于提取关键词的矩阵 WTF-IDF的回归结果符号一致，且回归系数大小接近，说明这两种基于文本方法测度技术进而构建空间权重

44、矩阵进行知识溢出研究的结果是稳健的，且基于矩阵 WTNIC的回归结果略优于基于 WTF-IDF的回归结果。首先，这主要是因为本文所使用的企业经营范围文本信息为短文本，而 TF-IDF 算法在提取关键词时是根据词频（TF）和逆文档率（IDF）来加权排序提取的，短文本由于本身词量就少，在提取关键词时可能会遗漏部分含有关键信息的词语（比如“软件开发”，可能会因为出现在多个企业的信息中，而导致 IDF 过小被遗漏）。其次，TF-IDF 算法的技术相似度是基于词频向量的，而 TNIC 算法则是取所有词汇的集合，不考虑词频，只要词语出现即可，该规则更加符合从文本中提取企业技术特征的逻辑。表 3 基于文本空

45、间权重矩阵 WTNIC和 WTF-IDF的 SDM 模型回归结果变量基于矩阵 WTNIC基于矩阵 WTF-IDF京津冀长三角珠三角京津冀长三角珠三角0.0660.530*0.620*0.0590.432*0.524*（0.108）（0.001）（0.000）（0.114）（0.002）（0.001）R&D_K0.001*0.001*0.002*0.001*0.002*0.002*（0.006）（0.001）（0.001）（0.071）（0.009）（0.004）R&D_H0.056*0.007*0.006*0.062*0.010*0.008*（0.000）（0.000）（0.000）（0.00

46、0）（0.000）（0.000）W-R&D_K-0.001*-0.006*-0.005*-0.010-0.008*-0.005*（0.009）（0.003）（0.004）（0.103）（0.003）（0.001）W-R&D_H-0.089*0.347*0.243*-0.075*0.347*0.298*（0.000）（0.004）（0.000）（0.000）（0.008）（0.048）控制变量控制控制控制控制控制控制R20.2780.0910.1010.1580.0930.092N125423178525326125423178525326 注：括号中为 P 值，*、*、*分别表示在 10%、5

47、%和 1%的水平上显著。由表 3 可知，三大城市群的显性知识溢出效应均是正向的，长三角（0.530）和珠三角（0.620）比较相近，并且这种正向的显性知识溢出效应在统计上十分显著，相比481数量经济研究之下，京津冀地区科技型中小企业之间的显性溢出效应（0.066）并不明显，这与杨明海等（2017）及潘文卿和李子奈（2008）的研究结论基本一致。并且在京津冀城市群中，研发资本投入（-0.001）和研发人力投入（-0.089）均带来了显著负向的隐性知识溢出，表明京津冀存在虹吸效应，整体以北京和天津“双核”为核心，人才和研发资本集聚于两地的优势企业，抑制隐性知识向外扩散。通过国家统计局公布的研发人

48、员数据和铁路客运量数据也可看出，京津冀地区中，北京研发人员数量相较于京津冀其余城市有较大的增长，且铁路客运量增幅也较大，由此说明在京津冀地区北京具有一定的虹吸效应，带来一定的隐性知识溢出。此外，研发资本投入对三大城市群的知识扩散均存在一定的抑制效应。这可能是因为科技型中小企业的特点决定其为了生存更多的是承接大企业的科技成果转化或者与大企业合作进行研发活动，企业的研发支出多为“被动”支出。对于技术较为相似的企业，如果一个科技型中小企业与大企业进行合作，那么别的企业便失去和大企业合作的机会，从而产生了一定的挤出效应，因而带来负向隐性知识溢出。与此同时，该企业在进行研发活动时增加了研发投入，获得了更

49、多的研发产出，相应地别的企业便无法“被动”增加研发投入，研发产出与该企业相比也会减少，这种机制可以归结为研发资本“被动”投入的挤出效应。3.3.2 进一步分析：不同技术领域的知识溢出效应基于上节的基准回归结果，本节选用更加适合本数据源的矩阵 WTNIC作为空间权重矩阵，对这些科技型中小企业分技术领域做进一步分析。由表 4 可以看出，电子信息和高技术服务领域在三大城市群都具有显著的正向显性知识溢出，而生物与新医药、先进制造与自动化、新材料领域在京津冀整体呈现负向的溢出效应，结合图 2 发现京津冀地区电子信息和高技术服务领域企业数量较多，而其他三个领域的企业在京津冀地区分布较少没有形成一定规模，因

50、而无法形成对外的知识扩散影响力。并且，相比生物与新医药、先进制造与自动化和新材料领域的科技型中小企业，电子信息和高技术服务领域的科技型中小企业的技术壁垒较低、资金投入较小，更容易产生显性的知识溢出，而技术壁垒较高和资金投入较大的领域内的企业更容易向中心集聚，无法对外围的企业产生显性知识的溢出效应。这表明，尽管整个京津冀地区的核心区域没有产生显性知识的虹吸效应，但是个别领域确实存在“显性知识过度向中心集中”的现象。相比京津冀城市群，长三角和珠三角城市群各个领域内没有产生这种“显性知识过度向中心集中”的现象。表 5 展示的是研发资本投入和研发人力投入对各个领域带来的隐性知识溢出效应。由表 5 可知

展开阅读全文