大数据下基于跨域多源信息融...研究——基于新能源汽车行业_宋新平.pdf

资源描述

1、情报学报 2023 年 2 月第 42 卷第 2 期Journal of the China Society for Scientific and Technical Information,Feb.2023,42(2):176-188大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源汽车行业宋新平，陈梦梦，吕国栋，申彦（江苏大学管理学院，镇江 212013）摘要大数据下竞争对手识别模式发生了显著转变，催生了新型竞争对手识别研究范式。本文以该新范式为导向，借鉴企业生态位理论与互联网下的顾客价值理论，对传统经典陈明哲竞争分析框架进行拓展，提出了基于大数据下的市场共通性和资源能力优

2、势度的竞争对手识别指标体系框架。该框架整合了行业与市场双元视角下的财务、专利、产品、客户等多方跨域信息源，使用模糊C均值聚类构建模型，并以新能源汽车行业为例开展仿真实验研究。结果表明，基于跨域多源信息融合的模型可有效提高竞争对手识别的准确性和全面性。关键词大数据；竞争对手；多源信息融合；综合视角；模糊C均值聚类A Research on Competitor Identification Model Based on Cross-domain and Multi-source Information Fusion in the Context of Big DataBased on the

3、New Energy Automobile IndustrySong Xinping,Chen Mengmeng,Lyu Guodong and Shen Yan(School of Management,Jiangsu University,Zhenjiang 212013)Abstract：There have been significant changes in the pattern of competitor identification under the big data environment,engendering a new research paradigm of co

4、mpetitor identification.Guided by the new paradigm,this article modifies the traditional classic competitive analysis framework of Chen Ming-Jer,and then presents a new competitor identification index system framework consisting of market commonality and resource capability advantage,using the theor

5、y of corporate niche,the view of resources and ability,and the theory of customer value.The framework integrates cross-domain and multi-source information sources such as finance,patents,products,and customers from the perspective of the industry and market.Subsequently,the competitor identification

6、 model is built based on the fuzzy C-means clustering algorithm,and the new energy automobile industry is taken as an example to carry out simulation experiments.The results show that the model can effectively improve the accuracy and comprehensiveness of competitor identification.Key words:big data

7、;competitors;multi-source information fusion;comprehensive perspective;fuzzy C-means clustering收稿日期：2021-12-16；修回日期：2022-09-15基金项目：国家社会科学基金项目“总体国家安全观视域下基于大数据的企业竞争情报感知能力提升研究”（21BTQ070）；国家自然科学基金项目“Web 2.0下全员有效参与竞争情报的行为形成机理及治理策略研究”（71573107）。作者简介：宋新平，女，1971年生，博士，教授，博士生导师，主要研究领域为竞争情报、信息管理、商务智能，E-mail：ph

8、d_；陈梦梦，女，1994年生，硕士，主要研究领域为竞争情报；吕国栋，男，1998年生，硕士研究生，主要研究领域为竞争情报；申彦，男，1982年生，博士，副教授，硕士生导师，主要研究领域为大数据分析与挖掘、商务智能。DOI:10.3772/j.issn.1000-0135.2023.02.005第 2 期宋新平等：大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源汽车行业0引言伴随着大数据时代的到来，企业竞争环境和态势逐渐趋于多变和复杂，企业之间的竞争变得不再是传统同一行业体系内的竞争，转而出现了诸如跨界式竞争的新型竞争形态。大数据环境下传统竞争对手识别研究范式遭遇到极大挑战，在理

9、论假设、跨域信息源、全景式识别和方法流程方面都呈现显著转变1。这一转变，导致传统的竞争对手识别理论框架与方法都不能满足大数据下竞争情报研究的需要。这就要求研究者和管理者要拓宽思路，用新理论和方法来解决大数据环境下的竞争对手识别与分析问题。鉴于此，本文将陈明哲教授经典的竞争分析理论与企业生态位理论、顾客价值理论等结合，基于行业与市场双元视角，构建大数据下基于跨域多源信息融合的竞争对手识别指标体系理论框架和模型，探索建立大数据情境下企业竞争对手识别新范式。1理论背景及问题的提出1.1基于行业视角数据的竞争对手识别方法该视角下的方法主要是通过对企业数据层面的竞争因素进行评估与分析，来识别竞争对手。相

10、关方法有：基于财务数据聚类的方法，根据财务报表中盈利、偿债、营运等指标，使用聚类方法识别竞争对手2-3；基于专利数据分析的方法，通过对企业专利数量和内容进行分析来识别竞争对手，包含专利排序、专利地图、专利合作等方法4-5；基于互联网关系信息源挖掘的方法，通过对竞争企业在互联网信息中的隐藏关系进行挖掘来识别竞争对手，包含共现分析法、共链分析法等6；基于互联网文本信息源挖掘的方法，其分析对象是诸如新闻、报告、资讯、产品信息等网络文本数据，利用文本挖掘等技术从中挖掘企业间的竞争信息，进而来识别竞争对手7。1.2基于市场视角数据的竞争对手识别方法该视角下的方法主要是利用用户产生的数据，通过分析企业在用

11、户心目中的替代性或相似性，来识别竞争对手8-9。相关方法包含：基于用户转换行为数据的方法，依托用户对企业产品或品牌的相关转换行为数据展开研究探索，主要有品牌转换分析法、竞品监控矩阵法等10；基于用户情感数据的方法，从互联网在线用户评论数据中提取用户感兴趣的产品特征，使用情感分析技术判断用户情感倾向，以此来识别企业竞争对手11-12；基于用户微博使用行为数据的方法，如微博共关注法就是根据不同用户在微博上关注的同一类产品的集合，来确定企业的竞争关系13。1.3基于双视角数据的竞争对手识别方法基于双视角数据的方法源于陈明哲教授于 1996年提出的四象限竞争分析框架，根据企业在市场共通性和资源相似性二

12、维度上的表现识别竞争对手14。后续大多数学者的研究主要基于该框架展开15-16。根据信息源的不同，主要方法有：基于单域信息源的方法，集中于使用财务、专利、产品等单领域内数据源进行竞争对手识别17-18；基于跨域二源信息融合的方法，例如，王剑华等19整合专利与 URL（uniform resource locator）共现数据进行竞争对手分析，宋新平等20融合财务与用户情感信息构建竞争对手识别模型。此外，也有少量关于跨域多源信息融合的研究，例如，刘志辉等21使用企业物力、人力、组织资源与市场份额等数据信息对环保行业开展竞争分析，林莉等22提出了基于市场共同度和能力等价性的制造服务化企业竞争对手识

13、别框架。1.4大数据下基于双视角跨域多源信息融合的竞争对手识别思路的提出通过 1.1 节1.3 节的研究发现，现有竞争对手识别方法虽然有很多，但多是基于行业或市场单一视角下的数据源，或是基于单一视角下单一维度的指标体系，这就易导致竞争对手识别时存在盲点，从而忽略掉一些重要层面上的潜在竞争对手23。虽然以往基于双视角数据的方法在一定程度上弥补了单视角下研究的不足，但受限于数据的可获可测性，多集中于单域或二源跨域信息源。即使有少部分学者提出基于跨域多源信息融合的方法，但仍然存在忽略互联网下用户信息或仅有定性而无定量研究的缺陷，无法达到对竞争对手进行全景画像的目的24。大数据环境下，企业竞争对手识别

14、研究范式发生了较大转变，如图 1 所示。理论假设转变。大数据使传统理论假设不断被放宽甚至消除，使传统研究中因数据可得性限制而被忽略的潜在重要变量177第 42 卷情报学报重新被纳入成为可能1。跨域信息源转变。大数据下广泛的可获可测领域外信息源，如客户交易数据、评论、用户搜索引擎日志数据等，促使传统单域信息源下的研究向新型跨域信息源下的研究转变25。全景式转变。大数据下的跨域多源信息拓展了企业竞争力评估维度的广度和深度，使融合全要素的全景式竞争对手识别成为趋势26。方法流程转变。传统单线程的竞争对手识别流程和定性、主观、线性方法，逐渐向多线程流程和定量、客观、非线性方法转变。但纵观以往研究

15、，其还有待朝大数据下的这些新范式努力。因此，本文拟结合大数据驱动的竞争对手识别研究新范式，融合双视角下的跨域多源信息来进行竞争对手识别。其一，基于市场与行业双视角的信息能够较为全面地觉察企业竞争情况，更为准确地刻画企业间竞争关系；其二，通过将大数据下大量跨域多源异构数据进行整合，有助于更为清晰和详实地开展企业竞争分析27；其三，大数据下基于双视角跨域多源信息的方法有助于企业潜在竞争对手的识别。2大数据下基于跨域多源信息融合的竞争对手识别指标体系理论框架2.1大数据下的竞争对手识别指标体系框架设计大数据环境所带来的竞争对手识别研究范式转变，驱使着传统环境下的理论框架向大数据情境下的竞争对手识别理

16、论框架的转变，如图2所示。传统环境下，最经典的竞争分析理论框架是陈明哲教授基于市场共通性和资源相似性提出的框架18，该框架以竞争分析理论为支撑。其中，市场共通性被界定为竞争企业在其共享市场上的重叠程度，通常使用同类型产品的市场份额指标进行测量；资源相似性被界定为竞争企业在资源禀赋上的相似程度，通常使用产品、财务等资源指标来测度14,28。大数据环境下，企业的竞争形态和竞争情境发生了较大改变。本文立足于企业生态位理论对企业竞争关系产生的描述，将企业竞争环境视为一个生态系统，而企业间的竞争，其实就是其所在生态位的竞争，由企业自身的内部环境、具有的资源和能力，以及其所处的外部环境共同影响和决定29。

17、因而，本文在传统陈明哲教授理论框架的基础上对其进行扩展：结合企业生态位重叠度和互联网下的顾客价值理论30-31，将市场共通性的内涵扩展到大数据情境下的市场共通性；结合资源基础理论和企业核心能力理论31，对传统资源相似性在资源维度上进行拓宽，并将企业核心能力特征容纳进去，形成资源能力优势度24。由此，本文提出了以大数据为驱动的竞争对手识别指标体系框架，如图 3所示。2.2大数据下的竞争对手识别指标体系分析2.2.1大数据下的市场共通性大数据环境下，互联网下的顾客价值变得越发图1大数据下竞争对手识别研究范式的转变178第 2 期宋新平等：大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源

18、汽车行业重要30。本文构建的大数据下市场共通性指标中，客户重叠度指标反映了企业现实客户竞争力，客户口碑反映了企业产品或服务在客户心中的满意度，用户关注度反映了企业潜在客户竞争力。三者相辅相成，全方位地刻画了企业市场竞争力。（1）客户重叠度。客户重叠度指企业之间相同客户或在不同细分市场上客户群的重叠程度。企业间客户重叠度越高，说明对客户而言，它们越易被替代，竞争强度就越大8。对于该指标的测量，本文根据研究对象的特点，基于社会化媒体平台信息源，使用竞争企业间客户列表的重合程度，或者在不同细分市场上客户群的重叠程度来测度。（2）客户口碑。客户口碑指客户在互联网上发布的关于企业产品或服务等方面的用户体

19、验。与传统口碑不同，大数据下的客户口碑信息主体覆盖面更周全，信息来源更广泛，数据结构更多样。客户口碑越高，客户对企业产品或服务越满意，企业核心竞争力越突出。对于该指标的测量，本文基于在线评论中客户的情感态度，以及客户对产品或服务的打分两个方面数据来测度。（3）用户关注度。用户关注度是基于大量用户对企业产品、服务等的兴趣，在互联网搜索引擎上、基于特定关键词进行的搜索行为32。该指标呈现了用户对企业产品的偏好以及注意力分配，其值越大，企业竞争优势越明显。通过对用户关注度的分析，不仅有助于企业识别竞争对手，而且有助于辨析潜在客户，进而实现资源的合理配置。本文主要使用百度指数平台的数据对用户关注度进行

20、测量。2.2.2 资源能力优势度在资源能力优势度维度，产品优势度、财务、技术、营销推广能力指标较好地映射了企业的整体资源能力情况。（1）产品优势度。产品优势度指企业在产品核心功能和特性等方面具有的竞争优势程度。具有同质或相似产品属性特征的企业，它们之间存在竞争的可能性较大。同时，产品优势特征越明显的企业，在市场竞争中就越发具有优势竞争地位。对于该指标的测量，本文通过企业在产品重要属性特征图2大数据下竞争对手识别理论框架的转变图3大数据下企业竞争对手识别指标体系框架179第 42 卷情报学报上的表现来对其优势度进行评估。（2）财务能力。财务能力指企业所具有的财务资源以及综合利用该资源的能力

21、。企业资本越雄厚，财务状况越健康，竞争强度就越大。对于该指标的测量，本文参考财务理论和国内外相关研究，选择资产负债率、股东权益比率、流动比率、速动比率、存货周转率、总资产周转率、营业收入同比增长率、净利润同比增长率、销售毛利润、净资产收益率作为财务能力评估变量20。（3）技术能力。技术能力指企业对某领域内技术、知识和方法的掌握与运用能力。专利作为企业技术创新成果的重要载体，具有内容丰富、易获易测、权威性等诸多优势，能较好反映企业研发重点、技术定位、战略方向等重要信息19。因而，本文选择专利总申请量、专利被引频次、同族专利数量、专利授权率、专利增长率、即时影响因子、技术强度、技术重心指数作为企业

22、技术能力的评判变量33。（4）营销推广能力。营销推广能力指企业利用互联网将产品或品牌信息向目标用户传递的能力34。该能力越强，用户对企业的认知度越高，企业影响力就越大。对于该指标的测量变量，根据营销推广方式不同，主要有网站访问行为（访问用户数、跳出率、停留时间等）、购物车行为（被加入购物车数、被收藏数等）、粉丝数、站点索引量等。具体研究中，可根据行业特点与数据可得性，有的放矢地选择。3研究设计3.1数据收集新能源汽车产业是国家目前在重点引导和培育的一个绿色新增长点，也是传统行业向“互联网+”企业转型的典型代表。根据中国新能源汽车行业现实情境以及数据可得性的限制，本文选择国内 15家新能源汽车标

23、杆企业作为研究对象，各指标测度变量及其数据来源如表1所示。根据数据类型和分布的不同，本文基于网络爬虫以及人工统计汇总的方式进行数据采集。其中，汽车之家平台上的数据采集时间为 2021 年 1 月 1 日7 日，百度指数平台数据获取的是 2020 年的整体日均值，财务数据来源于企业 2020年上半年度财务报表，专利数据采集的是专利公开日在 20112020年这 10 年间的数据。最终，获得客户口碑数据22725 条，专利数据 83203 条，站点索引量数据701249条，具体如表2所示。3.2数据处理本文的数据处理流程如图 4 所示，主要步骤包含数据清洗、客户评论文本数据结构化

24、处理、同向化与无量纲化、计算权重、基于等级隶属度确定指标值。其中，由于获取到的数据集具有跨域、多源、异质的特点，为了提高模型评估的有效性，本文基于模糊数学中的隶属度函数对测度变量数据进表1企业竞争对手识别指标测度变量与数据来源维度大数据下的市场共通性资源能力优势度指标客户重叠度客户口碑用户关注度产品优势度财务能力技术能力营销推广能力测度变量在华北、华东、华中、华南、西南、东北、西北细分市场上的客户群规模客户对其所购买的新能源汽车在空间、动力、操纵、能耗、舒适性、外观、内饰、性价比各个特征层面上的评分与对应的情感倾向值用户对企业品牌（车型）的百度搜索指数纯电续航里程、电池能量、快充时间、慢充时间

25、、电动机功率、电动机扭矩资产负债率、股东权益比率、流动比率、速动比率、存货周转率、总资产周转率、营业收入同比增长率、净利润同比增长率、销售毛利率、净资产收益率专利总申请量、专利被引频次、同族专利数量、专利授权率、专利增长率、即时影响因子、技术强度、技术重心指数站点索引量数据来源汽车之家平台产品口碑页（客户个人信息与其购买信息、客户评分、客户评论等数据）百度指数平台汽车之家平台汽车参数配置页中国财经信息网、同花顺问财、东方财富网Lens专利检索与分析平台汽车之家平台新能源汽车新闻搜索页注：测度变量中，虚下划线标注的是逆向变量，实下划线标注的是适中变量，无标注的是正向变量。180第 2 期宋新平等

26、：大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源汽车行业行处理，使用模糊综合评价方法确定指标值。（1）数据清洗直接从互联网采集到的数据有很多噪声，如空数据、重复数据、缺失值等，需要进行去重和缺失值填充（使用均值填充）等操作。（2）客户评论文本数据结构化处理分词与词性标注：使用 Python 专为中文分词和词性标注所提供的 jieba库，将评论文本处理为计算机容易识别的数据信息。去停用词：对于分词结果中含有的诸如“除了”“等等”“那么”等停用词，基于预先整理的停用词表，使用Python编写程序将其去除。关键词提取与特征抽取：基于 TF-IDF（term frequency-inve

27、rse document frequency）算法从上述表2新能源汽车企业部分数据数目编号BYBQGLCASQZTHMJLJHDFGQCCWLXPLX股票代码002594600733HK0175000625600104000980000572000550600418600006601238601633NIOXPEVLI股票名称比亚迪北汽蓝谷吉利汽车长安汽车上汽集团众泰汽车海马集团江铃汽车江淮汽车东风汽车广汽集团长城汽车蔚来汽车小鹏汽车理想汽车公司全称比亚迪股份有限公司北汽蓝谷新能源科技股份有限公司吉利汽车控股有限公司重庆长安汽车股份有限公司上海汽车集团股份有限公司众泰汽车股份有限公司海

28、马汽车股份有限公司江铃汽车股份有限公司安徽江淮汽车集团股份有限公司东风汽车股份有限公司广州汽车集团股份有限公司长城汽车股份有限公司上海蔚来汽车有限公司广州小鹏汽车科技有限公司北京车和家信息技术有限公司口碑数据（条）98115718336544015421582084136610064582988922301专利数据（条）1885915261798254163623520439171713092842845471422329965711站点索引量数据（条）24527714739582421945913304416153978268618565634387258478812110518668108

29、51图4数据处理流程181第 42 卷情报学报处理后得到的数据中提取客户口碑关键词，通过同义词合并等方式对关键词进行归类整理，得到客户口碑情感特征及其同义词，如表3所示。计算口碑特征情感倾向值：以标点符号作为评论文本中各短句划分的界线，基于每个特征所在的短句，采用 Python 提供的 SnowNLP 库计算各口碑特征同义关键词的用户情感倾向值，并对其取均值，以此作为客户评论数据源下客户口碑测度变量在客户情感方面的量化值。然后，对获得的客户评分值和基于情感分析得到的客户情感倾向值取均值，就得到客户口碑指标的各测度变量值。（3）同向化与无量纲化针对不同性质的指标，使用极差法，采用以下函数3

30、5对其同时进行同向化和无量纲化处理。正向指标：xij=|xij-mini xijmaxi xij-mini xij,mini xij maxi xij1,mini xij=maxi xij(1)逆向指标：xij=|maxi xij-xijmaxi xij-mini xij,mini xij maxi xij1,mini xij=maxi xij(2)适中指标：xij=1-|xij-|maxi|xij-|(3)其中，为该指标的最佳值，此处取平均值。（4）计算权重CRITIC（criteria importance though intercrieria correlation）法在对指标赋权时，

31、将指标间可能存在的差异性和关联性均考虑了进来，是一种相对客观有效的赋权方法。本文使用一种改进 CRITIC 的方法对指标赋权36。主要步骤如下。计算指标j的标准差j：j=i=1n(bij-bj)2n-1(4)其中，-bj=1ni=1nbij。计算指标j的冲突性Rj：Rj=t=1n(1-|rtj|)(5)其中，rij为指标t与指标j之间的相关系数。计算指标j的信息量Cj：Cj=j-bjRj(6)计算各指标的客观权重Wj：Wj=Cjj=1nCj(7)（5）基于等级隶属度确定指标值确定评价因素集和评判集。使用xi（i=1,2,p）表示评价对象的指标，xij（j=1,2,pi）表示每个指标对应的测度变

32、量。将 V=V1,V2,V3,V4=弱,中,强,极强作为企业竞争力的评价等级集合。构造等级隶属函数。选择指派方法中的正态分布作为等级隶属函数的构造方法，正态隶属函数Ak(xij)的参数mijk（k=1,2,3,4,5）与cijk的确定方法分别为mijk=12(Nijk+Nijk+1)(8)cijk=Nijk+1-Nijk2-ln=Nijk+1-Nijk2-ln 0.5(9)其中，Nijk（k=1,2,3,4,5）的值分别根据Nij1=min xij1,xij2,xijr(10)Nij2=(Nij3-Nij1)+Nij1(11)Nij3=(xij1+xij2+xijr)/r(12)Nij4=(

33、Nij5-Nij3)+Nij3(13)Nij5=max xij1,xij2,xijr(14)计算；=0.618。计算指标值。具体步骤如下：Step1.将隶属函数归一化，得到变量xij对于Vk的最终隶属度ijk及指标xi的单因素（各测度变量）评价结果i。Step2.计算指标xi的综合评判向量Si：Si=Wiji(15)其中，为模糊合成算子，此处选择适用性较好的乘与有界算子 M(,)。表3客户口碑情感特征客户口碑情感特征空间动力操纵能耗舒适性外观内饰性价比同义关键词空间、轴距、后备箱、储物动力、起步、加速、电动机、速度操纵、方向盘、刹车、按键能耗、耗电量、电耗、电量、用电舒适性、舒适度、隔音、手感

34、、软硬外观、外形、颜值、车漆、大灯、车灯、造型、线条内饰、材质、用料、大屏、屏幕性价比、价格、价位、性能、费用、成本182第 2 期宋新平等：大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源汽车行业Step3.基于模糊综合评价法中的加权平均原则，根据xi=i=14viSkii=14Ski(16)计算得到指标xi的综合评价值，并根据上文步骤（2）和步骤（3）得到无量纲化的指标值x*i及权重Wj。其中，v=(v1,v2,v3,v4)=(1,2,3,4)为评判级 V=V1,V2,V3,V4的等级赋值。根据上述数据处理步骤，得到各样本企业无量纲化后的指标值和

35、权重，如表4所示。3.3模型构建竞争对手识别本质上是对企业进行分类的过程。传统研究中常采用 k-means 硬聚类来实现分类目的37，但随着大数据下行业壁垒降低，该算法易导致竞争对手识别结果不够精细，效果差强人意。模糊 C 均值聚类（fuzzy C-means clustering，FCM）算法打破了该局限性，它采用隶属度函数表征样本间亲疏程度，能很好地迎合竞争对手识别这类具有不确定性、界限不分明、动态性的问题分析诉求38。因而，本文使用 FCM 算法构建竞争对手识别模型，如图5所示。模型主要包括4个阶段。（1）从社会化媒体平台上的用户数据中提取并表4企业无量纲后的指标值和权重企业BYBQGL

36、CASQZTHMJLJHDFGQCCWLXPLX权重客户重叠度10.0552791940.0365693100.1823652040.6428467410.05069730200.0197005650.0141921350.0002351420.2784230340.0320671860.5038860470.1211940970.0098839990.192661008客户口碑0.6377560090.4916139090.6808130690.6275110590.8340414340.42828875000.7659777630.3916248770.4640184100.6661885

37、150.53675004710.8018408170.8517665880.053856103用户关注度0.2522546420.02638559310.1115594020.1901577550.01019126100.0011447720.0024710320.0192935920.1775373450.1718414070.0341756250.0478430830.1128577410.280503955产品优势度0.5673439880.4675095400.6863937140.3892256880.2436215420.05586310300.1347315890.4618454

38、830.2495502950.6622693650.2888743630.81115065410.8220789690.095309939财务能力0.59214045300.6079949160.6724779030.7048549600.0067273190.2012431930.6462635760.2873977750.6359450310.4596870940.64957213910.3747954090.8983308300.086203432技术能力10.5575878180.6744517100.2996959470.2421645480.2220228990.014162842

39、00.4266037110.2607246870.2963406190.3266295590.4225305150.3427697310.0411554070.103033687营销推广能力10.0563285150.2344012870.0756491020.5405916520.06211650500.0069914330.0719896520.0219607940.3531737750.1919901430.0823867470.0724112670.0404135920.188431877图5竞争对手识别模型183第 42 卷情报学报计算出表征市场共通性的指标值，即客户重叠度、客

40、户口碑、用户关注度，从企业数据中提取并计算出表征企业资源能力的指标值，即产品优势度、财务能力、技术能力、营销推广能力。（2）基于 FCM 算法建立竞争对手识别模型39。将FCM算法的目标函数用Jm(,)=i=1cj=1nmij|xj-i|2(17)i=1cij=1,j=1,2,3,n(18)表示。其中，c为聚类的簇数；n为样本数目；m为模糊加权指数；xj为各样本的数据向量；i为各个类的类中心向量；ij为样本xj属于某一类i的隶属度；|xj-i|表示样本xj到聚类中心i的欧几里得距离。由此，基于FCM算法的建模过程如下：Step1.初始化基本参数：聚类类别数目 c 的范围为 2,n，模糊隶属度因

41、子为 m，最大迭代次数为 T，收敛精度为，初始时的隶属度矩阵为U()0，令 t=1 表示第一次迭代。Step2.计算类中心()ti：()ti=j=1n()t-1ij)mxjj=1n()t-1ij)m(19)Step3.更新隶属度矩阵()tij：()tij=1k=1c()|xj-()ti|xj-()tk|2m-1(20)Step4.计算目标函数：当满足|J()tm(,)-J()t-1m(,)|或迭代次数大于等于 T 时，迭代结束，输出聚类结果。否则，令t=t+1，转至 Step2。（3）聚类效果评估与竞争对手识别。将准备好的样本数据集带入FCM聚类模型，通过L(c)=i=1cj=1

42、nmij|i-x|2/(c-1)i=1cj=1nmij|xj-i|2/(n-c)(21)对聚类的有效性进行评估40，得到最佳聚类数目以及聚类结果，同属于一个类的企业即互相为彼此的竞争对手。其中，L(c)是 FCM算法有效性的评估指标值，L(c)越大，表征得到的聚类效果越好；x 是样本数据的中心向量，即-x=1ni=1cj=1nmijxj。（4）竞争对手识别结果对比分析。使用fi=j=1pWjxij,i=1,2,n(22)计算企业综合竞争力，根据结果排序来对基于综合、市场、行业 3 种视角下的竞争对手识别结果进行对比分析。理论上讲，属于同一聚类类别的企业综合竞争力应相近，即竞争力水平差异小的企业

43、应该视为彼此的竞争对手36。4实验结果与分析4.1竞争对手识别与分析（1）聚类结果本文使用 MATLAB 软件工具编写 FCM 功能代码，由于样本数为 15，可设置初始聚类数目 c 取值为 2、3，模糊隶属度因子 m为 2.0，最大迭代次数 T为 200，收敛的精度为 0.00001，使用随机函数对隶属度矩阵U()0进行初始化。将基于行业与市场综合视角的数据集带入 FCM 模型，计算得到不同 c值下的 FCM 算法有效性评估指标：L(2)=7.834330113L(3)=10.14101028。由此得到最佳 c 值为 3。当 c=3时，FCM 算法共经过 160 次迭代达到稳定，得到的隶属度矩

44、阵如表5所示。为了更清晰地观察各样本企业所属聚类类别，本文基于 Python 的 matplotlib 模块，根据表 5 绘制企业类别分布三维立体图，如图6所示。图 6 中的 X、Y、Z 轴分别代表企业在聚类1、2、3上的隶属度。根据图 6 与模糊数学的最大隶属度规则，得到如表6所示的聚类结果。表5企业隶属度矩阵123123BY0.9481320.0294150.022453JH0.0269190.1373130.835768BQ0.0791300.2378430.683026DF0.0365170.2651500.698333GL0.2481440.4515730.300282GQ0.070

45、3790.7402470.189374CA0.0336200.7057570.260623CC0.0490980.4339650.516937SQ0.3244360.4316310.243933WL0.1795750.6342020.186223ZT0.0530070.1494930.797500XP0.0941740.6494540.256372HM0.0838750.2109180.705207LX0.0724720.7316360.195891JL0.0666760.4272350.506089184第 2 期宋新平等：大数据下基于跨域多源信息融合的竞争对手识别模型研究基于新能源汽车行业

46、基于上述方法，分别将市场、行业视角下的指标数据集带入构建好的 FCM 模型，根据 3.3 节所述的综合评价排序和对比分析法，发现相比基于单一市场或行业视角而言，基于综合视角下的聚类结果中各类别的企业排名均相近，竞争对手识别的效果较好。因此，基于双视角下跨域多源信息融合的模型能够有效排除由于单一视角信息源而造成竞争对手识别结果片面性的干扰，从而使竞争对手识别更加准确和高效。（2）竞争力分析根据表 6 企业聚类结果，国内 15 家新能源汽车样本企业共被分成三类，各类成员特征如图 7 所示。其中，a 类成员为比亚迪（BY），不仅综合竞争力排名最靠前，多个分项指标也名列前茅，属于国内新能源汽车行业领先

47、型企业，竞争力等级为优；b 类成员包含吉利汽车（GL）、长安汽车（CA）、上汽集团（SQ）、广汽集团（GQ）、蔚来汽车（WL）、小鹏汽车（XP）、理想汽车（LX），总体竞争力较强，尤其在客户口碑、用户关注度等层面上表现较好，属于市场优势型企业，竞争力等级为良；c 类成员包含北汽蓝谷（BQ）、众泰汽车（ZT）、海马集团（HM）、江铃汽车（JL）、江淮汽车（JH）、东风汽车（DF）、长城汽车（CC），整体竞争力低于样本平均水平，且在多个分项竞争力指标上表现不佳，要赶上行业内其他企业竞争力水平还有较长一段路要走，属于成长积累型企业，竞争力等级为弱。a 类：行业领先型企业。该类成

48、员比亚迪各竞争力维度均超出样本平均水平，在客户重叠度、技术能力、营销推广能力上排名第一，行业优势明显。这源于比亚迪不仅拥有不同类型和配置的新能源汽车，能满足不同使用场景与客户的需求；且在电池、电机和电控等核心技术方面也有较为纵深的产业布局，专利数量达 18859 条，使其足以占据技术研发优势。这在一定程度上说明了资源能力是企业发展的核心竞争力，尤其技术能力更是新能源汽车行业发展的关键驱动力量，企业应该重视技术研发投入。b 类：市场优势型企业。该类成员整体竞争力相对较强，尤其市场竞争优势突出。其中，吉利汽车在用户关注度方面排名第一，这得益于其通过图6竞争对手聚类结果可视化表6企业聚类结果类别12

49、3聚类结果BYGL、CA、SQ、GQ、WL、XP、LXBQ、ZT、HM、JL、JH、DF、CC图7各类企业竞争力特征185第 42 卷情报学报推出新品牌以及与大型企业合作等方式，扩大了品牌影响力并吸引了大量用户眼球；蔚来汽车的客户情感均值高达 0.678489，在客户口碑方面排名第一，这源于其重视客户价值，一直将为用户创造超越期待的新能源汽车拥有体验作为企业发展目标。由此发现，互联网下的客户价值对企业竞争力的提升变得越发重要。因此，在保证资源能力的前提下，企业应注重打造客户口碑、用户关注度等方面的市场核心竞争力。c 类：成长积累型企业。该类成员整体竞争力较弱，尤其海马集团在客户重叠度、客

50、户口碑、用户关注度、产品优势度等多个维度上的竞争力均排名最末位，处于行业的劣势地位。究其原因，受2019 年深交所退市风险的警告，海马集团在 2020年只能依靠变卖房产来回笼资金，入不敷出，对其他企业竞争力水平望尘莫及。（3）竞争对手有效识别通过聚类结果不仅能达到对企业竞争力程度进行分类的目的，而且能更加有效地识别出企业的主要和潜在竞争对手。蔚来汽车作为国内互联网造车新势力的先锋和领跑者，发展迅速，当前已在新能源汽车市场上占据重要位置。因此，选择其作为目标企业进行竞争对手分析具有典型代表意义。根据图 7 发现，在客户重叠度、用户关注度、营销推广能力等维度上，吉利汽车、上汽集团与广汽集团超过或接

展开阅读全文