基于合作者网络社区发现的学科主题分析——以国际统计学期刊为例.pdf

资源描述

1、经济管理学刊基于合作者网络社区发现的学科主题分析以国际统计学期刊为例张妍，厦门大学经济学院，；潘蕊（通信作者），中央财经大学统计与数学学院，；方匡南，厦门大学经济学院，。作者感谢国家自然科学基金面上项目（）对本文研究的支持。作者感谢匿名审稿人和编辑部的宝贵意见，当然文责自负。张妍潘蕊方匡南摘要：随着大科学时代的到来，科研合作现象越来越普遍。为了了解当前主流研究主题以及科研学者之间的科研合作模式，使得科研学者对学科主题有更好的认知，建立更高效的合作团体，提高科研产出，促进学科发展，本文以国际统计学期刊为例对学科主题进行了深入的研究。首先构建合作者网络并分析其基本属性，其次提取其核

2、心网络并分析其连通分量结构，最后利用方法和正则化谱聚类算法对第一、二大连通分量进行社区个数的确定及社区划分。结果表明，统计领域科研合作现象日益普遍，合作者网络具有明显的社区结构；结合论文信息和作者属性，本文得到个不同的学科主题，并发现不同社区之间存在交叉合作的现象，同一社区内部存在不同学科主题的融合。此外，在科研合作模式方面，本文发现同一学科主题或科研单位的学者更容易产生合作关系，同一社区的学者发表论文的期刊具有明显的相似性。关键词：科研合作；学科主题；合作者网络；社区发现中图分类号：分类号：一、引言复杂网络一般是指具有高度复杂性的网络，包括了现实世界的各种元素和它们之间的各种关系。网络中

3、的各种元素称作节点，节点之间的关系称作边。复杂网络以丰富的形式存在于人们的生活当中，例如微信用户之间的好友网络、城市之间的交通网络等。近年来，随着人们对网络结构数据的不断关注和深入研究，复杂网络已被广泛应用到众多学科和场景之中，包括社交网络（贺建风和李宏煜，）、贸易网络（王涛等，）、合作网络（吴翌琳和吴洁琼，）等。复杂网络具有三种特性，分别是小世界特性、无标度特性和社区结构特性。其中，社区结构特性是指网络中的节点会呈现聚集性。社区结构普遍存在于复杂网络中。社区通常又被称为簇或模块，表示可能具有相同或相似性质的个体的集合。例如，在论文合作者网经济管理学刊第卷络中，属于同一社区的作者之间的合作

4、次数相对较多，这些作者的研究主题也比较相似。社区发现又被称为社区探测、社区识别或社群发现等，是一个复杂而有意义的过程。在学术研究方面，社区发现方法成为研究知识网络的新视角，被广泛应用于作者合作网络、引文网络等，从而可以探索学科的主要研究主题或作者之间的合作模式（，；，）。近几年，发现及分析复杂网络中的社区结构受到了越来越多学者的关注。然而，目前许多社区发现方法需要预先设定网络中的社区数量。交叉验证（）是模型选择和参数调优任务的首选工具（，）。选择合适的社区数量就是一个模型选择的问题，但是直接对网络结构数据进行交叉验证仍然具有挑战性。由于将网络节点进行分割可能会破坏网络结构，因此交叉验证不能直接

5、适用于网络，需要做进一步改进。目前，关于将交叉验证应用于网络的相关研究还较少，使用交叉验证自动确定网络的社区数量是当前社区发现领域的新难题，值得深入研究。随着大数据时代的到来，统计学在挖掘大数据的价值中扮演着极其重要的角色。目前，在很多学科领域中都可以见到统计学的身影，例如生物学、经济管理、交通运输等。统计方法及模型也逐渐丰富起来，包括非参数统计、贝叶斯统计、变量选择等。本文以年国际统计学期刊为例，利用交叉验证对其合作者网络进行社区个数的确定，并使用正则化谱聚类算法挖掘合作者网络中的社区结构，提炼每个社区的研究主题等特征，以此挖掘统计学者之间的合作模式以及统计学当前的研究热点。本文的研究对了

6、解和掌握统计学的发展现状和核心研究群体具有重要意义。二、相关研究本文利用交叉验证的方法确定统计学期刊论文合作者网络的社区个数，再对该网络进行社区发现。在这一部分，本文回顾了目前国内外对科研合作、社区发现算法和社区个数确定的研究现状。（一）科研合作科研工作者是推动学科发展的重要力量，在大科学时代，越来越多的学者倾向于合作研发，科研合作现象日益普遍。通过科研合作，学者之间可以优势互补，避免重复研究。合作网络具有多种形式，例如地区合作网络（李文辉等，）、项目合作网络（钟自然等，）以及作者合作网络（吴翌琳和吴洁琼，）等，其中合著论文最能体现科研合作。（）对的历史数据进行分析，发现合著文献往往更受学者

7、们的认可。不少学者通过分析作者合作网络来挖掘其中隐藏的信息。吴翌琳和吴洁琼（）以中国科技创新领域的核心作者为研究对象并构建作者合作网络，发现科技创新领域的核心作者协同创新程度较低，不利第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例于科创研究的发展。李海林等（）利用聚类算法和决策树算法分析期刊作者合作网络，从而反映不同网络结构特征对团队创新绩效的影响。张美书等（）利用核模型来对论文及专利的作者合作网络进行凝聚性特征分析，从而为培养高水平科研团队提供指导。部分学者还利用社区发现技术来研究作者合作网络数据，并从中发现同一社区内部和不同社区之间的作者合作特征。（）使用

8、社区发现技术研究一个多机构、跨学科的研究小组的合作网络，并将作者合作网络中发现的结构性社区和组成该网络的学者的社会学术特征进行比较，发现同一部门或机构的作者之间更容易发生合作关系。（）使用社区发现技术研究年发表在塞尔维亚数学期刊的论文的作者合作网络，从而发现网络的结构特征，揭示了科学合作的特征模式以及理解作者社区的组织。（）做了一个非常有趣的研究，他们收集了年上关于网络社区发现的相关文章，构建作者合作网络，通过社区发现技术将作者分为组，并根据每个社区的作者发表的文章的关键词来设置社区的标签。（二）社区发现算法近年来，学者们提出了许多社区发现算法，用于揭示网络的结构特性和动态行为特征。根

9、据社区发现算法的适用网络类型可以对算法进行分类，常见的分类方法有以下两种：一是有向网络与无向网络的研究。针对无向网络，目前已有大量的社区发现算法被提出（，）。然而，在有向网络中进行社区发现是一项具有挑战性的任务。针对有向网络的社区发现问题，处理边的方向性的最常见方法是忽略它，即将有向网络转化为无向网络。但是，这种简单的处理并不能得到满意的结果，因为一些潜在的信息会被忽略。目前，应用在有向网络中的社区发现算法可以分为两种：一种是扩展应用在无向网络中的社区发现算法，另一种是利用边的方向性提出新的社区发现算法（，）。二是静态网络与动态网络的研究。与动态网络相比，在静态网络中进行社区发现较为容易。针对

10、静态网络，存在多种社区发现算法（，），这些算法大多都是基于优化的算法，即根据定义的目标函数寻找最优解（，）。模块化最大化（，）和谱聚类（，）是静态网络中识别社区的常见方法。然而，大部分真实世界中的网络在本质上是动态的，部分学者也提出了一些研究动态网络演变行为的社区发现方法。（）提出了一个动态社区发现的框架，通过识别相对稳定的层次聚类的核心、跟踪已出现的社区和发现新的社区来研究大型动态网络的社区结构的演化。（）提出了网络的动态结构聚类算法，该算法计算速度快、损失低，可用于对网络进行动态社区探测。（三）社区个数的确定目前，学者们已经提出了大量的社区发现算法，这些算法大多假设社区的数量经济管理学刊

11、第卷是先验已知的。然而，在现实世界的网络中，社区数量通常是未知的，需要去估计。因此，如何估计社区个数对于社区发现算法来说是个很重要的问题。近年来，部分学者提出了若干可以估计社区个数的算法，（）和（）基于连续检验在块模型下提出了估计社区个数的方法；（）基于贝叶斯推断提出的聚类算法可以在不影响速度的情况下精确地估计随机块模型中的社区数量；（）提出了一种基于图的海瑟矩阵或非回溯矩阵的谱特性的方法来估计群落的数量，该方法在多种模型和大范围参数下均有良好的性能。近几年，部分学者将交叉验证方法用于确定社区个数。（）提出了一种基于随机块模型及其变种的模型选择交叉验证方法来选择社区个数。该方法低估社区的数

12、量概率接近于零，然而这并不排除过多选择社区的可能性（，），且该方法只适用于块模型。（）提出了一个边交叉验证（，）方法来选择社区个数。相比于前者，不局限于块模型，且适用于有向或无向网络、有权或无权网络。三、数据和方法（一）数据来源与预处理本文从上爬取了年个国际统计学期刊上发表的共篇论文信息。根据美国科学情报研究所年版期刊引证报告中的影响因子，本文列举了数据集中影响因子排名前十的期刊，见表。对于每一篇论文，本文收集了如下信息：论文题目、期刊名称、发表日期、作者、作者单位、摘要、关键词和引文列表。表数据集中影响因子排名前十的统计学期刊序号期刊名称出版国家或地区影响因子美国美国美国

13、英格兰美国英格兰英格兰美国美国美国注：数据来源于年。第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例本文的数据预处理主要是识别文章所有作者的唯一性。由于不同期刊上（甚至是同一期刊上）发表的论文呈现的作者名字格式不同，存在姓名缩写及所属单位变化的问题，因此数据清洗是一个很大的挑战。为了识别文章所有作者的唯一性，首先，本文使用开放研究者与贡献者身份识别码（）来区分不同作者。其次，对于没有标识的作者，本文使用作者的姓名和所属单位来识别作者，若两位作者的姓名和所属单位都很相似，则认为这两位作者是同一人。最后，由于可能出现中文名和所属单位都很相似，但却不是

14、同一人的情况，例如，既可指，又可指，因此本文有选择性地对中文名进行了人工核实。（二）方法基于（）提出的方法，本文进一步将其运用于确定核心网络的社区个数，详细步骤如下：算法：输入：作者核心合作网络的邻接矩阵、节点数量、可能的最大社区个数、重复试验的次数和、训练集占比。输出：社区个数。对于：（）对于：从的上三角矩阵对应的节点对中随机抽取()个节点对作为训练集，其余节点对作为验证集。将的上三角矩阵中所对应的值设为，的下三角矩阵中对称位置的值也设为，得到一个新的对称矩阵记为。对做分解，得到前个奇异值及其对应的左奇异向量构成的矩阵和右奇异向量构成的矩阵。对于：计算，其中（）。计

15、算（）()（，）（，）。（）令。输出()，即确定的社区个数。注：首先，本文探究作者核心合作网络的最大连通分量中的社区个数，令，最终确定最大连通分量的社区个数为。其次，本文探究作者核心合作网络的第二大连通分量中的社区个数，令，最终确定第二大连通分量的社区个数为。（三）社区发现算法在方法的具体使用中本文利用了谱分解的思想来选择社区数量，因此在后经济管理学刊第卷续如果能够利用邻接矩阵的谱信息来进行社区发现，得到的结果会更加合理。本文使用正则化谱聚类算法进行社区发现。正则化谱聚类是为了提高稀疏网络中的谱聚类性能而提出的一种方法，但正则化本身往往依赖于一个调节参数。本文使用（）提出的正则化

16、项，即将通常的标准化图拉普拉斯算子（是节点的边权和的对角矩阵）中邻接矩阵替换为正则化邻接矩阵，计算公式为：其中，是网络中节点的平均边权和；是一个维的全列向量，是其转置；是调节参数，取值通常在内。接着对进行特征值分解，得到前个特征值对应的特征向量，构成一个的矩阵。最后对进行标准化，并对的行进行均值聚类，得到每个节点的聚类结果。聚类结果即是每个作者的社区分配结果。正则化项可以提高集中度，但同时也会带来更多噪音，需要正确地选择调节参数来平衡这两种作用，才能提高聚类效果。为了达到改进聚类效果的目的，本文使用来选择合适的调节参数，损失函数采用（）提出的计算两个聚类结果的共聚类差

17、异。对于本文研究的作者核心合作网络，本文将节点对划分次训练集和验证集，并设置的候选值为。如果，即不进行正则化，在作者核心合作网络这种稀疏邻接矩阵的情况下，谱聚类效果很差。首先，本文使用选择作者核心合作网络的最大连通分量的调节参数，发现当调节参数取时，共聚类差异相对较小，正则化谱聚类效果最好。因此，本文选择作为最大连通分量的正则化谱聚类的调节参数。接着，本文使用选择作者核心合作网络的第二大连通分量的调节参数，发现当调节参数取时，共聚类差异相对较小，正则化谱聚类效果最好。因此，本文选择作为第二大连通分量的正则化谱聚类的调节参数。为了体现本文使用的社区发现算法的合理性，本文对比了

18、正则化谱聚类以及传统谱聚类算法在核心合作者网络的第一大连通分量上的社区划分效果，见表。由于社区发现是个无监督的问题，因此没有统一的评价指标，本文选取了四个常用的评价准则来判断社区划分的好坏，分别是密度（）、传导性（）、内部密度（）以及社区规模。其中，密度计算了位于社区内部的边的比例；传导性是基于如果一个社区连接良好，那么必须删除大量的边才能将其等分的思想；内部密度体现了社区内部连边的密集程度。这三个指标越大，社区发现效果越好。由表可知，在由选定社区个数为的情况下，正则化谱聚类算法的效果优于传统谱聚类算法。此外，本文还比较了其他三个经典的社区发现算法，分别是算法、算法以及算法。这三个社

19、区发现算法不需要事先已知社区数量。从表可以看出，虽然这三个方法在前三个评价指标上表第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例现较好，但是从其划分的社区规模来看，算法和算法均划分了个社区，且都存在一个超大规模的社区，该社区包含了网络中将近一半的作者。从社区划分结果来看，这两个算法划分的社区过于粗糙，不符合实际。算法划分了个社区，从社区规模来看，该算法划分的社区中存在只有两三个作者的社区过多，并没有很好地体现群体的概念。因此，综合上述结果比较，本文认为使用算法确定社区数量并结合正则化谱聚类算法进行社区发现，能够对合作者网络进行较好的社区划分。表社区发现

20、算法结果比较社区发现算法密度（）传导性（）内部密度（）社区规模正则化谱聚类，传统谱聚类，注：从密度、传导性、内部密度和社区规模四个方面比较正则化谱聚类算法和其他社区发现算法的效果。综合来看，正则化谱聚类算法的效果最好。四、结果分析（一）科研合作模式及核心作者分析本文采用平均每篇论文的作者人数指标来分析作者群体的科研合作模式。图展示了平均每篇论文的作者人数的年变化曲线。从图可以看出，年平均每篇论文的作者人数呈现波动上升的趋势。年每篇文章平均有两位作者，年每篇文章平均有三位作者。这表明近年来统计学者越来越趋向于合作发表论文。本文挑选出由两个或两个以上作者发表的论文，即该论文属于合著论文，作

21、者之间存在合作关系。合著论文共有篇，占比。根据合著论文的作者信息建立合作者网络的边数据。例如，一篇论文由、三个作者完成，则边数据经济管理学刊第卷有、。根据边数据构建一个无向有权重的作者合作网络，网络中的节点为作者。作者之间有连边则代表这两个作者之间有过合作。边的权重代表这两个作者之间的合作次数。构建出来的网络中共有个节点和条边。图年平均每篇论文的作者人数的变化趋势注：年平均每篇论文的作者人数呈波动上升趋势。网络中节点的度是指与该节点相连接的节点的个数。在合作者网络中一个节点的度表示该节点合作的对象总人数，体现了该作者的合作广度。某个作者的度越大，说明该作者的合作范围越广。网络中节

22、点的度可表示为其中为网络中的节点总数，表示节点和节点之间是否有连边。若有连边，则；若无连边，则。始终令。为该网络的邻接矩阵。本文构建的合作者网络中有的节点（个）的度为，即仅与网络中的另外一个作者合作过。表展示了度较大的前三位统计学者，并且仅展示作者最常使用的姓名和最新的科研单位，下文同理。从表中可以看出，来自加拿大的麦克马斯特大学的，的度最大，为，即该作者与其他位统计学者有过合作关系。，也是所有作者当中在个统计学期刊上发表论文数量最多的作者，高达篇。表度前三的统计学者作者姓名科研单位国家度发表论文数，加拿大，美国，比利时注：一个作者的度表示其合作对象的人数。第期张

23、妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例（二）核心网络及其连通分量分析许多大型网络都具有核心边缘结构（，），合作者网络通常也具有这种结构。核心包含高度连接的节点的子集，而外围则包含与核心节点连接比较弱且度较小的节点。本文主要研究合作者网络的核心网络。根据（）提取核心网络的思路，删除网络中边权之和小于的节点，并不断循环，直至网络中的节点不再变化。本文选择研究的核心网络。该核心网络有个节点，条边。网络结构见图中间图。图中节点大小和颜色深浅代表了节点度的大小，度越大，节点颜色越深，半径越大。连边的粗细代表了两个节点之间的边权大小，边权越大，连边越粗。从图中

24、间图中可以发现，该网络中有明显的社区结构。因此，对该网络进行社区发现研究是合理的且具有很强的实际意义。作者核心合作网络共有个连通分量，最大连通分量有位作者，占核心网络作者总数的；第二大连通分量有位作者，占核心网络作者总数的；其余连通分量的作者数量均在位以下。根据连通分量已经可以对大部分统计学者进行社区划分，例如图中间图里方框中的三个连通分量。图的左图和右图分别展示了核心网络的最大连通分量和第二大连通分量的结构图，可以看出，最大连通分量以及第二大连通分量的社区结构仍需进一步探索，因此接下来本文将分别对这两个连通分量进行社区划分。图作者合作网络核心网络的连通分量结构图（中）、最大

25、连通分量结构图（左）及第二大连通分量结构图（右）注：图中节点颜色越深，半径越大，代表其度越大。除了左右两个连通分量外，其余连通分量中的人数均较少。（三）社区划分及社区特征分析本文分别使用正则化谱聚类算法对作者核心合作网络的最大连通分量和第二大连通分量进行社区发现，根据划分结果，属于同一社区的作者之间合作相对紧密，属于不同社区的作者之间合作相对较少，社区发现效果较好。将其余个连通分量每个连通分量当成一个社区，加上最大连通分量和第二大连通分量划分的社区，一共有个社区。个社区中最大的社区有人，最小的社区有人，其中有个社区的人数在人以上，有个社区的人数在人以下。本文按照社区大小对社经济

26、管理学刊第卷区进行排序编号，最大的社区编号为社区，最小的社区编号为社区。本文比较了核心合作者网络及其个社区构成的子网络的统计性指标，见表。统计性指标有网络的密度、平均度、直径、平均最短路径长度、全局群聚系数以及平均群聚系数。其中，网络密度衡量了网络中各节点之间联系的紧密程度；网络平均度可以代表网络中各个节点之间的直接关联程度；网络直径是指任意两个存在有限距离的节点之间最短距离的最大值；网络平均最短路径长度即网络中所有节点之间的平均最短路径长度；网络全局群聚系数和平均群聚系数刻画了节点的邻居也互为邻居的概率。表合作者网络及其各社区的统计性指标网络密度平均度直径平均最短路径长度全局群聚系数

27、平均群聚系数核心网络个社区最小值最大值平均值注：从网络的密度、平均度、直径、平均最短路径长度、全局群聚系数和平均群聚系数六个方面比较核心网络及个社区。个连通分量被划分为个社区，这表明不同的研究团体之间存在交叉合作的现象，例如图中所展示的三个社区。图用节点形状来区分不同社区，可以发现，三个社区的一些作者除了与自身社区内部作者合作紧密之外，也与其他两个社区的作者有过合作。结合数据可知，三个社区的部分作者在年合作发表了两篇文章。此外，部分圆形社区（图下方）的作者和部分方形社区（图左上方）的作者在年合作发表了一篇文章；部分三角形社区（图右上方）的作者和部分圆形社区的作者在年

28、和年合作发表了两篇文章；部分方形社区的作者和部分三角形社区的作者在年合作发表了一篇文章。这六篇合著论文均是在期刊上发表的关于提出或改进新的软件、平台、库等类型的文章。图三个社区示例注：社区内部的作者相比社区之间的作者合作更加紧密。第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例同一社区的作者之间通常有相似之处，本章将从研究主题、发表期刊和作者科研单位这三个角度对社区进行特征分析，旨在找出社区之间的相同点和不同点。1.社区特征统计学科主题分析有合作关系的作者通常有相似的研究主题，为了找到每个社区作者的主要研究主题，本文统计了每个社区作者发表论文的关键词。统计社

29、区的关键词出现频次的方法是：从所有论文中找出作者中包含社区的作者的论文集合；计算该论文集合中每篇论文包含社区的作者的人数；将人数作为对应论文关键词的权重，即若一篇论文中包含两个社区的作者，则认为这篇论文的所有关键词都出现了两次；合并相同的关键词频次，得到论文集合中所有关键词出现的次数。本文结合每个社区作者发表的论文及关键词来探索社区的研究主题，共得到个不同的研究主题，见表。表个研究主题列表研究主题生物统计学（）函数型数据分析（）贝叶斯分析（）优化设计（）变量选择（）统计推断（）纵向数据（）散度检验（）估计量（）渐近正态性（）线性回归（）密度估计（）生存分析（）降维（）成分数据分析（

30、）完全收敛性（）鲁棒性（）极大似然（）线性混合模型（）变点分析（）吉布斯抽样（）经验似然（）稳健估计（）灵敏度分析（）次序统计量（）缺失数据分析（）统计教育（）非参数统计（）估计（）注：研究主题涵盖了目前统计学的主要研究方向。部分社区存在交叉领域合作的情况，例如社区既有研究生物统计学的学者，又有研究渐近正态性的学者；社区既有研究灵敏度分析的学者，又有研究生存分析的学者；社区既有研究线性混合模型的学者，又有研究缺失数据分析的学者。经济管理学刊第卷在我们的数据集中，期刊较为特殊，存在篇论文的作者人数人。因此，在我们筛选出核心网络后，这些论文的作者都被保留了下来，且大都自成一个连通分量

31、。他们主要集中在除第一大连通分量以外的其他连通分量上。从图可以看出，这些连通分量都具有非常明显的社区结构，并且其作者大都研究生物统计学，所以本文重点展示第一大连通分量中各社区的特征。表展示了第一大连通分量中各社区的作者研究主题分布。每个社区展示了度排名前三的作者（括号中的数字是该作者的度的大小）和出现频次最高的前三个关键词。此外，为了更直观地展示每个社区的特征，我们进一步将同一社区中的节点合并为一个超节点，将社区间的连边作为超节点的连边，进而达到简化网络的目的。如图所示，第一大连通分量被简化为仅有个节点的网络，这个节点分别代表个社区。节点越大代表该社区规模越大。节点之间的连边代表这

32、两个社区的作者存在合作关系。图中的节点标签标明了该社区作者的主要研究主题。从表和图可以看出，第一大连通分量中的作者的研究主题较为广泛，除了生物统计学外，还有部分社区在研究变量选择和贝叶斯分析。表第一大连通分量各社区作者的主要研究主题社区作者（度前三）关键词（前三）研究主题（）、（）、（）、（）、（）、（）、（）、（）、（）（）、（）、（）、，（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例（续）社区作者（度前三）关键词（前三）研究主题（）、（）、（）、（）、（）、（）、（

33、）、（）、（）、（）、（）、（）、（）、（）、（）、（）、，（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、，（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、（）、注：部分论文缺失关键词，且发表在上的论文没有关键词，因此关键词仅供参考。经济管理学刊第卷图第一大连通分量各社区作者的主要研究主题的简化网络注：社区中的作者数量越多，节点越大；社区之间存在合作关系。2.社区特征发表期刊偏好分析为了探索不同社区的作者对发表期刊的偏好差异，本文统计了每个社区作者发表论文的期刊，并重点展示了第一大连通分量中各社区作者发表论文的期刊偏好，见表。在表

34、中，每个社区都展示了该社区作者参与发表的论文数量和出现频次最高的前三个期刊名称（括号中的数字是该期刊出现的频次）。此外，本文同样展示了第一大连通分量各社区作者发表论文的期刊偏好简化网络，见图。图中的节点标签是该社区作者发表论文最多的期刊。从表和图可以看出，同一社区的作者发表论文的期刊有明显的相似性。本文以社区和社区为例，分别分析这两个社区发表期刊的特征。表第一大连通分量各社区作者发表论文的期刊偏好社区论文数期刊（前三）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）第

35、期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例（续）社区论文数期刊（前三）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）注：同一社区的作者发表论文的期刊较为集中。图第一大连通分量各社区作者发表论文的期刊偏好简化网络注：节点标签仅标明出现次数最多的期刊。经济管理学刊第卷社区有名作者，共发表了篇论文，主要研究生物统计学中的生存分析。该社区中作者发表论文数最多的前五个期刊分别是、和，其中发表在上的论文最多，有篇。

36、从发表的期刊类型来看，前三个期刊都是典型的生物统计学期刊，与该社区作者的主要研究主题相符。社区有名作者，共发表了篇论文，是个社区中发表论文最多的社区，主要研究变量选择。该社区中作者发表论文数最多的前五个期刊分别是、，其中发表在上的论文最多，高达篇。这与近几年变量选择、方法一直是统计学的热门研究主题也有一定关系。3.社区特征科研单位聚集性分析属于同一单位的学者更容易相互认识并产生合作关系，为了探究每个社区作者的科研单位特征，本文统计了每个社区作者的科研单位分布。表展示了第一大连通分量中各社区作者的科研单位以及合作年份。每位统计学者仅考虑其最常出现的科研单位，每个社区展示了该社区作

37、者出现频次最高的前三个科研单位（括号中的数字是该单位出现的频次）以及该社区作者合作的年份区间。从表可以看出，同一社区的作者的科研单位有明显的聚集性。本文同样以社区和社区为例来分别分析这两个社区作者的科研单位特征。表第一大连通分量各社区作者的科研单位及合作年份社区科研单位（前三）合作年份（）、（）、（）（）、（）、（）（）、（）（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例（续）社区科研单位（前三）合作年份（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、

38、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）、（）、（）（）（）、（）（）（）、（）注：同一社区作者的科研单位具有一定的聚集性和地理上的邻近性。社区有名作者，主要研究生物统计学中的生存分析，在年期间每一年都有合作。该社区的作者主要来自北卡罗来纳大学教堂山分校和弗雷德哈钦森癌症中心，分别各有位统计学者。其中，来自北卡罗来纳大学教堂山分校的统计学者有、等人；来自弗雷德哈钦森癌症中心的统计学者有、等人。社区有名作者，有、等统计学者，主要研究变量选择，在年期间每一年都有合作。该社区的作者主要来自北卡罗来纳大学和北卡罗来纳大

39、学教堂山分校，分别有位和位统计学者。其中，来自北卡罗来纳大学的统计学者有、经济管理学刊第卷、；来自北卡罗来纳大学教堂山分校的统计学者有、。五、结论与展望本文爬取了年个统计学期刊上发表的篇论文信息，对其进行数据清洗，构建作者合作网络并提取其核心子图，得到的结论有：近几年来统计学者越来越趋向于合作发表论文。来自麦克马斯特大学的的度最大，为，即该作者与其他位统计学者有过合作关系。也是所有作者当中在个统计学期刊上发表论文数量最多的作者，高达篇。大部分统计学者与他人的合作次数都在次以下，但仍存在少部分统计学者与他人的合作次数较多，在次以上。作者核心合作网络具有明显的社区结构

40、。本文使用模型确定作者核心合作网络的最大连通分量和第二大连通分量的社区个数及调节参数，并使用正则化谱聚类算法对两个连通分量进行社区发现。作者核心合作网络一共被划分为个社区，得到的结论有：同一社区的作者之间合作相对紧密，属于不同社区的作者之间合作相对较少。不同的研究团体之间存在交叉合作的现象。本文根据作者信息，从研究主题、发表期刊和作者科研单位三个角度对个社区进行了特征分析。从社区统计学者的研究主题来看，得到的结论有：本文共得到个不同的研究主题，有生物统计学、变量选择、极大似然、生存分析、鲁棒性等。部分社区存在交叉领域合作的情况。从社区统计学者发表的期刊来看，同一社区的作者发表论文的期刊

41、有明显的相似性，例如社区的统计学者主要研究生物统计学中的生存分析，更偏向于在、等生物统计学期刊上发表文章；社区的统计学者主要研究变量选择，更偏向于在、等顶级统计学期刊上发表文章。从社区统计学者的科研单位来看，同一社区的作者其科研单位有明显的聚集性，例如社区的统计学者中来自北卡罗来纳大学教堂山分校和弗雷德哈钦森癌症中心的统计学者较多；社区的统计学者中来自北卡罗来纳大学和北卡罗来纳大学教堂山分校的统计学者较多。此外，本文还存在一些值得关注和探索的问题：在衡量作者的重要性方面，本文采用的度指标会受到学者参与研究的时长影响。例如，一个参与统计研究年的学者相比于一个参与研究仅年的学者更有时

42、间和机会来与不同的统计学者进行合作，因此前者的度更大，但这并不意味着研究统计时间越长，统计学者越重要。在社区发现方面，正则化谱聚类中使用了均值聚类，而初始聚类中心的选择对结果有一定的影响，因此在接下来的研究中可进一步探索其他社区发现算法。第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例未来，本文可进一步改进之处有三个方面：一是获取更快的计算资源，探究较大的作者核心合作网络，甚至是初始作者合作网络，得到更全面的统计学者社区结构和统计学研究主题。二是改进方法，提高确定社区个数的精确度。可以从两个方面进行改进：一方面，方法使用了类似（）的矩

43、阵低秩近似方法，可尝试改进矩阵填充方法，例如使用矩阵分解方法、方法以及方法；另一方面，尝试在方法中考虑网络中节点的特征，来提高模型选择的效果。三是改进正则化谱聚类算法，可以尝试使用近几年提出的社区发现算法，结合得到的社区个数对作者合作网络进行社区划分。此外，一位统计学者也经常研究多个领域，因此本文未来还可以考虑对作者合作网络进行重叠社区发现，即一位统计学者可以划分到多个社区中。这部分的改进可以借鉴近几年的、等方法。参考文献贺建风，李宏煜，大数据背景下基于社交网络的聚类随机游走抽样算法研究统计研究，（）：李海林，徐建宾，林春培，张振刚，合作网络结构特征对创新绩效影响研究科学学研究，（

44、）：李文辉，李青霞，丘芷君，基于专利计量的粤港澳大湾区协同技术创新演化研究统计研究，（）：王涛，王晴晴，孟勇，全球中间品贸易的网络结构特征演变分析基于世界投入产出表的研究统计与信息论坛，（）：吴翌琳，吴洁琼，中国科技创新合作网络研究统计研究，（）：张美书，葛世伦，贾昱，王念新，基于核的科研合作网络凝聚性特征分析系统工程理论与实践，（）：钟自然，朱桂龙，张海，广东联合基金项目合作研发网络结构研究数理统计与管理，（）：（）（）（）（）（）经济管理学刊第卷（）（）（）（）（）（）（）（）（）（）（）（）（）第期张妍，等：基于合作者网络社区发现的学科主题分析以国际统计学期刊为例（）（）（）经济管理学刊第卷（）（）

展开阅读全文