收藏 分销(赏)

指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf

上传人:自信****多点 文档编号:475902 上传时间:2023-10-16 格式:PDF 页数:10 大小:900.02KB
下载 相关 举报
指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf_第1页
第1页 / 共10页
指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf_第2页
第2页 / 共10页
指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、指数随机图模型的分析与应用 79 指数随机图模型的分析与应用*基于新浪微博数据的实证研究 许 可 蒋耘莛 内容摘要:在这个移动互联网的时代,社交网络引起了人们的广泛关注。社交网络是一个由行动者及他们之间多种多样的关系构成的巨大网络,其核心价值在于关系数据的分析。指数随机图模型是一系列分析社交网络的统计模型。该模型中的参数主要是构成社交网络的各类结构,也就是联系不同行动者的各类纽带。通过分析这些结构,可以了解行动者是如何受到社交网络中各类关系的影响,从而进一步探索该社交网络的形成过程。总的来说,指数随机图模型应用在网络数据的分析中,能够研究社会结构及网络进程。本文介绍了不同假设下几种常见的指数随

2、机图模型的基本思想,包括伯努利模型、p1 模型、p*模型、社交圈模型,并通过新浪微博数据,详细介绍这几种模型的应用。在实证部分,本文通过数据模拟进行模型检验,验证了社交圈模型优于其他几种模型的结论,并联系实际进行了解释,同时介绍了其在好友推荐等应用方面的参考价值。关键词:社交网络;指数随机图模型;社交圈模型;好友推荐 中图分类号:O242 文献标识码:A 文章编号:1004-7794(2023)03-0079-10 DOI:10.13778/ki.11-3705/c.2023.03.009 *许可,2019 年毕业于北京大学光华管理学院,获经济学博士学位,现为对外经济贸易大学统计学院讲师,研究

3、方向为网络数据建模、非结构化数据分析等,邮箱:。蒋耘莛,中国地质大学(北京)经济管理学院在读博士研究生,研究方向为资源和能源经济与政策、统计数据分析。本研究得到国家自然科学基金青年项目“带网络结构的变系数自回归模型:理论及应用研究”(12001102)、对外经济贸易大学中央高校基本科研业务费专项资金资助项目“中国贸易高质量发展的统计测度研究团队”(CXTD13-04)的资助。一、引言 社会网络分析方法是研究社会群体与组织以及社区结构与发展的重要方法,有极大的应用价值和发展前景。因此,在已有的研究成果基础上,结合我国的研究实例,提出社会网络研究的某些特定问题,对促进国内相关研究的发展具有直接意义

4、。社会行为的复杂性决定了社会网络结构的易变性,将随机性纳入基于图论的、静态的社会网络模型是统计学科发展的必然趋势。指数随机图模型正是在这样的趋势中应运而生。指数随机图假设网络是由随机过程产生,观察到的图的概率取决于模型所包含的各种网络结构出现的次数,侧重于表达关于固定节点集的图的概率分布。指数随机图模型是一系列分析社交网络的统计模型,越来越多的被用于分析网络数据上。回顾指数随机图的发展史,Morenno et al.(1938)介绍了统计上的网络方法1,在分布未知的情况下通过对比观测到的网络数据去进行预测。虽然他们的方法简单,但却引入了结构化的影响会引起随机性的偏差这一观点。并且这一观点再次在

5、 Rapoport(1953)2和 Rapoport(1957)3的有偏网络理论中明确2023 年第 3 期 调研世界 总第 354 期 80 提出。Erd s et al.(1959)提出 Erd s-R nyi 图4。伯努利分布图5的出现为随机图模型的诞生奠定了基础,它假设网络中所有弧都是相互独立的。此后,出现了一系列改良分布的文献,见 Pattison et al.(2000)6。其中,Holland et al.(1981)突破了伯努利模型假设的限制,介绍了在成对节点间相关的假设下的统计模型7,这被后来的 Wasserman 和 Faust 称为 p1 模型8。这是第一次将简单的指数随

6、机图分布进行了扩展。尽管这为之后的工作奠定了基础,但是他们的工作还是仅仅局限于成对数据之间。用标准的对数线性模型能够估计出他们的简单模型,但是一旦三元信息出现,那么原来对对数线性模型很重要的相关性假设就不成立了。后来,Van Duijn et al.(2004)提出了超出成对相关性假设的更加复杂的依赖成对基础的模型9。在前人工作的基础上,Frank et al.(1986)引入了马尔科夫依赖,假设两个关系如果有一个共同的行动者,就认为它们是条件依赖的10。然后马尔科夫随机图模型是过了很久才被网络研究者所采纳的,直到二十世纪九十年代 Wasserman et al.(1996)的一篇很有影响力的

7、文章的出现11才使得这一类 p*模型受到关注(追随之前的 p1 模型故命名为 p*模型12)。p*模型有效地将马尔科夫随机图结构扩展到可以处理多元的13、有价值的14、双向的15网络数据。后来行动者属性也被加入社会选择16和社会影响17的模型。指数随机图模型被认为是推动网络社会科学理论发展的强大车轮18。由于模型的估计进程(伪极大似然估计19)不能很好地处理在相关性假设下的数据,模型的进一步发展受到了限制。尽管如此,在过去的数十年里,指数随机图模型还是以惊人的速度越来越流行。各类致力于研究算法去计算更精确更复杂的极大似然估计,都是建立在计算机模拟的基础上的20-21。Handcock(2002

8、)20和 Snijders(2002)21首先质疑由于随机指数图模型缺少马尔科夫详述会造成计算上的困难,后来 Frank et al.(1986)认为缺省的马尔科夫详述导致了传递性10。为了弥补这一缺陷,Pattison et al.(2002)提出了一种现实依赖条件下的独立性假设22。Snijders et al.(2006)将马尔科夫详述推广到社交圈模型23,在 p*模型假设的基础上,还假定了另一种条件相关:即如果 XihXjm=1(1h,i,j,mg),那么 Xij与 Xhm是相关的,否则是相互独立的。这一推广是一个很大的突破,极大地改善了指数随机图模型拟合现实数据的能力。在国内,目前还

9、没有与指数随机图模型相关的重大理论进展,应用性的研究也较为有限。陈爱萍等(2012)使用伯努利模型等三个模型,分析了新闻转载网络的结构24。分析结果显示,新闻转载网络的网络关系稀疏,聚敛性和互惠性的局部结构明显,属性变量中传统媒体影响较大。吴铭(2012)将p*模型运用于网络链接预测,并验证了指数随机图模型相对于其他关系算法的优越性25。总体来看,国内的研究都直接选取指数随机图模型中的一种或两种进行应用,但并未充分论证其模型选择的合理性。本文在大样本下对模型选择过程展开讨论,具有更为重要的理论意义。此外,互联网作为横跨虚拟和现实的独特构造,具有线上与线下的双重网络属性。目前的大部分研究默认线上

10、社会网络结构及行动者间的互动关系符合经典的理论假设,但由于互联网用户在线下都处于特定的文化环境与社会关系之中,其在线上的行动必定受到其社会背景(或人口学特征)的制约,而这极有可能限制经典模型的解释能力。因此在我国线上社交网络的环境中对几类经典指数随机图模型的拟合效果进行检验,是非常具有现实意义的。为此,本文对线上样本进行了一对一的线下调查,并将样本的线下人口学特征作为可能影响其线上互动行为的外生变量。二、模型描述 社交网络是一个由行动者及他们之间多种多样的关系构成的巨大网络。假设社交网络中有 g 个行动者,行动者 i、j 满足 1ig、1jg。为表示该网络,定义一个大小为 g g(g 行 g

11、列)的社会关系矩阵(Xij)Rg g,矩阵中的元素变量被称为关系变量。如果行动者 i 与 j 有关,则 Xij=1;否则,Xij=0。方便起见,定义 Xii=0。指数随机图模型的分析与应用 81 指数随机图模型反映了社会网络中固定节点集图的概率分布,其一般的表达形式为:1 11 211Pr(|)()exp()exp()()()()()TppXxP xZ xz xzxzx =+它假设网络是由随机过程产生的,可以直接通过特定网络结构的数目来预测相应社会关系发生概率大小。参数的大小衡量了模型所包含的特定网络结构的重要性。标准化的变量保证了覆盖所有图形的全部概率函数()P x的总和为 1,1 11 2

12、()exp()()()ppy Xz yzyzy=+描述了所有存在 p 个节点的图形概率分布。设想在网络模型表达式中只有一个结构边的数量,那么对应边的一个参数为1、其所对应的统计量1()z x代表了图形 x 中边的数量。因此,对每一个存在 p 个节点的图形 x 来说,已知的参数1都会根据图形中的边数给出图形 x 出现的概率。若参数为正,则其所对应的统计量的值越大,该图出现的概率就越高。因此,从这个概率分布中得到的图形可以看作是随机图,同时由于该公式具有典型的指数形式,所以称其为“指数随机图分布”。目前经典的指数随机图模型包括伯努利模型、p1 模型、p*模型和社交圈模型,其表达式分别如下:1(x)

13、exp(x)()LPL=(1)式(1)是伯努利模型,它仅包含一种网络结构,其中()2iji jL xx=,代表弧的数目。1()exp()()()LMP xL xM x=+(2)式(2)是 p1 模型,它包含两种网络结构,其中()ijjii jM xx x=代表节点对中两个节点相互都有弧的节点对的数目。23231Pr()exp()()()()LSSTXxL xSxS xT x=+(3)式(3)是 p*模型,它包含三种网络结构,其中()L x代表边的数目,()kS x代表 k-star 的数目,()T x代表网络结构中三角形的个数。()()()()()()()1Pr()exp()()()()()L

14、RTUDCPTPUPDinoutmixL xR xT xU xD xC xPT xXxPU xPD xin xout xmix x+=+(4)式(4)是社交圈模型,它包含 12 种网络结构,其中 L(x)代表边的数目,R(x)代表 Reciprocity,反映了两个节点之间的交互性;T(x)、U(x)、D(x)、C(x)、PT(x)、PU(x)、PD(x)、in(x)、out(x)、mix(x)分别表示网络结构 AT-T、AT-U、AT-D、AT-C、A2P-T、A2P-U、A2P-D、alt-in-star、alt-out-star、mix-2-star的数目,其定义分别如表 1 所示。表

15、1 社交圈模型中的网络结构 网络 结构 定义 网络 结构 定义 AT-T 行动者 i 关注行动者 j,且 i 关注的行动者也同时关注 j A2P-U 控制 AT-U 结构中 i 与 j 间的关系后形成的新的网络结构 AT-U 行动者 i 关注行动者 j,且 i、j 共同关注其他行动者 A2P-D 控制 AT-D 结构中 i 与 j 间的关系后形成的新的网络结构 AT-D 行动者 i 关注行动者 j,且其他行动者同时关注 i、j alt-in-star 行动者 i 同时受到行动者 j 与行动者 h 的单方面关注 AT-C 行动者 i 关注行动者 j,且 j 关注的行动者也同时关注 i alt-o

16、ut-star 行动者 i 同时单方面关注行动者 j 与行动者 h A2P-T 控制 AT-T 结构中 i 与 j 间的关系后形成的新的网络结构 mix-2-star 行动者 i 单方面关注行动者 j,且行动者 j 单方面关注行动者 h 以上公式中 的取值在=2 的情况下均固定,即log0.6431=-。2023 年第 3 期 调研世界 总第 354 期 82 三、实证分析(一)数据来源 微博是我国最大的社交媒体之一,且具有相对开放的信息环境,是一个典型的线上社会网络,故选取微博数据作为研究对象。网络中每一个节点代表一个虚拟的个人,包含着人物的社会关系以及社会属性。本文选取的微博身份以某一重点

17、高校的科研人员、学校教师、学生等为主,是典型的跨学科学术共同体。本文从新浪微博社区选取研究样本,以用户之间是否存在关注链接关系作为研究内容,构建相应的网络关系结构。每位微博用户就是一个节点,其一条好友链接即节点间的一条关系。一位微博用户可能有许多好友链接,即该微博用户节点与许多其他微博用户节点建立了关系。微博用户之间相互建立“好友”关系,就形成了行动者之间的好友链接网络。由于该微博社区的总体样本较大,本文选择采用滚雪球抽样,即先选择一位微博用户作为行动者的提名起点,再根据该微博用户的“关注”来提名两位微博用户作为二阶网络域,最后根据二阶网络域中每位行动者的全部“关注”来提名 50 位微博用户以

18、形成三阶网络域,所有提名的行动者构成研究样本。最后共提名 50 位行动者,即 50 个节点。这 50 个微博用户群体中,共有 9 名老师,41 位学生,来自该校各个院系。该网络中不存在只有出度的微博用户(如僵尸粉)、只有入度的微博用户(如大明星)、入度出度都为 0 的微博用户,故 sources、sinks、isolated 的取值均为 0。表 2 是该社交网络的基本统计量列表。表 2 基本统计量列表 统计量 数值 统计量 数值 arc 543.0000 AT-D(2.00)979.1000 reciprocity 227.0000 A2P-T(2.00)2917.2610 density 0

19、.2172 A2P-D(2.00)1482.3380 path2 7156.0000 Std Dev in-degree dist 6.8840 AinS(2.00)895.5390 Skew in-degree dist 0.6120 AoutS(2.00)895.3820 Std Dev out-degree dist 6.5120 AT-T(2.00)979.0660 Skew out-degree dist 0.2800 AT-C(2.00)949.3050 CorrCoef in-out-degree dists 0.7640 (二)随机指数图模型的建立 在该实例中,为了更好地构建指

20、数随机图模型,除了考虑网络结构变量,还综合考虑了网络中个体的线下人口学特征作为外生变量(见表 3)。表 3 指数随机图模型中的外生变量 k yk 类别 符号表示 含义 解释 1 y1 0-1 变量 gender 性别 男=1;女=0 2 y2 0-1 变量 profession 职业 老师=1;学生=0 3 y3 0-1 变量 college 学院 是该学院=1;非该学院=0 4 y4 连续变量 age 年龄 本人实际年龄 5 y5 分类变量 edu 现阶段教育程度 本=1;硕=2;博=3 本文分别采用伯努利模型、p1 模型、p*模型、社交圈模型生成的指数随机图与该局域社交网络所构成的真实图进

21、行了比对,发现并非所有的指数随机图模型都能和真实图拟合。在该拟合实例中,仅伯 相关数据本文通过一对一的线下调查(问卷与电话访谈)获取。指数随机图模型的分析与应用 83 努利模型和社交圈模型收敛,因此进一步对这两种模型进行参数估计。估计方法为马尔可夫链蒙特卡罗极大似然估计法(Markov Chain Monte Carlo Maximum Likelihood Estimation,MCMC MLE),该估计方法的核心是以一个参数值集合为起点进行随机图分布的模拟,通过比较相应随机图与真实图的分布来修正参数值,重复这个过程直到参数估计值稳定为止。伯努利模型的拟合结果如下:1111,2222,333

22、3,3.773990.0726060.0721650.0434830.2799630.3250150.3784481.91081.779084.51981Pr(x)9Xexp7ijiijjijijiji ji ji ji jiijjijijiji ji ji jiijjijijii ji jxy xy xx y yy xy xx y yy xy xx y y+=+-4,44455,0.000870.0647860.042070.868468jiiji ji jjijijijijiji ji ji jy xy xyyxx I yy-|+|-+=|-伯努利模型的参数估计结果如表 4 所示。表 4

23、伯努利模型的参数估计 统计量 参数估计值 标准差 p 值 统计量 参数估计值 标准差 p 值 arc 3.7740 0.9940 0.00015*gender_receiver 0.0722 0.1488 0.6276 gender_interaction 0.0435 0.2142 0.8391 profession_receiver 0.3250 0.2763 0.2395 profession_interaction 0.3784 0.5109 0.4589 college_receiver 1.7791 0.5446 0.00109*college_interaction 4.5199

24、 0.6295 0.00000*age_sender 0.0009 0.0214 0.9676 gender_sender 0.0726 0.1528 0.6347 age_receiver 0.0648 0.0215 0.00255*profession_sender 0.2800 0.3154 0.3748 age_diff 0.0421 0.0205 0.03996*college_sender 1.9108 0.5168 0.00022*edu_matching 0.8685 0.1350 0.00000*社交圈模型的拟合结果:,0110,3.773994.923470.7627260

25、.2938050.0300480.053990.()()()()()()1Pr()019474.181962.338120.0272110.0330130.02exp148iiijijjii jijnXinXiijjijii ji jxx xT xD xC xT xD xeemix xy xy xXPxP+-=-=+-+=112222,33334,444,0.0491870.362580.5363150.1641080.5950742.4946350.3008820.08310.1203310.02979ijijiijjijijiji ji ji ji jiijjijijijiiji ji j

26、i ji jjijijiji ji jx y yy xy xx y yy xy xx y yy xy xyyx+-55,0.289249ijiji jx I yy|+=|社交圈模型的参数估计结果如表 5 所示。(三)模型的进一步比较与评价 如果模型的估计值与对应的观测值有较高的一致性,则使用这一模型拟合数据;否则本文不接受这一模型。这个过程称为拟合优度(Goodness of fit,GOF)。在 MCMC MLE 方法中,本文根据估计变量值仿真产生图,对于每一个统计量分别计算仿真图形中其数目的均值(mean)和标准差(std),若已知 其中,yk表示外生变量,其含义见表 3,其他变量含义见上

27、文中的说明。2023 年第 3 期 调研世界 总第 354 期 84 观测图形中该统计量数目的观测值(n),则 GOF t 值可由式(5)计算得出:GOF=t-观测值均值值标准差(5)GOF t 值可以用来衡量拟合优度。若被选入模型的统计量的 GOF t 值范围都控制在0.1,0.1,而未被选入模型的 GOF t 值都在2,2内,则该模型的拟合效果很好。用计算机模拟产生 1000000 个图,得到检验结果如表 6 所示。表 5 社交圈模型的参数估计 统计量 参数估计值 标准差 p 值 统计量 参数估计值 标准差 p 值 arc 3.7740 0.9940 0.00015*college_int

28、eraction 0.3009 0.3733 0.4203 reciprocity 4.9235 0.3282 0.00000*gender_sender 0.0330 0.1904 0.8624 path2 0.0272 0.0063 0.00001*profession_sender 0.3626 0.4240 0.3924 AinS(2.00)4.1820 1.1277 0.00021*college_sender 0.5951 0.8631 0.4906 AoutS(2.00)2.3381 1.1015 0.03377*gender_receiver 0.0215 0.1970 0.9

29、132 AT-T(2.00)0.7627 0.3336 0.02224*profession_receiver 0.5363 0.3805 0.1587 AT-C(2.00)0.0300 0.1957 0.8779 college_receiver 2.4946 0.8849 0.00482*AT-D(2.00)0.2938 0.3147 0.3505 age_sender 0.0831 0.0247 0.00075*A2P-T(2.00)0.0540 0.0425 0.2039 age_receiver 0.1203 0.0242 0.00000*A2P-D(2.00)0.0195 0.08

30、02 0.8082 age_diff 0.0298 0.0128 0.02014*gender_interaction 0.0492 0.1587 0.7567 edu_matching 0.2892 0.0598 0.00000*profession_interaction 0.1641 0.3274 0.6162 表 6 伯努利模型与社交圈模型的检验 统计量 观测值 伯努利模型的 GOF t 值 社交圈模型的 GOF t 值 统计量 观测值 伯努利模型的 GOF t 值 社交圈模型的 GOF t 值 Arc 543.000 0.059 0.062 college_interaction 5

31、14.000 0.083 0.075 Reciprocity 227.000 18.163 0.010 gender_sender 253.000 0.055 0.053 path2 7156.000 1.880 0.057 profession_sender 88.000 0.009 0.089 AinS(2.00)895.539 0.006 0.062 college_sender 525.000 0.058 0.065 AoutS(2.00)895.382 0.032 0.062 gender_receiver 272.000 0.033 0.023 AT-T(2.00)979.066

32、2.005 0.088 profession_receiver 141.000 0.043 0.001 AT-C(2.00)949.305 1.939 0.097 college_receiver 524.000 0.072 0.076 AT-D(2.00)979.100 2.032 0.087 age_Sender 14011.000 0.049 0.064 A2P-T(2.00)2917.261 1.497 0.032 age_Receiver 15090.000 0.030 0.054 A2P-D(2.00)1482.338 1.315 0.031 age_diff 3035.000 0

33、.010 0.044 gender_interaction 127.000 0.033 0.019 edu_matching 309.000 0.039 0.059 profession_interaction 40.000 0.068 0.023 从上表可以看出,伯努利模型的拟合效果比较差(模型假设的独立性条件太强),社交圈模型适用于对这个微博数据的建模。综上,对于微博用户群的网络数据建模,发现 p*模型不收敛,伯努利模型虽然收敛但是拟合效果比较差,仅社交圈模型不但收敛而且拟合效果比较好。因此,本文将主要就社交圈模型的参数意义进行应用分析。四、模型应用(一)指数随机图模型的 logodds

34、介绍 在指数随随机图模型中,逻辑回归的表达式为:指数随机图模型的分析与应用 85 1,12,2,1,12,2,expPr(1|)(,)1expijijpij pijijijpij pX +=+(6)若记 odds=Pr(Xij=1|)/Pr(Xij=0|),则可将 Pr(Xij=1|)变换为 odds 的自然对数,称为 logit 变换,记为logit Pr(Xij=1|),或 log odds。本文研究的社交网络中共有 150 个行动者,对应有 22350 个 logit Pr(Xij=1|)(i=1,2,150,j=1,2,150,且 ij)。理论上来说,Xij所对应的 log odds

35、的值越大,则行动者 i 关注行动者 j 的可能性越大。因此,可以通过微博中已经存在的用户个人信息以及网络中存在的链接去预测其他链接发生可能性的大小,并进行好友推荐,帮用户扩大交际圈,从而增加微博平台的用户体验,使微博的交际作用更加显著。(二)logodds 对实际关系预测程度的衡量 以下使用 KS 值量化 log odds 的值对实际关系的预测程度。假设有链接的 link 的 log odds 变量的分布用 G(s)表示,无链接的 link 的 log odds 变量的分布用 B(s)表示,则 KS 值表达式为:max|()()|sKSB sG s=-(7)由此计算出不同 log odds 区

36、间段所对应的 K-S 值,并将其绘制成曲线如图 1 所示。图 1 K-S 曲线图 KS 是最主要的模型评价指标,KS 越高,模型越好。但过高的 KS 可能意味着过度拟合从而导致模型不稳定。通常 KS 达到 40%以上说明模型预测能力较好。数据较差时,20%的 KS 也勉强可以使用。通过 K-S 曲线图可知,该指数随机图模型的 KS 接近 40%。因此,该模型较好,log odds 对实际关系预测程度较高,可以利用 log odds 进行好友推荐。理论上来说,Xij所对应的 log odds 的值越大,则行动者 i 关注行动者 j 的可能性越大。可实际中发现,虽然有些 Xij所对应的 log o

37、dds 的值比较大,但由于某种原因(不知道对方的微博号、失去联系很久等),行动者 i 实际上并没有关注行动者 j。因此,若为行动者 i 推荐较大的 log odds 的值所对应的行动者 j,则推荐关注的成功率比较大、比较有效。(三)结论与意义 下面对社交圈模型拟合的微博用户群数据进行解释,主要从模型提供的参数的估计出发,通过参数正负可以预测社交网络模式的强弱和大小,同时,在参数大小的解释上,要注意当统计量的数量级不相同时不能直接比较大小。下面对社交圈模型的每一个显著的统计量的参数进行解释。1.弧(arc)。其参数显著且为负。这个统计量类似线性回归模型中的截距,能够被解释成判断网络中“关注”这个

38、事件发生的趋势,但是并不能直接衡量网络密度。2.相互作用(reciprocity)。其参数显著且为正。说明这个微博用户群体通常都是相互关注,你关注2023 年第 3 期 调研世界 总第 354 期 86 了我那么我也关注你,两方面同时发生的概率很大。3.alt-in-star、alt-out-star(AinS、AoutS)。其参数显著且均为负。这个统计量可以反映微博用户群中是否有人很受别人关注(入度很大)、很喜欢关注别人(出度很大),体现网络中是否有小范围集中化的现象。由于参数为负,说明该微博用户群的社交网络密度比较均匀,入度(出度)的波动不是很大,微博用户通常会比较均衡的去选择关注的对象,

39、没有某小范围中心化的现象,在排除模型其他影响的情况下没有很受别人关注或者很喜欢去关注别人的人(有些人表面上看起来很受欢迎,但其实可能是受一些其他因素影响,比如老师作为微博用户很容易受学生关注,这是因为老师身份原因造成的,学生去关注授课老师可能是因为希望了解更多关于该课程的一些信息,比如作业信息、考试信息等)。4.mix-2-star(path2)。其参数显著且为正。这个统计量的参数为正反映了入度和出度是有一定相关性的,受到别人关注的人也会乐于去关注别人,所以那些受到很多人关注的人往往也很容易去关注别人。5.A2P-T、A2P-D。参数不显著且均为负。A2P-T 实际上是作为 AT-T 和 AT

40、-C 的一个控制量出现。A2P-D 实际上是 AT-D 的控制量。6.AT-T、AT-C:AT-T 参数显著且为正;AT-C 参数不显著且为正。当两个微博用户之间有很多潜在的中间人时,这两个微博用户很可能会通过各种各样的原因关注到彼此。那么这两个用户之间到底是如何关注的呢(A 关注 B 的概率大一点还是反过来),可以通过 AT-T、AT-C 这两个统计量来反映。由于AT-T 参数显著,AT-C 参数不显著,说明当 A 关注的人中有很多人去关注 B 时,那么 A 关注 B 的概率也会很大。比如说某学生的很多学长学姐都关注了某位老师,那么这个学生关注这个老师的概率会变大,而这个老师是否关注这个学生

41、则不确定。7.AT-D。其参数不显著且为正。A2P-D 实际上是 AT-D 的控制量。AT-D 的参数不显著,说明即使 A和 B 之间有很多共同的粉丝,那么 A 和 B 很有可能相互并不认识,谁都没有关注谁。8.发送者的影响(gender_sender、profession_sender、college_sender、age_sender)。profession_sender、age_sender 的参数为负,gender_sender、college_sender 的参数均为正。仅 age_sender 的参数显著。注意到 gender 代表性别(男=1;女=0);profession(老师

42、=1;学生=0);college(是该学院=1;不是该学院=0)。因此,性别(男或女)、职称(老师或学生)以及学院(是否该学院)都不会显著影响到该微博用户主动去关注别人的活跃程度。但年龄会有显著影响,年轻人比年纪大一点的长者更活跃,青年学生是微博用户中很大的一个群体,愿意使用微博去关注别人。9.接收者的影响(gender_receiver、profession_receiver、college_receiver、age_receiver)。gender_receiver的参数为负,profession_receiver、college_receiver、age_receiver 的参数均为正。

43、仅 college_receiver、age_receiver 的参数显著。gender_receiver 的参数不显著说明女性在微博中是否属于更加容易受到别人关注的那一方并不确定。profession_receiver 的参数不显著说明老师不一定比学生更加容易受到关注,college_receiver 的参数显著且为正,说明该学院的学生比别的系别的学生更容易受到关注(因为这个微博用户群主要集中在该学院)。age_receiver 的参数显著且为正,说明年龄越大的微博用户更多的被该微博用户群中的其他用户关注。10.同质间差距的影响(gender_interaction、profession_i

44、nteraction、college_interaction、age_diff)。age_diff参数为负,gender_interaction、profession_interaction、college_interaction的参数均为正。仅age_diff参数显著,说明年龄差距越小越容易受到关注。性别是否相同、身份是否相同(老师与老师之间、或学生与学生之间)、学院是否相同并不一定会影响到相互关注。11.类别匹配的影响(edu_matching):其参数显著且为正。教育程度 edu(本=1;硕=2;博=3),其参数为正说明,同一教育水平的人更加容易相互关注。这是由于同一文化层次的人更容易有

45、着相同的兴指数随机图模型的分析与应用 87 趣爱好,有共同话题。五、结论 社会网络分析如今成为诸多学科热门的研究方法,亦成为商业数据挖掘中的重要工具。在充分归纳、提炼经典社会网络模型的基础上,加深对其应用的认识,对理论和实践都具有重要意义。比如关注推荐(微博和 linkedin 等)。但由于社交网络数据具有很强的相关性,因此不同于一般的分析,具有较高的复杂度。根据对相关性假设的不同,历史上发展出了从简单到复杂的几类模型。其中,指数随机图模型近年来发展得最好,从最初的伯努利模型到 p1 模型,再从 p*模型到现在的社交圈模型,不断发现问题并修正完善。这类方法致力于在一定的独立性假设下通过分析网络

46、中的各类结构从而建立统计模型。但由于参数估计方法采用的是 MCMC 算法(蒙特卡洛方法),所以有的时候会不收敛,且计算量比较大,难以处理大样本数据,有待之后研究的进一步完善。本文选取现实生活中的微博用户群,充分利用网络行动者间的关系及其个体属性进行实证研究,发现在各类指数随机图中,社交圈模型较好地拟合了采用滚雪球抽样形成的局部社交网络,并且能够给出合理的模型解释。但在解释时要注意的是,内生变量之间、外生变量属性性质之间都可能有着相互联系,一定要设法找到最根本的潜在影响因素,而不要错误认为是表面原因所导致。因此,如何选择变量及如何使得各变量属性之间不相关,以方便找出根本原因对模型进行解释,是今后

47、需要进一步研究的问题。同时,运用该社交圈模型,计算出 log odds 的值,并根据计算出模型的 KS 接近 40%推断 log odds 对实际关系的预测程度较高,将其运用在社交网络常用的好友推荐功能上,有一定的参考价值。但由于参数估计采用 MCMC 算法,计算复杂度很高,目前只能在比较小规模的网络中进行应用,需进一步的改进后才能推广到大规模的网络运算中。同时,由于建模用到的信息有限(如未考虑文本数据),所以对实际网络的拟合不尽完美,log odds 对实际关系的预测程度也有待提高。参考文献 1 Morenno J,Jennings H.Statistic of Social Configu

48、rationsJ.Sociometry,1938,1(3/4):342-374.2 Rapoport A.Spread of Information through a Population with a Socio-Structural Bias:I.Assumption of TransitivityJ.Bulletin of Mathematical Biophysics,1953,15(4):523-533.3 Rapoport A.Contributions to the Theory of Random and Biased NetsJ.Bulletin of Mathematic

49、al Biophysics,1957,19(4):257-277.4 Erd s P,R nyi A.On Random GraphsJ.Publicationes Mathematicae(Debrecen),1959,6:290-297.5 Frank O.A Survey of Statistical Methods for Graph AnalysisJ.Sociological Methodology,1981,11:110-155.6 Pattison P,Wasserman S,Robins G,et al.Statistical Evaluation of Algebraic

50、Constraints for Social NetworksJ.Journal of Mathematical Psychology,2000,44(4):536-568.7 Holland PW,Leinhardt S.An Exponential Family of Probability Distributions for Directed-GraphsJ.Journal of the American Statistical Association,1981,76(373):33-50.8 Wasserman S,Faust K.Social Network Analysis:Met

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服