收藏 分销(赏)

社交网络内容用户“茧房趋同性”——基于BERT模型的新浪微博样本研究.pdf

上传人:自信****多点 文档编号:373073 上传时间:2023-09-09 格式:PDF 页数:10 大小:1.41MB
下载 相关 举报
社交网络内容用户“茧房趋同性”——基于BERT模型的新浪微博样本研究.pdf_第1页
第1页 / 共10页
社交网络内容用户“茧房趋同性”——基于BERT模型的新浪微博样本研究.pdf_第2页
第2页 / 共10页
社交网络内容用户“茧房趋同性”——基于BERT模型的新浪微博样本研究.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、DOI:10.15918/j.jbitss1009-3370.2022.3989社交网络内容用户“茧房趋同性”基于BERT模型的新浪微博样本研究徐翔,余珺君(同济大学艺术与传媒学院,上海201804)摘要:网络个性化信息消费时代,信息茧房带来的社会文化风险受到广泛关注。在“千人千面”的个性化表层之下,陷入“茧房”是让用户走向内容趋同还是趋异,是具有争议的学术命题和亟需检验的现实问题。基于 BERT 模型,以新浪微博用户(N=2143)为样本,实证检视社交网络内容生产中的用户“茧房趋同性”现象。主要研究发现:(1)任意两个用户的内容相似程度,能够通过彼此的“茧房”程度予以表达和预测;(2)“茧房

2、”程度越高的用户彼此的内容相似程度越高,“茧房”程度差异越大的用户彼此的内容相似程度越低。结果从相似关系视角拓展和反思对信息茧房的认知,有助于深入刻画社交媒体 UGC 用户趋同背后的复杂机制和实践问题。关键词:信息茧房;用户趋同化;内容同质化;用户内容生产;BERT 模型中图分类号:G206.3文献标志码:A文章编号:1009-3370(2023)04018210“信息茧房”由桑斯坦提出,指“我们只听我们选择的东西和愉悦我们的东西的通讯领域”1。在网络新技术与新传播模式的影响下,信息茧房及其带来的社会风险变得更加突出2。对于信息茧房效应是否导致不同用户关注的内容越来越差异化,或者是导致用户越来

3、越走向趋同,仍然存在一定争议。多数观点认为,束缚在“信息茧房”之中的用户会与其他用户产生内容隔离。靖鸣等3认为沉浸于各自的“信息圈子”而不愿接受异质观点的公众往往会被搁置和隔绝在信息孤岛上。喻国明等4提出当用户以个人兴趣为核心去定制信息,会造成个人信息系统的千人千面、各有所好。由此而产生的是,陷入在“信息茧房”的程度越深的用户,彼此关注内容的相似程度越低。但另一些研究也指出,桎梏在“信息茧房”中的不同用户所关注、讨论的内容并非是差异的、独特的。Nechushtai 等5通过实证检验发现不同用户被推荐新闻的同质性和集中度非常高,并未发现“千人千面”的“信息茧房”。Alyukov6提出精心策划的过

4、滤气泡效应,这种效应被用来强化国家控制的电视台传递的信息,而不是在选举专制政权下的公民个人偏好。表明陷入“茧房”的用户仍然会与其他用户产生内容趋同。一、文献回顾与问题分析(一)从用户内容趋同化到用户“茧房”内容趋同化关于信息趋同化与伪个性化的现象,可以回溯媒介文化、媒介技术的文化考察及其理论资源。霍克海默和阿多诺提出“文化工业”概念7107-152,用以批判看似规模化、多样化的文化产品中蕴含的标准化、齐一化。马尔库塞提出“单向度的人”8,反思技术理性对人的个性的压制,进一步导致人们思维的单向度。鲍德里亚提出“内爆”概念,描绘因各种界限崩溃,社会的熵无限增加所导致的结果:“内爆”意味着无序性的增

5、加和差异性的消失,最终导致系统内各成分完全类同,并归于沉寂9。在信息爆炸与信息超载的网络现实语境之中,需进一步思考的是,网络平台直观可感的信息多样化、选择个性化表层之下潜藏的深层趋同性与伪个性化。收稿日期:2021-12-09基金项目:国家自然科学基金项目“社交网络互动中用户信息窄化机理分析:基于微博的数据挖掘”(71804126);上海市级科技重大专项“人工智能基础理论与关键核心技术”(2021SHZDZX0100)作者简介:徐翔(1983),男,博士,教授,副院长,同济大学中国特色社会主义理论研究中心特约研究员,E-mail:;余珺君(1997),女,硕士研究生,E-mail:第25卷第4

6、期北京理工大学学报(社会科学版)Vol.25No.42023年7月JOURNALOFBEIJINGINSTITUTEOFTECHNOLOGY(SOCIALSCIENCESEDITION)Jul.2023随着用户对网络平台使用程度的加深,其主观偏好、话题关注、内容表达会呈现出同质化趋势。这是网络用户内容趋同化受到关注的重要方面。Lin 等10通过建立基于 agent 的模型发现,无论是连接良好的网络社区,还是呈现用户聚合信息的网络平台,都可能导致用户的主观偏好随着时间的推移而趋于同质化。徐翔11基于潜在语义分析的文本挖掘和用户内容相似度计算,将某个用户所有的发帖从“碎片”组装还原为该用户的“内容

7、整体”,发现微博用户存在着对微博媒介“越使用、越趋同”的现象。Duguay12利用计算机辅助分析包含数十亿条用户评论的语料库,发现随着时间的推移,R 平台将用户塑造成更加同质化的子群体。Mikal 等13对一个在线图片分享社区的图片和相关评论进行分析,发现随着用户逐渐了解网站的文化和参与规则,他们会开始预测在社区中受欢迎的原创内容类型,并据此修改自己的内容发布,导致整个网站呈现出趋同的声音。徐翔14通过实证检验发现,微博中不同影响力“能量”级的用户具有朝向“意见典范”趋同的演化机制,反映出微博中存在一种动态而确定性的社会内容同质化现象。网络平台中,用户的内容偏好、信息表达逐渐趋于相似化,既是用

8、户内容趋同化的关键组成部分,也是网络平台对用户产生同化作用的重要体现。用户对平台的使用程度、以及平台内容的趋同性,也会对“信息茧房”的形成产生影响。一方面,对网络平台使用程度越高的用户陷入“茧房”的风险越大。例如杨洸和佘佳玲15采用问卷调查法测量用户在今日头条平台使用中存在的信息茧房效应,发现用户越沉浸在平台中,得到推荐的信息同质化程度越高、观点多样性越低。徐翔和靳菁16通过对微博的实证研究发现,用户对微博媒介的使用程度越高,个体的信息窄化程度越高。Zhao 等17通过用户对平台使用时间的增加,推荐系统向其推荐文章的主题的多样化和集中程度来衡量“信息茧房”,发现今日头条和百度新闻都呈现出大约

9、7 天时间间隔的周期性信息茧房效应。另一方面,网络内容环境的同质化也会对用户内容消费的多样性产生束缚。例如 Zhang 等18通过从移动新闻应用中提取的纵向数据集检验个体新闻消费多样性的演化,发现个体的新闻消费多样性与平台整体的信息多样性呈正相关;Nikolov 等19通过实证挖掘大量的网络点击数据集,发现人们通过社交媒体从非常狭窄的资源范围中访问信息,并且用户在集体和个人层面上所经历的信息源多样性之间有很强的相关性。网络平台的内容环境、以及用户对平台的使用,是用户“茧房”形成与加深的重要影响因素。概言之,随着用户对某一网络平台使用时间的增加,可能产生的后果之一是用户关注、讨论的内容越来越相似

10、,后果之二是用户被“信息茧房”束缚的可能性越来越大。这也与受到多数学者拥趸的观点存在一定矛盾之处,即用户陷入在“信息茧房”的程度越深,视野越局限在自身偏好的个性化内容之中。基于此,我们也需将用户陷入“茧房”的程度、以及用户彼此的内容相似度关联起来进行分析,也即进一步考察,网络平台中某一用户 A 陷入的“茧房”,其内容构成是否与用户 B、用户 C 陷入的“茧房”存在内容相似性?随着“茧房”程度的增加,不同用户关注的内容是趋于同质化还是走向差异化?从用户内容趋同化到用户“茧房”内容趋同化,仍然是目前重视不足、尚待讨论的问题域。(二)用户“茧房”内容趋同化及其影响因素对于信息茧房及其内容构成,目前学

11、界主要从用户内容消费或内容生产维度进行测量。例如 Xu 等20追踪移动阅读用户从一点到另一点的注意力移动顺序,勾勒出每个用户的“茧房”程度以及陷入了何种内容类型的信息茧房;陈华珊和王呈伟21以每位用户在不同类别主题上的不同内容回复概率,作为新闻消费偏好指数,计算用户话题偏好程度,测量腾讯新闻客户端中的茧房效应。而关于用户“茧房”内容的趋同化,现有研究也从信息茧房的形成机制与形成环境方面进行了讨论。从信息茧房的形成机制而言,选择个性化机制中蕴含的同质性,为用户“茧房”内容的趋同化提供了逻辑上的可能性和应然性。选择个性化被认为是信息茧房产生的主要机制,Zuiderveen 等22将其分为两类:自我

12、选择的个性化和预先选择的个性化,一种是人们主动选择他们看到的内容,另一种是算法生成的个性化内容。但目前许多研究表明,这两类个性化选择都具有走向同质化的倾向。一是算法个性化推荐中的内容同质性。Aridor 等23构建模型对推荐系统环境下的用户决策进行模拟,发现算法推荐会协调不同用户的消费选择,从而导致用户间内容消费同质化的增加;Krafft 等24对搜索引擎算法的研究发现,无论内容如何,几乎所有的搜索结果都显示出了大量的重叠,基于算法的孤立过滤气泡的创建和强化并不存在;Hosanagar 等25对一项音乐行业推荐服务的实证研究发现,在“数量效应”和“品味效应”的2023 年第 4 期徐翔等:社交

13、网络内容用户“茧房趋同性”基于 BERT 模型的新浪微博样本研究183影响下,个性化推荐并未导致用户走向碎片化,反而创造了用户与他人的共性。二是用户个性化选择的集中性与相似性。Mukerjee 等26对用户个性化新闻消费来源方面的差异进行分析,发现用户的浏览行为形成了高度紧密的网络,大部分用户的注意力都集中在少数的核心来源中;Nazarov27发现媒介选择的多样性并不一定带来媒介消费的多样性,商业命令将媒体供应和需求集中在特定的媒体内容格式上,“大量的观众集中在大众流行频道”;彭兰28认为人们的个性化需求,只是外壳上的五彩斑斓,在内核上却是单调同质的。个性化不过是在加速人们信息消费的社会化,最

14、终会加速人们的趋同过程。选择个性化机制中存在的趋同性,进一步说明陷入“茧房”的用户关注、讨论的内容可能并非是彼此差异的,而具有与平台中的其他用户走向相似的内容窄化的可能性。从信息茧房形成的信息环境而言,网络内容中心及其对用户信息获取的窄化与同化效力,为用户“茧房”内容提供了共同的趋同中心。网络空间中存在强势内容中心与“流行回音室”。Webster 等29认为用户依靠推荐系统来引导他们的消费,尽管搜索和推荐算法各不相同,但最直接关注的是流行产品,“公众的关注模式是重叠的,流行性信息会始终成为关注的中心”;Treviranus 等30提出网络中存在“流行回音室”,点击率最高的话题会变得更大,而不那

15、么受欢迎的话题则会消失;Ohnishi31发现“即使在公众之间没有互动的网络世界中,公众舆论也会被社交媒体的舆论所吸引,最终向一定价值的舆论聚集”。而越是喜欢围绕内容中心进行信息消费的用户,越是容易陷入到“茧房”之中。Nikolov 等32发现社交媒体表现出高流行性和同质性偏见,并且同质性偏见和流行偏见之间存在很强的相关性;Bar-Gill 等33证实在内容选择上依赖流行性信息的用户,更易陷入回声室中;Roth 等34发现 Youtube 平台上潜在的过滤气泡是围绕着获得最多观众和最多观看时间的视频集组织起来的。这些研究证实了网络中存在所有用户共同关注的内容中心,并且这一中心同时具有束缚用户视

16、野的能力,一定程度上为用户“茧房”内容的趋同方向提供了参考。总体而言,上述研究为用户“茧房”内容走向趋同提供了一定证据支持,但仍有待进一步的实证检验。而“茧房”内容的趋同化,也能够统合用户在网络平台使用中可能产生的两种后果,即用户“茧房”程度增强、与用户彼此内容趋同二者发展方向的一致性。也就是说,由于网络用户并非是困在冷僻的、个性化的内容类型所构筑的“茧房”之中,而是困在大多数用户共同关注的、大众化的内容类型构筑的“茧房”之中,所以用户陷入在信息茧房的程度越深,其关注、讨论的内容越是会和其他用户走向相似化。(三)用户“茧房趋同性”的问题提出与研究假设延续上述可资借鉴的研究成果和对于微博中实际问

17、题的分析和推断,我们推测,信息茧房的内容构成并非是个性化、独特化的,而是网络中“大家都在看、大家都在说”的大众化内容,因此用户的“茧房”程度越高,其发布、生产的内容越是与网络平台的全体内容相似。这也意味着,“茧房”程度越高的用户越被平台“磨平”棱角,其内容受到平台同化作用的影响越强烈。而两个“茧房”程度越高的用户,由于受到平台同化作用的影响都较大,彼此的内容相似程度也更高。在上述作用条件和动态描述基础上,本文将用户彼此的“茧房”程度作为指标表示用户彼此的内容相似度,明确地凝练和提出社交网络用户“茧房趋同性”的基本问题:用户“茧房”程度的高低,密切关系到他和其他用户内容相似化的程度;由之,是否存

18、在如下具有规律性的现象网络中某一用户和其他任意用户的内容相似程度,和这两个用户的“茧房”程度同时具有正相关性?这一问题也进一步关涉网络用户彼此间存在的双向趋同作用,也即每个用户都会或多或少地受到网络平台同化作用的影响,由于受到影响的程度有强有弱,导致他们之间产生不同程度的内容相似性。Gij=K(TijTji)d2ij这种用户之间双向而非单向的趋同作用,借鉴引力模型是有益视角。引力模型来自牛顿的万有引力定律,被广泛地应用于贸易流动35-36、交通流37-38、人口迁移39、出行规律40、文化产品出口41等多个领域,主要特点之一是研究对象“质量”的交互。例如 Reilly42提出著名的零售引力定律

19、,认为两个城市各自的人口数量与这两个城市之间商品零售比例成正比;毕硕本等43研究微博中的事件信息流在空间中的传播路径特征,并构建引力模型:,其中,Gij 为节点i 受到节点j 影响的量化引力,Tij 表示节点i 流向节点j 的舆论信息数量。本文对于用户彼此的内容相似度,也需要考虑双方内容受到平184北 京 理 工 大 学 学 报(社 会 科 学 版)2023 年 7 月台同化作用影响的重叠性。而如上文所述,“茧房”程度越高的用户被同化的程度相对较高,因此“茧房”程度会对用户彼此的内容相似度产生趋同引力。基于此,对于可能存在的用户“茧房趋同性”现象,若将社交网络中任意两个用户设为x 和y,两者的

20、内容相似度设为sim(x,y),“茧房”程度分别设为 ix、iy;当y 为不同于x 的任意用户的情况下,对x 和y 的“茧房”程度(分别设为ix、iy)采取相加或相乘(分别为(ix+iy)或(ixiy)的形式表达为单一变量都是可行的。因此,在借鉴引力模型的阐述方式基础上,用户“茧房趋同性”问题可以进一步转换为以下命题与核心假设(如图 1 所示):社交网络内容生产中的用户“茧房趋同性”假设H1.2:微博中任意两个用户的内容相似程度与二者的茧房程度之差距成反比假设H1.1:微博中任意两个用户的内容相似程度与二者的茧房程度之和成正比假设H2:微博中任意两个用户的内容相似程度,可以用二者的茧房程度之和

21、与茧房程度之差距来进行度量与预测图1研究假设及其关系A.由于“茧房”程度越高的用户,其发布内容越相似于微博平台的全体内容,因此两个“茧房”程度越高的用户,彼此之间的内容相似程度更高。需要说明的是,尽管由于个性化、独特化的“茧房”内容仍然存在,可能会产生一些非规律性的异常现象和扰动,但是这并不影响总体趋势性的效应和规律。在此基础上,提出本文的假设H1.1:微博中任意两个用户 Ux和 Uy的内容相似程度与二者的茧房程度之和成正比。B.延续上述观点,“茧房”程度越高的用户,其内容被网络平台同化的程度越高,而“茧房”程度越低的用户被同化的程度较低,因此保持内容异质化的可能性更高。因此,“茧房”程度差异

22、越大的两个用户,彼此之间的内容相似程度也会更低。与H1.1相似,尽管独特性“茧房”内容的存在可能会带来一定的扰动,但这并不会影响总体规律。基于此,提出本文假设H1.2:微博中任意两个用户 Ux和 Uy的内容相似程度,与二者的茧房程度之差距呈反比。C.由 H1.1 和 H1.2,提出本文假设 H2:微博中任意两个用户的内容相似程度,可以用他们的茧房程度之和与茧房程度之差距,来进行度量与预测。二、研究设计基于新浪微博用户发布、生产内容的相似程度计算,探究社交网络内容生产中的用户“茧房趋同性”。具体而言,选取中国互联网时代具有代表性的社交媒体和微型博客平台新浪微博,通过随机抽样,抓取、筛选、过滤得到

23、 2143 个用户及其在 2017 年 1 月 1 日至 2019 年 12 月 31 日三年中发布的共 1975085 条帖子样本进行分析。对于用户“茧房”程度的计算,一律随机选取这些用户在三年中发布的300 条帖子,计算其内容的自我相似、重复程度。(一)概念与指标界定本文从用户信息生产维度测量用户“茧房”程度,操作化定义为:用户发布的信息内容的自我重复化与相似化程度。根据这一测量方式,每个用户都具有“茧房”程度,“茧房”程度越高,其发布帖子的内容相似度越高,说明用户的内容视野更为狭窄。对于全体内容,在本研究中我们用抽取的所有样本用户发布的帖子内容集合近似地代表。对于用户之间的内容相似度,W

24、eng 等44在分析Twitter用户同质性时,将同质化定义为共享相似内容并因此表现出相似兴趣的趋势,Dey 等45通过测量用户对主题的参与分布来量化用户对之间的相似性,其中主题被定义为使用语义相关的用户生成内容形成的标签簇。本文对用户内容相似度的操作性定义为:用户发布、生产的信息内容彼此重复化与相似化的程度。2023 年第 4 期徐翔等:社交网络内容用户“茧房趋同性”基于 BERT 模型的新浪微博样本研究185(二)样本数据的获取与预处理首先,课题组运用开源抓取工具“八爪鱼”,以及用 Python 和 Selenium 编写动态网页抓取程序进行网络数据抓取。从新浪微博首页 47 个内容版块(

25、社会、国际、科技、科普、数码、财经、股市、明星、综艺、电视剧、电影、音乐、汽车、体育、运动健身、健康、瘦身、养生、军事、历史、美女模特、美图、情感、搞笑、辟谣、正能量、政务、游戏、旅游、育儿、校园、美食、房产、家居、星座、读书、三农、设计、艺术、时尚、美妆、动漫、宗教、萌宠、法律、视频、上海)中,各个版块每天早晚各抓取一次,持续 1 个月,获得 65650 条帖子。这些帖子广泛而大致均衡地分布在这 47 个版块。从这些帖子的发布者中,随机抽取 500 个用户,作为“种子”用户;对每个种子用户从其最多前 5 页被关注者中随机抽出 1 名,也即 500 个种子用户得到下一轮的 500 个样本用户;

26、将此过程循环 20 轮得到50020=10000个样本用户。对上述用户统一横向的比较口径,其一是时间段上一律选取在 2017 年 1 月 1 日到 2019 年12 月 31 日这三年发布的帖子,其二是每个用户一律随机选取在上述三年的 300 条帖子,少于该数量的用户不纳入分析,这一步骤通过 numpy 中的 random 模块完成。最后得到的有效用户为 2143 个,发布帖子总数为 1975085 条。用户特征分布直方图如图 2、图 3、图 4 所示,横轴所示的用户粉丝数、用户关注数、用户发博数均是经过以 10 为底的对数转换后的值。未经对数函数转换的原始值中,用户粉丝数平均值为 39327

27、98.22,中值为 531000,标准差为 11579361.84;用户关注数平均值为 653.74,中值为 377,标准差为 1270.67;用户发博数平均值为 5724.32,中值为 3048,标准差为 9131.56。帖子热度特征分布直方图见图 5、图 6、图 7 所示,横轴所示的帖子点赞数、评论数、转发数均是经过以 10 为底的对数转换后的值。未经对数函数转换的原始值中,帖子点赞数平均值为 9791.85,中值为 93,标准差为 69798.04;帖子评论数平均值为 2618.41,中值为 32,标准差为 24178.05;帖子转发数平均值为 5126.95,中值为 21,标准差为 4

28、2065.89。用户粉丝数频率2502001501005000246810图2用户粉丝数直方分布图用户关注数频率2502001501005000246810图3用户关注数直方分布图用户发博数频率01234563002001000图4用户发博数直方分布图点赞数频率200 000150 000100 00050 000002.004.006.008.0010.00图5帖子点赞数直方分布图186北 京 理 工 大 学 学 报(社 会 科 学 版)2023 年 7 月(三)帖子内容的向量化转换:BERT 模型对于帖子内容的向量化,本研究采用2018 年谷歌AI 团队发布的BERT(Bidirectio

29、nalEncoderRepresentationsfromTransformers,BERT)模型。该模型在机器阅读理解顶级水平测试 SQuAD1.1 中表现出色,并在11 种不同的 NLP 测试中创出最佳成绩,被认为是自然语言处理的集大成者。BERT 模型沿袭了利用深度神经网络预训练模型的方法思路,而且被设计用来预先训练未标记文本的深度双向表示,代替传统的仅用左侧(或右侧)的词汇预测目标词汇的单向方法或使用单独的左侧(或右侧)上下文预测目标词汇的浅层双向方法,使用全向的上下文预测被遮罩词汇,生成理想的通用语言表征模型46。BERT预训练语言模型能够增强字的语义表示,并根据其上下文动态生成语义

30、向量47。在传播学领域,汤景泰等48使用BERT 构建文本分类器,对微博的内容主题以及意见领袖的身份信息进行多类别分类,效果良好。在具体操作中,本研究采用 BERT 官方提供的中文预训练模型,通过腾讯 AILab 提供的 bert-as-service 开源服务调用BERT 模型,启动代码为:bert-serving-start-model_dir/tmp/chinese_L-12_H-768_A-12/-num_worker=4-max_seq_len=60,将微博帖子转为 768 维的句向量,用于后文的分析。(四)帖子内容相似度与用户内容相似度的计算将每条帖子转为向量后,就可以依此计算帖子

31、和帖子之间的内容相似度。下述过程中,对于帖子以其内容转换得到的向量作为某条帖子的表示。两条帖子之间的点对点的相似度采用常用的余弦相似度49-50。也即两条帖子分别转换得到的两个向量 A、B,它们之间的夹角 的余弦 cos()cos()=ABA B=ni=1(AiBi)ni=1(Ai)2ni=1(Bi)2(1)一组帖子 G1与另一组帖子 G2的平均相似性,用衡量两组对象之间距离或相似度的常用的“类平均法”(组间平均连接)测度。在本文中,某一用户发布、生产的信息内容的自我重复化与相似化程度可以表示为ninjR(ti,tj)n(n1)(2)其中,n 代表某用户所发布的微博帖子的总数。ti,tj 表示

32、某用户的任意两条帖子,R(ti,tj)代表两条帖子内容相似度,其中titj(此处选择n=300)。某一用户发布、生产的信息内容与全体内容的平均相似度可以表示为n1in2jR(ti,tj)n1n2(3)其中,n1代表个体的帖子数(此处n1=300),n2代表全体内容(此处n2=50000,表示从全体帖子中随机选取50000条帖子代表全体帖子。评论数频率500 000400 000300 000200 000100 000002.004.006.00图6帖子评论数直方分布图转发数频率500 000400 000300 000200 000100 000002.004.006.00图7帖子转发数直方

33、分布图2023 年第 4 期徐翔等:社交网络内容用户“茧房趋同性”基于 BERT 模型的新浪微博样本研究187任意两个用户x 和 y 之间的内容相似度表示为sim(x,y)。可采用式(3)进行计算,其中n1代表用户x 的帖子数,n2代表用户y 的帖子数。(五)用户“茧房”内容趋同化的预调研由于每个用户的“茧房”程度分别用 2017 年至 2019 年随机抽取的 300 条帖子,计算这些帖子彼此之间的相似程度进行表示,因此通过 BERT 模型转变成句向量后可以用300 行768 列的矩阵表示。而所用样本中全体内容转变成向量后为1975085 行768 列,若是用全部帖子计算,需要计算197508

34、5768=1516865280 次的300 行768 列矩阵乘法,计算量太大。因此从全体样本中按照简单随机抽样,抽取50000条帖子来近似地代替全体内容。对 2143 个用户样本计算后可得,用户的茧房程度越高,则其发布内容与全体内容的相似度越高,两者之间的皮尔逊相关系数为 0.729,检验统计量的概率值p 0.001。这一研究结果显示出用户“茧房”内容构成的普遍化、趋同化,为本研究“茧房趋同性”及其核心假设的成立提供了基础性的前提(如图 8 所示)。三、用户“茧房趋同性”核心假设的实证检验结果(一)假设 H1.1 和假设 H1.2对21432143=4592449 对用户样本计算后可得,任意两

35、个用户的内容相似程度,与彼此的茧房程度之和成正比,两者之间的皮尔逊相关系数为0.633,检验统计量的概率值p 0.001,假设 H2.1 得到验证;任意两个用户的内容相似程度,与彼此的茧房程度之差距成反比,两者之间的皮尔逊相关系数为-0.385,检验统计量的概率值p 0.001,假设 H2.2 得到验证。上述结果共同表明,“茧房趋同性”不只是一种理论上的想象与推测,而是在微博平台中实际存在的客观现象(如图 9、图 10 所示)。(二)假设 H2以任意两个用户彼此的内容相似程度作为因变量,以用户的茧房程度之和以及茧房程度之差距作为自变量进行多元线性回归分析,变量的筛选采用了“逐步”分析策略。关联

36、强度方面,回归模型的调整R2为 0.534,这说明用任意两个用户的茧房程度高低能够解释约 53.4%的用户彼此内容相似度。显著性检验方面,p 值为0,小于 0.05,说明拒绝原假设,认为自变量和因变量的线性关系显著。残差分析方面,残差均值为 0,说明总体上服从以 0 为均值的正态分布。残差独立性方面,Durbin-Watson 值为 1.372,约等于 2,说明不存在自相关关系。另外,标准化残差的标准 P-P 图中,数据沿对角线方向分布,说明回归模型满足正态要求(如图 11 所示)。多重共线性诊断方面,最大特征值为 2.668,最小特征值为0.031,最大的条件指数为9.323,可以认为多重共

37、线性较弱,特征值检验系统比较平稳,结论基本稳健。综上,对于社交网络中两个任意用户x 和y 而言,两者的内容相似度为sim(x,y),两者的“茧房”程度为ix、iy,本次回归分析的回归方程可以表示为:sim(x,y)=0.622(ix+iy)-0.365|ix-iy|,通过用户“茧房”程度可以预测用户彼此内容的相似度。用户茧房程度与全体内容的内容相似度0.800.600.400.200.500.600.700.800.901.00图8用户“茧房”内容的趋同化示意图用户茧房程度之和用户彼此内容相似度00.20.40.60.81.000.25 0.50 0.75 1.00 1.25 1.50 1.7

38、5 2.00图9用户茧房程度之和与用户彼此内容相似度相关性示意图用户彼此内容相似度00.20.40.60.81.000.20.40.60.81.0用户茧房程度之差距图10用户茧房程度之差距与用户彼此内容相似度相关性示意图188北 京 理 工 大 学 学 报(社 会 科 学 版)2023 年 7 月00.20.40.60.81.00.20.40.60.81.0实测累积概率预期累积概率回归标准化残差的正态P-P图因变量:用户彼此内容相似度图11用户“茧房”程度与用户彼此内容相似度标准化残差的正态p-p图 四、结语以“新浪微博”为例,提出并证实社交网络内容生产中的用户“茧房趋同性”,所作假设 H1.

39、1、H1.2、H2 全部得到支持。用户的“茧房”程度与用户彼此的内容相似度之间存在明确的正相关性、用户“茧房”程度可以作为预测用户彼此内容相似度的指标。这一研究发现部分意义上是反经验直观的,和一些强调信息茧房内容的多样分化、陷入“茧房”的用户彼此会产生内容隔离这些具有较大拥趸的观点具有不符之处。但实证结果和经验直观并不符合,其形成机制表现出一定的合理性。这一研究结果具有的价值:反思当前对于信息茧房的流行观点的认知,推进对信息茧房的研究。信息茧房并非是“千人千面”的,而是具有某种共同的内容倾向;用户不只陷入在个体的“茧房”之中,也通过“茧房”趋于同化,最终被困在相同的内容“牢笼”之中。这警示人们

40、在批判个体信息消费“作茧自缚”的同时,更应该从全局的视角,关注整个平台“茧房”的形成机制及其对用户的同化后果。为刻画、预测微博平台用户之间的内容相似程度提供新的参考维度。用户内容生产侧的“茧房”程度可以作为描述、衡量用户彼此内容相似性程度的指标。这不仅对现有主要以人口统计学指标或社会关系特征等的补充,也为人们分析网络用户内容趋同性、网络平台内容趋同性及其产生机理、传递路径提供可探索路径。信息茧房意味着用户个体的信息视野窄化,更体现出网络平台对于异质化“茧房”内容的消解,以及对用户无意识的“规训”与个性束缚。社会所依凭的每个人,都带上了社会的烙印:他们看似自由自在,实际上却是经济和社会机制的产品

41、7112-113。网络平台的用户,看似自由自在,但其内容偏好本身就是平台机制再生产的产物。在使用网络平台的过程中,每个用户都在不同程度的产生着信息偏好的窄化以及与其他用户的内容同质化。久而久之,越来越难任意地形成 UGC 内容生产过程中的“发散”和“多样”,而是趋于网络平台构筑的同质化“茧房”与“牢笼”。“微博机器”或“社交媒体文化工业”正在“茧房”这一趋同机制的驱动下,以“个性化”的名义,不断塑造与生产着重复化的“人”。参考文献:1桑斯坦.信息乌托邦:众人如何生产知识 M.毕竞悦,译.北京:法律出版社,2008:8.2彭兰.导致信息茧房的多重因素及“破茧”路径 J.新闻界,2020(1):3

42、038+73.3靖鸣,蔡文玲.“信息茧房”负效应消解的路径选择 J.学习与实践,2020(6):125131.4喻国明,曲慧.“信息茧房”的误读与算法推送的必要:兼论内容分发中社会伦理困境的解决之道 J.新疆师范大学学报(哲学社会科学版),2020,41(1):127133.5NECHUSHTAIE,LEWISSC.Whatkindofnewsgatekeepersdowewantmachinestobe?Filterbubbles,fragmentation,andthenormativedimensionsofalgorithmicrecommendationsJ.ComputersinH

43、umanBehavior,2019(90):298307.6ALYUKOVM.Makingsenseofthenewsunderanelectoralauthoritarianregime:russianTVviewersandtheRussia-UkraineconflictD.Finland:UniversityofHelsinki,2021.2023 年第 4 期徐翔等:社交网络内容用户“茧房趋同性”基于 BERT 模型的新浪微博样本研究1897霍克海默,阿道尔诺.启蒙辩证法:哲学断片 M.渠敬东,曹卫东,译.上海:上海人民出版社,2006:107152.8马尔库塞.单向度的人 M.刘继

44、,译.上海:上海译文出版社,2008:11,23,53,7071.9孔明安.物象征仿真:鲍德里亚哲学思想研究 M.芜湖:安徽师范大学出版社,2010:112113.10LIN A,ABELIUK A,FERRARA E.Effects of network structure on subjective preference diversityC/2019 IEEE InternationalConferenceonBigData(BigData).LosAngeles,CA,USA:IEEE,2019:30263031.11徐翔.微博媒介使用中的用户趋同化现象与路径:基于新浪微博用户的实证分

45、析 J.北京理工大学学报(社会科学版),2021,23(6):176187.12MIKALJP,RICERE,KENTRG,etal.Commonvoice:analysisofbehaviormodificationandcontentconvergenceinapopularonlinecommunityJ.ComputersinHumanBehavior,2014(35):506515.13徐翔,刘佳琪,靳菁.微博空间中的意见典范用户及其作用路径研究 J.新闻大学,2021(7):1432+119120.14杨洸,佘佳玲.新闻算法推荐的信息可见性、用户主动性与信息茧房效应:算法与用户互动

46、的视角 J.新闻大学,2020(2):102118+123.15徐翔,靳菁.基于 Word2vec 的信息窄化测度及影响因素研究 J.吉林大学学报(信息科学版),2021,39(3):339347.16ZHAO Y,WANG C,HAN H,et al.An impact evaluation framework of personalized news aggregation and recommendationsystemsC/2020IEEE/WIC/ACMInternationalJointConferenceonWebIntelligenceandIntelligentAgentTe

47、chnology(WI-IAT).Melbourne,Australia:IEEE,2020:893900.17ZHANG,L,ZHENG,L,PENG,TQ.StructurallyembeddednewsconsumptiononmobilenewsapplicationsJ.InformationProcessing&Management,2017,53(5):12421253.18NIKOLOVD,OLIVEIRADFM,FLAMMINIlA,etal.MeasuringonlinesocialbubblesJ/OL.PeerJcomputerscience,2015(1):e3820

48、22-06-23.https:/doi.org/10.7717/peerj-cs.38.19XUH,CHENZ,LIR,etal.Thegeometryofinformationcocoon:AnalyzingtheculturalspacewithwordembeddingmodelsJ/OL.(2020-10-27)2022-06-23.https:/doi.org/10.48550/arXiv.2007.10083.20陈华珊,王呈伟.茧房效应与新闻消费行为模式:以腾讯新闻客户端用户评论数据为例 J.社会科学,2019(11):7387.21ZUIDERVEENB,TRILLINGD,M

49、LLlERJ,etal.Shouldweworryaboutfilterbubbles?J/OL.InternetPolicyReview,2022-06-23.https:/ G,GONCALVES D,SIKDAR S.Deconstructing the filter bubble:User decision-making and recommendersystemsC/FourteenthACMConferenceonRecommenderSystems.NewYork:AssociationforComputingMachinery,2020:8291.23KRAFFTD,GAMER

50、M,ZWEIGKA.Whatdidyousee?Personalization,regionalizationandthequestionofthefilterbubbleingooglessearchengineJ/OL.(2018-12-28)2022-06-23.https:/doi.org/10.48550/arXiv.1812.10943.24HOSANAGARK,FLEDERD,LEED,etal.Willtheglobalvillagefractureintotribes?Recommendersystemsandtheireffectsonconsumerfragmentati

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服