收藏 分销(赏)

弹幕情感特征对科技类视频流行度的影响研究.pdf

上传人:自信****多点 文档编号:917931 上传时间:2024-04-07 格式:PDF 页数:7 大小:1.09MB
下载 相关 举报
弹幕情感特征对科技类视频流行度的影响研究.pdf_第1页
第1页 / 共7页
弹幕情感特征对科技类视频流行度的影响研究.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:作者简介:黄碧滢(),女,级硕士研究生,研究方向为商务智能、挖掘;吴冰(),女,副教授、硕士生导师,研究方向为商务智能、社交媒体、挖掘。弹幕情感特征对科技类视频流行度的影响研究黄碧滢 吴 冰(同济大学经济与管理学院 上海)摘 要:目的 意义旨在探究民众对科技类视频的关注焦点,在丰富学界关于视频流行度研究的同时,也为视频创作者优化制作策略提供借鉴。方法 过程考虑到弹幕中隐含的观众情感可能会影响视频的流行度,本文以弹幕情感特征为出发点,探究影响科技类视频流行度的因素。结果 结论视频播放量、评论量、弹幕量和中性情感比例对视频流行度有正向影响,而负向情感比例对视频流行度有负向影响。关键词:弹

2、幕情感特征;科技类视频;视频流行度;影响因素中图分类号:文献标识码:():;引言近 年来,国家对科技人才重视程度不断提高。今年年初,中办、国办印发关于完善科技激励机制的意见,大力倡导健全对基础前沿和公益性研究的稳定支持机制,支持和保障有创新潜力的科技人员;加大对青年科技人员的支持力度,创造有利于青年人才脱颖而出的环境。而当代青年成长于社会经济、科技快速发展的时代,互联网已成为青年人生活中不可或缺的一部分。随着 时代来临,公众正在经历科学技术加速变革的新时代,哔哩哔哩董事长兼 陈睿指出,“年轻人对于科技内容的兴趣越来越浓厚,目前科技类视频已经成为 站最受用户欢迎的内容之一。”观众对于科技类视频关

3、注度的增加,也吸引了诸多视频制作者参与到视频创作的浪潮中来。但随着网络视频行业规模的不断扩大,市场竞争加剧,如何创作出受观众欢迎的视频也成为视频制作者所面临的一道难题。因此,了解有哪些因素会影响科技类视频流行度以及影响的程度如何,能够帮助平台营造一个良好的科技类视频创作环境,并且有利于帮助视频创作者优化其视频创作策略,创作出更受观众欢迎的视频。目前对于视频流行度的研究较少聚焦于科技类 年 月 情报探索 第 期(总 期)()视频,也较少从弹幕情感方向研究视频流行度的影响因素,故本文基于情感分析和实证方法对科技类视频的弹幕进行深入研究,从视频和弹幕属性分析影响科技类视频流行度的相关因素。本研究能够

4、丰富科技类视频流行度的研究内容,对于优化科技类视频质量、帮助视频创作者提升其视频流行度具有重要的意义。文献综述 弹幕情感分析相关研究情感分析又称为情感倾向性或意见挖掘,主要是通过对文本内容进行挖掘与分析,识别其情感倾向,来获取到有价值的信息。近年来,随着弹幕文化的发展,越来越多的学者着眼于弹幕领域的情感分析,目前主要使用的情感分析方法可以归为三类:基于情感词典的分析方法、基于机器学习的分析方法和基于深度学习的分析方法。基于情感词典的方法,是指根据不同情感词典所提供的情感词的情感极性,来实现不同粒度下的情感极性划分。基于情感词典的方法优势在于可以准确反映文本的结构特征,但是其分析的效果主要依赖于

5、情感词典的构建,例如:陈朝明通过优化语料、语料特征提取构建了弹幕专属情感词典,以提高弹幕分析的准确性;单梦则是使用 与改进的 算法相结合来构建适用于弹幕文本的情感词典,基于该词典对弹幕进行情感分析和 主题模型提取观众的态度和观影重点;等构建了弹幕情感词典,并提出一种基于情感词典和朴素贝叶斯的弹幕评论情感分析方法,以监督弹幕视频的整体情感倾向和预测其流行度。基于机器学习的分析方法,是指首先将文本按照情感进行分类,再利用算法训练抽取特征得到模型,最后用得到的模型进行情感分析。该方法在一定程度上可以提高情感分类的准确性,但是依赖于情感特征的提取和分类器的选择,如马梦曦结合弹幕语言精简和碎片化的特点,

6、提出了基于 与 的弹幕情感极性分析模型,并将其应用于个性化视频推荐和在线视频舆情分析领域。基于深度学习的分析方法则是需要在大量文本语料中训练出语义词向量,再通过不同的语义合成方法训练出的词向量构建整体评论的特征表达,能充分利用上下文文本的语境信息,但比较适用于大规模的数据集。如张继东等结合深度学习模型 和,提出融合注意力机制的多模态情感分析模型,并将其应用于对突发事件的用户情感分析。刘丽群则是针对弹幕数据特征建立 情感分类模型,对近期颇受关注的灾害事件进行舆情监测和可视化。总体来看,对弹幕的情感分析通常是聚焦于观众对于影视的情感态度或是民众对于某类事件的舆情分析,多数学者选择对情感分析模型进行

7、优化。考虑到情感分析的效率和准确性,本文情感分析部分采用基于机器学习的 ,传统的 自然语言处理库对于中文文本的处理效果较差,大多都面向英文文本,而 库自带中文正负情感训练集,可以通过朴素贝叶斯原理实现词性标注、情感分析和文本分类等操作,能够很好地用于中文文本数据的分析,同时能极大地减少构建词典和人工标注训练集的时间。视频流行度相关研究视频流行度是评估一个视频是否受到观众认可的一个关键要素,目前关于视频流行度影响因素的研究较多从用户的行为、心理等方面展开。部分学者选择聚焦于某个视频类型展开研究,李蕾基于 站科普视频样本,通过内容分析和回归分析等方法系统考察传播主体、传播内容、视频形式三方面的诸多

8、因素对传播效果的影响。朱灵慧着眼于 视频,从 博主与访客两个方面展开,研究其数据之间的相关性,从用户群体特征角度研究影响 视频传播的要素。潘超则是从弹幕和评论出发,探究其数量和情感特征对 站知识类视频热度,即投币数、点赞数、收藏数的影响情况,但是没有将分享量作为评估视频流行度的一部分。等将关注点聚焦于直播视频平台 ,从视频内容特征(包括视频内容制作公司、视频内容类型与直播情况)来调查影响 视频流行度的主要因素,并重点关注了更吸引消费者的 内容类型。另一部分学者则选择聚焦于某个更为具体的主题视频进行研究,等将内容运行时间、订阅数量等作为变量研究 上有关仁川唐人街的内容的传播情况,并探究能够促进该

9、内容观看的潜在因素。等则是聚焦于主题为 的视频,从视频特征和视频上传者特征来探究 大流行期间 视频流行度的影响。总体而言,对于视频流行度影响因素的研究较少聚焦于科技类视频;与视频流行度相关的研究关注点多为非情感要素,较少集中于弹幕,也较少有研 年 月情报探索第 期(总 期)究将弹幕情感与视频流行度联系起来分析。研究评述结合以上研究结果发现,对于视频流行度影响因素的研究大多聚焦于用户行为数据和评论文本,且多关注于评论数、博主粉丝数等非文本情感要素。较少学者关注弹幕对于视频流行度的影响,而弹幕作为年轻群体表达其观点的重要方式,其蕴含的情感倾向可能在一定程度上影响视频流行度。故本文将重点关注科技类视

10、频,研究影响其视频流行度的主要因素,并关注弹幕的相关属性(尤其是情感属性)对视频流行度的影响,以弹幕情感视角这一新的分析角度展开分析,以丰富学界对科技类视频流行度的研究。因此,在借鉴前人研究的基础上,本文以 站科技区视频为数据源,将点赞量、投币量和收藏量的均值以及分享量作为评估视频流行度的要素,使用相关性分析和多元回归分析来研究弹幕情感、平均弹幕长度等因素是否会对视频流行度产生影响,其中弹幕情感值的使用 方法进行计算。弹幕数据的收集与处理 数据获取新媒体背景下,作为年轻人最大的在线视频社区,哔哩哔哩(,以下简称“站”)是最早引入弹幕功能的视频网站之一,其弹幕功能较为完善。截至目前,站弹幕总量超

11、过 亿,已经成为当代中国青年分享其独特文化生活的重要网络聚居地,他们通过创作视频、发表评论和互动弹幕等方式表达观点。因此本文选取 站科技区视频作为数据源,科技区下有数码、软件应用、计算机技术、科工机械和极客 共五个小分区,先使用八爪鱼采集器采集视频的基本数据,主要包括:视频 号、视频播放量、视频时长、点赞量、投币量、收藏量、分享量、弹幕数和评论数,再使用 根据采集到的视频 进行编程以获取符合条件的视频所对应的弹幕文本数据,数据的时间区间为 年 月 日 月 日,共采集到 条数据。数据预处理 数据清洗在数据获取过程中,由于抓取的视频数据较多,数据量较大,因此在最终得到的数据集中存在较多的数据重复、

12、乱码和空白等问题,部分数据项包含了较多重复的无用文本,为了尽可能地保证数据集的有效性,需要对数据进行清洗和处理。为了保证数据的可使用性,对重复、乱码和空白的数据进行剔除,对于包含较多重复无用文本的数据项,删去其数据项中的无用文本,提取出与数据项相关的关键信息。并统一同类变量的单位,如视频时长单位统一为秒,分享量、评论量等数值单位统一到个位。考虑到弹幕情感分析所需要的弹幕数量,在数据清洗的基础上剔除掉弹幕数小于 的视频数据,以保证后续情感分析和弹幕情感比例计算的有效性。经过数据清理后共得到有效数据 条。弹幕数据情感分析()中文分词对于弹幕文本数据,需要在情感分析之前对其进行分词操作,分词是文本分

13、析的基础,是指将句子以词语为基本单位进行分割。中文分词可以使用 自带的“”分词库,该分词库有三种模式,精确模式、全模式和搜索引擎模式。精确模式适用于文本分析,会将句子最精确地切分开;全模式是以较快的速度将句子中所有成词的词语都扫描出来,但是无法解决歧义问题;搜索引擎模式则是在精确模式的基础上对长词进行再切分,切分出更短的词语,比较适用于搜索引擎分词。为保证文本分析的准确性,本文采用的是精确模式对弹幕数据进行分词。()去停用词停用词是指在文本数据中经常出现的,通常用于承接句子或表示语气,但具有很少实质性意义的符号或词语,如中文里的“和”“接着”“就是”“了”等词。这些词在文本数据中出现的频率都较

14、高,但难以有效表示文本特征,因此需要进行去除。去停用词一般是在创建停用词表的基础上先对文本进行分词处理,再将停用词表中的词语与分词结果中的词语进行对比,若分词结果的某个词语存在于停用词表中,则将其删除,目前常用的中文停用词表有哈工大停用词表以及百度停用词表。本文在哈工大停用词表的基础上根据弹幕实际情况补充了一些停用词,如“好像”“真是”“确实”等词。()情感分析在分词和去停用词的基础上,针对每个视频所对应的弹幕文本内容,使用 算法计算其情感值,情感取值的范围为,大于 定义为积极,越接近 则情感态度越积极,反之小于 为消极,越接近 则越消极,等于 定义为中性。统计出各个视频三个情感倾向的弹幕数,

15、并计算得到各个视频所包含的三个情感倾向的弹幕比例、弹幕平均情 年 月黄碧滢等:弹幕情感特征对科技类视频流行度的影响研究第 期(总 期)感值、弹幕文本平均长度(计算结果均保留两位小数),将其作为后续分析的变量。其中三个情感倾向弹幕比例以及弹幕平均情感值分布情况如图、图、图 和图 所示,可看出正向情感比例、负向情感比例、弹幕平均情感值均满足正态分布,分布于其均值附近的视频数据居多。而中性情感比例总体上呈现右偏分布,即大部分视频的中性弹幕情感比例较小。图 正向弹幕情感比例分布图图 中性弹幕情感比例分布图图 负向弹幕情感比例分布图图 弹幕情感平均值分布图 视频流行度影响因素分析 变量定义本文研究中包含

16、的变量有播放量、视频时长、点赞量、投币量、收藏量、分享量、评论量、弹幕量、正向情感比例、中性情感比例、负向情感比例、弹幕平均长度和弹幕情感平均值。()因变量点赞、收藏、投币是常见的用户参与行为数据,点赞表示用户对视频的认可,收藏表示用户认为该视频对于自己具有较大的价值,投币则是用户对创作者的一种打赏行为,激励创作者继续创作视频,这三个值可以帮助视频获得推荐,一般来说视频获得的点赞、收藏、投币量越多,说明观众对其的认可度越高,平台推送的范围也更广。考虑到弹幕平台用户存在“一键三连”的习惯,即长按可以同时实现点赞、收藏和投币的功能,汤成在研究弹幕有用性的时候将点赞、投币和收藏的均值作为衡量视频质量

17、的指标,并发现视频质量是影响视频流行度的关键因素,视频质量越高视频流行度越高。此外,分享也是一个重要的用户参与行为数据,当一个视频对用户来说是有意义的时候,用户会选择将其分享给好友或者是分享到社交平台,朱灵慧研究发现科技向视频中分享行为与点赞、投币、收藏这三种行为之间没有明显相关性,陈文俊认为分享量可以作为视频传播效果的量化指标之一,分享量高的视频,其视频流行度也相对较高。故本文在借鉴前人研究的基础上,将点赞量、收藏量和投币量的均值以及分享量作为视频流行度的衡量指标,即:视频流行度指标(点赞数量收藏数量投币数量)分享数量()自变量本文选择将播放量、视频时长、评论量、弹幕量、年 月情报探索第 期

18、(总 期)正向情感比例、中性情感比例、负向情感比例、弹幕平均长度、弹幕情感平均值作为模型的自变量。模型的具体变量和描述如表 所示。表 变量描述表变量类型变量变量描述自变量播放量视频对应的播放量视频时长视频的时长,以秒为单位评论量视频对应的评论数量弹幕量视频的弹幕数量正向情感比例视频中情感值 的弹幕占比中性情感比例视频中情感值 的弹幕占比负向情感比例视频中情感值 的弹幕占比弹幕平均长度视频弹幕文本的平均字数弹幕情感平均值视频弹幕文本情感的平均值因变量视频流行度指标用于评估视频流行度,等于(点赞数量收藏数量投币数量)分享数量 描述性统计分析由于播放量、视频时长、评论量、弹幕量、视频流行度指标的数值

19、较大,因此对这几个变量使用对数表示,通过该方法能够有效缩小变量的量纲,使得其数值变化限制在相对有效的范围内,以便于后续的数据分析。通过描述性统计可以了解数据集的基本特征,如表 中数据所示,科技类视频的视频播放量对数均值为 ,最大值为,说明这类视频的播放量较高;视频时长的对数最小值为,最大值为,表明该类视频时长变化范围较大;正向情感比例、中性情感比例和负向情感比例的标准差较小,说明这三个数据的分布基本集中在其均值附近,其均值分别为 、;弹幕平均长度的均值为 ,表明不同于传统评论的长文本数据,弹幕文本长度相对较短。表 变量的描述性统计统计量播放量 视频时长 评论量 弹幕量正向情感比例中性情感比例负

20、向情感比例弹幕平均长度弹幕情感平均值 视频流行度指标平均值 中位数 标准 偏差 范围 最小值 最大值 相关性分析在把握数据集基本情况的基础上,对各个变量进行相关性分析,以衡量变量之间的相关密切程度,本文使用 软件对数据变量进行皮尔逊相关性分析,结果如表 所示。表 皮尔逊相关性分析表变量播放量 视频时长评论量弹幕量 视频流行度指标正向情感比例中性情感比例负向情感比例弹幕平均长度弹幕情感均值 播放量 视频时长 评论量 弹幕量 视频流行度指标正向情感比例中性情感比例负向情感比例弹幕平均长度弹幕情感均值 从相关性分析的结果可以看出,弹幕负向情感比例、弹幕平均长度和弹幕情感平均值与视频流行度指标之间存在

21、负向的相关关系,而其余变量与视频流行度指标之间均存在正向相关关系。其中,视频播放量、视频评论量、视频弹幕量与视频流行度指标的相关系数均大于,说明它们之间具有明显的正向相关关系。弹幕中性情感比例和弹幕负向情感倾向与视频流行度的相关系数绝对值均大于 年 月黄碧滢等:弹幕情感特征对科技类视频流行度的影响研究第 期(总 期)小于,说明它们之间存在较弱的相关关系,其中弹幕中性情感比例与视频流行度存在较弱的正相关关系,弹幕负向情感比例则是与视频流行度存在较弱的负相关关系。多元回归分析相关性分析的结果表明诸多变量与视频流行度之间存在一定的相关性,为了进一步了解诸变量与视频流行度之间的具体关系,根据相关性分析

22、的结论,选取与视频流行度指标存在一定相关性的变量,构建了如下计量模型:(视频流行度指标)(播放量)(评论量)(弹幕量)中性情感比例负向情感比例其中,表示常数项,表示模型估计系数,表示随机干扰项,用于解释其他没考虑到的可能引起因变量变化的因素。使用 软件进行多元回归,结果如表 所示。表 多元回归结果表变量非标准化系数标准化系数标准误调整 显著性常数 播放量 评论量 弹幕量负向情感比例中性情感比例 注:、分别代表、的显著性水平。根据回归结果分析可以得到,模型在 水平上呈现显著性,说明该回归模型的构造是合理的。同时变量的 均小于,说明模型不存在多重共线性问题,模型构建良好。根据分析结果可以推出回归模

23、型的具体方程如下所示:(视频流行度指标)(播放量)(评论量)(弹幕量)负向情感比例中性情感比例其中,视频播放量对于提升视频流行度的影响最大,其次是评论量和弹幕量。这也符合 站视频的推荐机制,当视频的播放量到达一定的标准之后,会被官方推荐上热门,曝光量增加之后,视频流行度也会相应增加。而评论量和弹幕量则是反映观众对于视频的讨论程度,讨论越热烈,说明这个视频主题越热门,更能引起观众的共鸣,从而带来较高的视频流行度。而正向影响程度最低的是弹幕中性情感比例,负向情感比例则是会降低视频流行度。因此在多多鼓励观众参与到弹幕讨论中增加弹幕量的同时,也要尽量引导观众发表非负向的评论,以更好地提升视频流行度。总

24、结展望 研究结论人工智能浪潮下,科技类视频逐渐得到民众的关注,但聚焦于科技类视频弹幕的研究较少,且现有的研究大多聚焦于用户行为数据和评论文本,多关注于评论数、博主粉丝数等非文本情感要素,很少将弹幕情感与视频流行度联系起来进行分析。因此,本文将弹幕的文本和情感特征作为分析重点来研究科技类视频流行度的影响因素,选择 站科技区视频作为数据源,视频点赞量、投币量、收藏量和分享量的线性组合值作为评估视频流行度的指标,将经过 情感分析后的弹幕情感比例值以及其他视频要素作为变量。首先在数据预处理的基础上对数据集进行描述性统计分析,以掌握数据分布的基本情况,再使用相关性分析确定变量之间的相关关系,最后对其中与

25、视频流行度指标具有明显相关关系的变量进行回归分析,从而确定影响视频流行度的主要因素以及其影响程度。描述性统计分析结果表明,科技类视频有如下特点:第一,视频弹幕情感均值分布较为集中。视频弹幕的情感均值服从于正态分布,介于 的视频数据居多;第二,弹幕文本平均长度较短。不同于传统评论的长文本数据,弹幕文本的平均长度为,相对较短;第三,弹幕正向情感比例与负向情感比例基本持平。说明观众在就视频内容通过弹幕发表看法时带有较强的个人情感色彩。根据相关性分析的结果,发现视频播放量、视频评论量、视频弹幕量、中性情感比例、负向情感比例与视频流行度指标之间具有一定的相关性。在此基础上进行回归分析,发现视频播放量、评

26、论量、弹幕量和中性情感比例对于提升视频流行度具有正向影响,其中视频播放量的影响最大,而负向情感比例则 年 月情报探索第 期(总 期)会降低视频流行度。基于数据分析结果,本文认为科技类视频若想有效提升视频流行度,首先,可以选取民众关注的焦点话题,在视频封面制作和标题选取上别出心裁,以吸引用户点击提高播放量;其次,可以以有趣的方式讲解内容,以提升公众对于视频的讨论度;再次,可以选择在视频中加入与观众互动环节,吸引观众参与其中,增加视频的评论数和弹幕量,尤其是非负向情感弹幕量;最后,科技类视频创作者应认真创作视频,产出高质量视频,提高观众对视频的认可度,从而有效提高非负向情感弹幕量和视频播放量,以增

27、加视频流行度。理论贡献和实践意义本文基于情感分析和实证方法对科技类视频的弹幕进行深入研究,分析了影响科技类视频流行度的相关因素,并发现一些视频和弹幕属性会对科技类视频流行度产生影响。本研究丰富了科技类视频流行度的研究内容,对于优化科技类视频质量、帮助视频创作者提升其视频流行度具有重要的意义。不足与展望本文基于情感分析和实证研究的方法,分析科技类视频流行度,并取得了一定的研究发现,但是也存在着一定局限性。本文在弹幕情感值计算部分使用的是 方法,尽管该方法能够较好地处理中文数据集,但是由于弹幕文本的特殊性,其分析结果并不完全准确。未来的研究中,若能引入弹幕字典或是构建弹幕文本训练集对模型进行训练,

28、将会进一步提高弹幕情感分析的准确性。参考文献 钟佳娃,刘巍,王思丽,等 文本情感分析方法及应用综述 数据分析与知识发现,():陈朝明 直播网站在线弹幕情感分析 软件导刊,():单梦 视频弹幕文本的情感分析研究 山东:曲阜师范大学,?,:王珠美,胡彦蓉,刘洪久 基于 主题模型和直觉模糊 的农产品在线评论情感分析 数据采集与处理,():马梦曦 基于弹幕文本挖掘的情感极性分析研究 武汉:武汉理工大学,成俊会,李梅 全过程视角下基于扎根理论的微博舆情传播行为参与机制研究 情报杂志,():张继东,张慧迪 融合注意力机制的多模态突发事件用户情感分析 情报理论与实践,():刘丽群 面向自然灾害事件的舆情分析及其可视化 上海:华东师范大学,白健,洪小娟 基于弹幕的网络舆情文本挖掘与情感分析 软件工程,():李蕾 哔哩哔哩科普视频传播效果影响因素研究 长沙:湖南大学,朱灵慧 国内 用户群体特征研究 南京:东南大学,潘超 弹幕与评论的情感特征对知识类视频热度的影响分析 上海:上海财经大学,:,():,:,():,(,),():曹宇峰 基于情感分类的政策评论文本主题挖掘 大连:辽宁师范大学,汤成 知识类视频弹幕有用性及影响因素研究 武汉:华中师范大学,陈文俊 高校官方抖音账号传播效果影响因素研究 成都:电子科技大学,年 月黄碧滢等:弹幕情感特征对科技类视频流行度的影响研究第 期(总 期)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服