导向性股评识别的统计测度研究.pdf

资源描述

1、Times Finance时代金融导向性股评识别的统计测度研究田径李玮嘉常云翼张岳坤一引言互联网的发展对社会进步产生了巨大推动，一方面提高了生产效率，丰富了人们的娱乐、购物、学习等方式，却也产生了一些负面影响。网络信息质量参差不齐，例如垃圾邮件、购物虚假评论、微博水军评论、网络谣言等都给人们的生活带来了困扰。随着互联网金融的发展，股票资讯平台拥有大量的投资者用户，每天产生大量的股票评论，背后衍生出的问题和购物平台类似，即存在着一些引导人们观点的评论，对于股吧中的这些评论我们定义为“导向性股评”。目前，我国股票投资者类型以中小投资者为主。中小投资者投资风格具有过度交易、重仓交易、轻信等特点，容易

2、被股评消息一特别是被一些导向型较强的股评所影响。本文通过对导向性股评的统计测度研究，可以帮助投资者对股吧评论有一个更清晰的参考，供中小投资者理性参考。同时，可以帮助相关互联网平台识别优质股评，更好地为用户精准推送优质内容。叙述内容（一）文献综述通过对国内外相关文献的阅读，对于导向性股评的识别主要从语言特征的检测和非语言特征的检测两个方面人手：1.基于语言特征的导向性股评检测。语言特征其实就是从评论中提取的文本特征。提取文本的特征是以往识别虚假评论的关键步骤，机器学习和深度学习方法都被广泛应用于评论文本特征识别。在深度学习技术成熟之前，评论文本识别任务大多使用机器学习技术来完成，包括无监督聚类运

3、算算法和监督学习的分类器方法等。张玉莹（2 0 2 3）等学者提出基于机器学习和自然语言处理的方法来识别虚假评论。2.基于非语言特征的评论检测。由于股吧用户众多，股吧的评论形式存在多样性，所以语言特征和文本特征在一定程度上会导致分类器出现偏差，因此，需要挖掘其他有效特征来进一步提高检测准确率。刘美玲，尚玥（2 0 2 3）等人侧重于研究基于用户行为的虚假评论识别，并提出了一种基于评论者行为模式的方法，通过分析评论者在评论中的表现方式、评论频率和与其他评论者的互动等行为特征，识别虚假评论。张文宇（2 0 1 8）等基于用户行为证据融合构建D-S证据理论模型，对虚假评论者的识别准确率达到了8 7%

4、。（二）数据采集与预处理1.数据来源。本文选取了A股1 0 个行业的1 0 只行业巨头股票作为研究目标，分别是科大讯飞、比亚迪、牧原股份、中信证券、三一重工、招商银行、山东黄金、三安光电、中远海控和贵州茅台，利用Python爬虫技术爬取了这些股票在某股吧2 0 1 8 年1 月到2 0 2 3 年4 月的评论。2.数据爬取及预处理。利用python在某股吧爬取了这10只股票共计3,56 5,6 3 6 条股票评论，每条文本内容都包含发帖人ID、发帖月份、标题、评论数和阅读数、帖子类型等标签。之后剔除了文本信息为空的股评，剔除了资讯类信息和重复评论数据。3.导向性关键词词典的构建与扩展。首先人工

5、构建专业词汇词典，运用Python中Jieba库对清洗后的数据进行分词处理。之后构建导向性股评词典。词典的构建分为以下3个步骤：第一步：人工构建导向性基础词库。目前学界还没有权威的导向性股评的基础词典。由于股评的文字形式多变，且呈现口语化的特征，我们首先需要构建一个基础词典语料库，初步人工构建一个股市常用导向性词汇基础库。第二步：通过word2vec工具构建词向量。计算基础词和股评词语的余弦相似度，即通过计算词向量间的夹角大小，来判断词语之间的文本相似度，夹角越小代表两个词语越相似，反之则越不相似。余弦相似度的计算公式如下：其中，Similaritye表示导向性基础词和股评词语的余弦相似度，A

6、代表基础词，B代表股评中的词汇。本文选取基础库中每个词语余弦相似度前1 0 0 的词语作为扩展词。第三步：人工处理关键词库。对word2vec扩展的词语进行人工处理，剔除其中重复的和明显不合逻辑的词语，并补充一些遗漏的词语作为最终的导向性股评关键词库，一共得到4 3 4 个词语。4.特征指标构建及数据标注。指标构建：初步选取四大类型的指标。一是阅读指标，包括阅读量、评论数量；二是用户行为指标，初步选取了同ID周发帖频数作为一个指标；三是股票的量价指标，包括发帖时的股价和成交量相AB时代金融81时代金融 Times Finance对于过去4 8 周股价和成交量的相对高低位；四是文本特性指标，导向

7、性词汇占比PEW，公式如下：PEW=导向性词汇数量单条股评文本词汇总数量人工数据标注：首先，对1 0 只股票进行均匀分布采样。每只股票抽样1 2 0 0 0 条股评作为测试样本，然后选取2 位金融学专业研究生进行人工标注非理性预测股评，每人标注6 0 0 0 条。对于标注结果不一样的帖子，再邀请第3 位研究生进行标注，采取少数服从多数的原则确定最终标注结果。（三）实证研究1.特征选择与预处理。首先，考虑到被标注为“无法确认”的数据可能成为模型训练过程中的噪声项，因此先剔除掉标注数据集中的被标注为“无法确认”的数据，只保留已确认为“导向性评论”和“非导向性评论”的数据，从而使模型简化为一个“二分

8、类”问题。最终保留的标注数据为1 0 2 3 6 条。其次，由于部分指标可能与标注人员对于导向性股评的判断相独立，因此使用Filter过滤法剔除不影响标注结果的特征指标，以提高模型训练的准确度和减少训练时间。本文参考武晓丹（2 0 2 2），使用卡方检验对不影响标注结果的特征量予以剔除，其中剔除的标准为特征指标的p_value大于或等于0.0 5。表1 特征指标卡方检验评分及p值特征指标卡方检验评分同一ID周发帖频数231.64导向性词语占比23.29股评阅读量8.53股评词语总数6.28当周股票交易量相对高低位1.33当周收盘价相对高低位0.41最终选择同一ID周发帖频数、导向性词语占比、股

9、评阅读量和股评词语总数四个特征指标进行模型训练。2.评价指标。使用准确率指标（Accuracy）来评价各个模型测试结果。准确率指标公式如下：TP+TNAccuracy=TP+FN+FP+TN其中，TP为实际导向性评论且模型预测为导向性评论的个数，FN为实际导向性评论，但模型预测为非导向评论的个数，FP为实际非导向性评论，但模型预测为导向性评论的个数，TN为实际非导向性评论且模型预测为非导向性评论的个数。模型预测越准确，则模型测试得到的准确率指标越高。3.模型比较。对于已经处理好的1 0 2 3 6 条数据进行了标准化，并采用2：1 的比例划分为训练集和测试集。使用Python编程语言sklea

10、rn库中的五个主流机器学习模型进行了测试。82时代金融表2 各个模型测试情况模型名称模型主要参数设置决策树模型默认K近邻n_neighbors=40支持向量机使用高斯核函数高斯朴素贝叶斯模型默认hidden_layer_sizes=(4,2),activation=relu,MLP神经网络solver=sgd,learning_rate_init=0.05,max_iter=300,learning_rate=adaptiveMLP神经网络模型拥有更高的准确率且在数次测试中保持稳定，决策树则准确率较低。这可能源于决策树模型不适合处理离散型变量。K近邻模型和支持向量机模型呈现了较好的测试准确率，

11、但在考虑到本文数据标注过程是基于一套较为模糊和复杂的规则，因而最终选择使用MLP神经网络模型。三、基于用户ID下的导向性股评文本模式分析使用训练好的MLP神经网络模型对于全部股评数据共3080343条进行二分类预测，再根据不同用户ID对预测完的数据进行分组统计。导向性股评占股评总数比例大的账户，其背后的用户行为更倾向于引导投资者做出某种投资决定而非客观地评价市场，以下对该类账户简称为“导向性账户”。（一）导向性账户的定位卡方检验p值首先，对账户活跃程度加以区分。本文认为应以发帖总量50 0 作为区分账户活跃程度的阈值，即在假设账户从0.00002018年关注该股票且每周大约发帖一次，经筛选后，

12、从0.000095790个账户中选择55个账户作为活跃账户。其次，通过0.0140账户导向性评论占比情况，把账户区分为导向性账户、非导向性活跃账户和其他活跃账户。最后，将活跃账户中导0.0432向性评论占比高于91%的定义为导向性账户，导向性评论0.5136占比低于1 8%的定义为非导向性活跃账户。0.8135（二）导向性账户的股评数值特征分析发帖阅读量。从表3 可以看出，导向性账户股评阅读量低于非导向性活跃账户。这可能因为用户会主动辨别导向性账户昵称，从而减少对于导向性账户发布股评的阅览量。从另一方面来说，导向性股评比较激进，投资参考价值不大，用户也会主动减少此类“垃圾”信息的阅读，从而降低

13、了导向性账户股评的阅读量。表3 阅读量和评论量分布比较阅读量均值导向性账户399.1796非导向性活跃账户2138.5955同一ID周发帖频数与股评词语总数。从图1 和表4 可以看出，导向性账户周发帖频数明显高于非导向性活跃用户，而导向性账户股评词语总数则较非导向性活跃用户低。导向性账户为实现“刷屏”目的，往往需要一周发表8 0-100篇股评，随之而来的是评论质量的下降。其中比较明显的指标是评论词语总数较少。准确率Accuracy0.85750.92410.92440.90830.927中位数上四分位数下四分位数343.0260.0372.0234.0433.0797.0Times Finan

14、ce时代金融高。导向性账户发布帖子的阅读量和评论数较低，说明股吧用户对导向性股评和账户有一定的辨识能力和规避趋势。上述研究方法和导向性账户的特点，可以帮助投资者理性辨识各大互联网平台上关于股票的导向性评论。同时互联网平台也可以利用以上的研究思路，识别非导向性优质评论推送给用户，精细推送算法。最后，对金融监管部门更好地监管市场、维护金融市场秩序具有一定参考意义。图1 周发帖频数分布比较（左为导向性账户）参考文献：表4 评论词语总数比较1 张玉莹，朱广丽，张友强，孙争艳，张顺香.基于阅读量均值导向性账户7.8804非导向性活11.4807跃账户总结来看，导向性账户的语言措辞更为极端且简练，意图在于

15、引导其他用户在某一方向上进行操作；而非导向性活跃账户在语言上更加注重数据引用和客观事实陈述，情感上会受到市场波动影响。从周发帖频率上看，导向性用户的周发帖频率远高于非导向性活跃用户，日均发帖1 0 篇以上，以上两个现象皆与导向性账户引导用户做出投资决策的目的相匹配。四、结语本文通过对某股吧1 0 只股票的股评数据进行研究发现MLP神经网络拥有最高的测试准确率。然后进一步使用MLP神经网络模型对全数据进行二分类预测，区分并研究该股票股吧导向性账户的特征。最后研究发现，导向性账户股评措辞较为极端且片面，文本长度略低且发帖频率较中位数上四分位数下四分位数7.05.011.06.0情感信息预处理和Bi

16、-GRU的虚假评论识别模型J广西科学,2 0 2 3,3 0(0 1):1 6 9-1 7 6.DOI:10.13656.10.02 刘美玲，尚玥，赵铁军，周继云.基于代价敏感学18.0习的不平衡虚假评论处理模型U/OLI.数据分析与知识发现:1-1 3 2 0 2 3-0 5-2 6 .3】张文宇，岳昆，张彬彬，基于D-S证据理论的电子商务虚假评论者检测 J.小型微型计算机系统,2 0 1 8,3 9(1 1):2 4 2 8-2 4 3 5.4 武晓丹.基于特征选择的微博水军识别研究J】电子测试，2 0 2 2，3 6(2 4):4 7-4 9+6 9.DOI:10.16520/ki.10

17、008519.2022.24.008.基金项目：陕西省自然科学基金项目，项目编号：2 0 2 2JQ-738；陕西省社会科学界联合会研究项目，项目编号：2022HZ1824。作者单位：西安外国语大学经济金融学院金融速览中国银联云闪付APP可在线查询个人信用报告个人信用报告也被称为个人“经济身份证”，是由征本人信用报告，并可选择下载到个人邮箱进行保存。通信机构出具的记录个人过去信用信息的文件，可以帮助过云闪付APP查询个人信用报告，线上办理、操作方便，相关机构了解个人信用状况，方便达成经济金融交易。不受营业时间限制，在向用户提供便利服务同时，为保目前，云闪付APP上线的“信用报告”来自中国人护用户信息安全，云闪付APP仅面向已通过实名认证的民银行征信中心建设、运行和维护的国家金融信用信息用户提供查询申请服务，通过交叉认证方式，确保用户基础数据库，用户可在首页“更多一便民服务”专区找本人操作，保障个人信息安全，云闪付平台不采集、留到“信用报告”应用小程序，点击进人并通过身份认证存用户信息。后，即可在线提交信用报告查询申请。提交查询申请后，人民银行征信中心将于2 4 小时内返回查询结果。成功提交查询申请的用户可在云闪付“信用报告”小程序查看UnionPay银联(房晓榕）时代金融83

展开阅读全文