收藏 分销(赏)

面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf

上传人:自信****多点 文档编号:654147 上传时间:2024-01-24 格式:PDF 页数:13 大小:1.97MB
下载 相关 举报
面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf_第1页
第1页 / 共13页
面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf_第2页
第2页 / 共13页
面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、科 技 情 报 研 究SCIENTIFIC INFORMATION RESEARCH第5卷第3期Vol.5No.32023年7月Jul.2023面向股票的财经新闻关联度研究基于新闻价值量化理论石静1,2张斌1,2陈烨1,21.南京大学数据智能与交叉创新实验室,南京 2100232.南京大学信息管理学院,南京 210023摘要:目的/意义 为了从海量财经新闻中快速、准确识别与特定股票相关的重要信息,充分挖掘其潜在价值,文章开展面向股票的财经新闻关联度研究。方法/过程 利用自然语言处理与机器学习方法实现新闻全文本分析,细化到词语粒度挖掘并量化股票-财经新闻关联关系。在此基础上,基于新闻价值量化理论

2、,建立“面向股票的财经新闻关联度测度体系”。结果/结论 构建了融入新闻价值评价的股票-财经新闻关联度测度体系,实现了个性化、自动化的股票-财经新闻关联程度测量;进一步分析了各个维度指标对关联度测度的影响。关键词:新闻评估;文本挖掘;股票市场;语义关联中图分类号:G353文献识别码:A文章编号:2096-7144(2023)03-0036-13DOI:10.19809/ki.kjqbyj.2023.03.004收稿日期:2023-03-31修回日期:2023-05-05基金项目:江苏省“双创博士”(编号:JSSCBS20210044);国家自科基金面上项目“基于注意力机制的学术信息动态推荐研究”

3、(编号:72074109)。作者简介:石静(ORCID:0000-0003-1863-1559),女,1995 年生,博士研究生,主要研究方向:知识关联与发现,E-mail:;张斌(0000-0002-5591-7874),通讯作者,男,1984 年生,副教授,主要研究方向:数据智能与知识系统工程,E-mail:;陈烨(0000-0002-7619-3246),女,1990 年生,助理教授,主要研究方向:数据挖掘与用户研究,E-mail:。1引言信息不对称是股票市场上的严重问题,对各类参与者的交易行为和投资策略影响极大,易引发投资者与媒体的非理性行为,降低资本市场信息效率1,带来内幕交易、逆向

4、选择等经济难题。同时催生一些无法用传统金融理论解释的市场“异象”,如周末效应、IPO 抑价等。而财经新闻不仅涉及上市公司的经营状况、各行业政策条例,还包含经济形势、政策风向等信息。财经新闻内容更丰富、表述更客观、体量更大、传播更快,可以帮助缓解信息不对称2问题,已成为各类股票投资者的主要信息来源。但网络技术与新媒体的普及,使得新闻数量激增、质量不一、来源多样、话术庞杂。一方面,造成个体用户无法快速、准确地获取个体所需信息,加剧新闻生产和需求之间的矛盾:供量巨大、需求迫切,且苦于无法打362023年7月破供需屏障,将正确的信息在正确的时间展示给正确的人;另一方面,提供咨询服务与金融数据分析的机构

5、主体面对“数据海洋”也无从下手,导致资源闲置与浪费。针对个体用户的问题,已通过推荐系统解决,但机构主体如何利用大量财经新闻数据的问题,仍未得到很好地解决。机构主体首要任务是如何从海量财经新闻中自动识别出与特定股票相关的高价值信息。新闻价值量化研究常见于新闻传播领域,传统方法大多直接对新闻事实或新闻文本评估,未考虑主体差异性,但事实上,对于不同主体而言,新闻价值是不同的。其次,新闻价值评估方法大多依赖量表和人工打分,主观性较强,且依赖人工带来的高投入和低效率,也无法适应当前的大数据环境。这就导致有效信息无法被准确评估和抽取,新闻价值被极大湮没。新闻价值属于关系范畴,包含2个主体(传者和受众)和

6、2 个客体(新闻事实与新闻文本)的关联。因此,新闻价值量化,可以从利用者角度判定蕴含在新闻中的主、客体关系,进一步指导关联度测量与高关联新闻抽取,实现面向特定主体的个性化度量3。基于此,本文基于新闻价值量化理论,深入探析了股票-财经新闻关联关系的含义,设计了融合多源信息的股票-财经新闻关联关系抽取与测度框架;并利用文本挖掘的相关技术方法,实现了兼具个性化和全面性的股票-财经新闻关联程度测量。2相关研究概述2.1新闻价值量化理论新闻价值是事实所具有的、能满足社会与公众的新闻需要的要素的总和4。作为新闻客体(新闻事实与新闻文本)与新闻主体(传者和受众)之间的一种关系,新闻价值可以被量化,新闻价值量

7、化就是衡量这种关系程度的研究。对新闻价值量化的探讨最早开始于1690年,托比亚斯 朴瑟5提出“应该把那些值得记忆和知晓的事件挑选出来加以公开报道”。20世纪 20 年代,我国徐宝璜、任白涛、潘公展等学者也对新闻价值开展了诸多研究,例如:有新闻价值是事实本身所包含的、引起各类人群共同兴趣的素质集合的“素质说”6;有新闻价值是一则新闻所产生的社会效应的“功能说”7;有新闻价值是新闻生产者判断和选取真实事件的准则的“标准说”8等;也有融合事实素质、选择标准以及社会效应的“源流说”9等。目前,对于新闻价值的内涵及要素仍众说纷纭。但在以服务为目的的新闻价值量化研究中,仍以基于新闻受众角度的价值评价为主。

8、新闻价值量化指标体系常基于新闻价值要素构建。加尔通10等于 1965 年提出,新闻价值 12 要素具有开创性的意义;托尼 哈库普等11在其基础上,不光考察了主流媒体的新闻选择,还对 Facebook、Twitter等社交媒体新闻的分享情况进行研究,提出了新的、符合当代媒体特征的 12 要素。而国内认可度较高的“五要素说”,即时新性、重要性、接近性、显著性、趣味性,则是基于美国学者弗莱德 希伯特12的理论建立,已成为新闻业界、学界判断新闻价值的重要参考。以“五要素说”及其扩展框架所构建的量化体系也占多数。面向受众的新闻价值量化,需要将每个受众与每条新闻之间的关系程度数字化,根据数字化方法的不同产

9、生了各种量化方法。其中,使用最多的是测评量表和人工打分结合的方法,一般是将关系程度划分为多个等级,以 5级、7级为主,之后选择特定受众打分。例如有学者从真实性、新鲜性、接近性、有益性和重要性5个方面,选择部分受众对各价值要素打分,结合发行量和传播广度计算传播值,对新闻价值进行量化13。这种方法操作简单,但受打分者主观意识影响较大且难以在较大规模数据集上实现。也有学者将新闻价值公式化,结合数学模型计算指标得石静,张斌,陈烨:面向股票的财经新闻关联度研究37科 技 情 报 研 究第5卷第3期分。例如根据指标体系建立等级函数、设计和计算评估因子实现指标量化。这种量化方法相对客观,但在量化过程中也或多

10、或少依赖人工判断,且无法针对不同受众实现“千人千面”的个性化度量。综上所述,从新闻价值评价角度来看,基于新闻受众评估新闻价值是主流观点;从评价要素来看,美国学者弗莱德 希伯特的“五要素说”是重要参考。由此,本文基于新闻价值理论,构建面向股票的财经新闻关联度测度体系,以期为财经新闻使用者定位高价值信息。2.2股票-财经新闻关联关系研究股票与财经新闻之间的关联关系,不等同于股票市场与财经新闻之间的关联关系,前者是客观存在的本质关系,而后者是在前者的基础上,通过信息传播影响参与者的认知和情绪,调节其行为而建立的。因此,财经新闻与股票的关联是更本质、更基础的客观联系,而财经新闻与股票市场的关联依托于财

11、经新闻与股票间的关联形成。本文关注股票与财经新闻的客观联系,但其大多蕴含于对财经新闻与股票市场关联的研究中。这些研究对股票与财经新闻关系的发现具有启发意义。基于信息影响用户行为的2种方式,相关研究可以分为:基于新闻内容、属性信息的研究和基于新闻中情感信息的研究14。新闻内容和属性信息可概括为数量、质量、内容3 大类,早期研究以新闻数量特征为主。近些年随着文本挖掘技术的发展,学者开始关注新闻内容特征,而对于质量指标的研究仍较少。新闻数量是反映媒体关注度的重要指标,且便于量化,常常作为一项重要指标纳入研究。但财经新闻数量与股票及股票市场之间并非简单的线性关系,会因所关注的变量差异呈现非线性15-1

12、7,1148、非同步性特征18。财经新闻在内容方面,使用较多的是文本主题、类型等特征,尤其是新闻主题及主题分布规律19常作为文本内容的代表,用于建立财经新闻与股票的关系。此外,不同类型的财经新闻与股票及股票市场之间的关系也具有异质性,相比单一类型财经新闻,多类型财经新闻与股价之间的关联性更强20。关于财经新闻质量的研究则涉及时效性21、可信度、相关性22等特征。基于情感信息的研究,是指通过挖掘新闻中蕴含的情感信息(包含情感极性与强度)及其大众引导性,即媒体引致的情绪23来分析新闻与股票之间的关联,包含情感极性与强度。首先,情感极性常被划分为积极、消极和中性,依赖情感词典对单个词的极性进行判断后

13、,计算得到整体的情感倾向。不同方向的情感信息会带来不同的影响,正面情绪往往带来价格收益类指标的增长24,波动类指标的下降;而负面情绪主导时,情况则相反。情感强度的测量多通过划分修饰词的情感级别实现25,不同的情感强度会相应增强或削减财经新闻对股票的影响程度。情感极性和强度也可以结合使用,常见做法是将强度作为极性的权重来量化关联程度。总之,当前研究的关注点主要在财经新闻与股票市场的关系,对财经新闻与股票之间客观关系的探讨一般蕴含在上述问题中,较少被单独研究,且大多研究中联系的建立仅依赖单维度信息,难以全面刻画关联关系。3研究设计3.1指标体系构建本节面向股票构建财经新闻关联度测度体系。此体系基于

14、新闻价值的哲学内涵,结合股票市场的研究情境与用户需求特点构建,并融入多维度的股票-财经新闻关联关系,兼具个性化与全面性。主要包括2个部分:指标体系构建和指标量化方法。测度体系的构建方法众多、标准不一,需要根据具体问题的需求开展。在本文研究情境下,从受众角382023年7月石静,张斌,陈烨:面向股票的财经新闻关联度研究度构建更为合适,即将股票及其代表的上市公司看作财经新闻的受众,以此为出发点测度财经新闻与股票的关联度,量化财经新闻对不同受众的价值。在新闻价值理论方面,采取国内外认可度较高的“五要素说”作为基本框架,包含接近性、显著性、重要性、时新性和趣味性。由于“趣味性”这一因素主观性色彩较浓重

15、,并且不是财经新闻的主要特征,经权衡决定舍弃这一要素。本文结合问题情境对接近性、重要性、显著性、时新性4种要素的内涵进行了重新定义,见表1。表1 与股票关联的财经新闻关联度测度指标指标名称接近性重要性显著性时新性指标内涵财经新闻与股票及其实体的行业/概念/地理/利益的接近性,即与股票的相关性财经新闻影响股票的多少、涉及利益大小、影响时间长短、影响空间广度构成财经新闻事实各种要素的知名度和显要度财经新闻报道相对于事件发生时间的及时性,与其他新闻相比的新颖性指标量化主要利用机器和统计学习技术实现,原因如下:一是,在本文研究情境下,股票与新闻之间的关联是客观关系,应尽量避免个体的主观判断;二是,机器

16、处理更适应当前的大数据环境。评价指标可以分为2部分:一是,仅涉及新闻自身的属性指标,包括重要性、显著性和时新性,通过离散化实现特征标签化;二是,同时涉及财经新闻和股票的个性化指标,即接近性,借助核心词集与关联关系矩阵量化。3.1.1接近性接近性,用以衡量不同股票与不同新闻之间的近似程度,通过构建股票-财经新闻关联关系矩阵量化。股票与财经新闻之间关联的中介是实体名称,即股票代码所代表的各个企业。股票代码与企业的关系简单直接、一一对应,但财经新闻与企业的关系错综复杂,涉及领域、行业、政策、关键人物等多个层面。本文选择最重要、最具代表性的实体、行业和概念 3 个维度,抽取财经新闻与股票的关联关系,如

17、图1 所示。实体是指每支股票所对应的上市公司,通过企业名称表示;行业是指上市公司所属的行业分类,通过行业分类词表示;概念是指股票所具有的某种特别内涵,常以话题词的形式体现。进一步,将“实体词+行业词+概念词”汇总,构成核心词集。其中,通过实体词建立的连接近似性较高,而通过行业、概念词建立的连接近似性较低,所有关联关系程度均标准化为01的概率值。图1 股票与财经新闻关联关系框架3.1.2重要性重要性,以给受众、社会产生的影响为度量尺度,主要包括:事实影响人数的多少、涉及人们利益的大小、影响时间的长短、影响空间的广度等。但这些很难从财经新闻文本中提取,有学者为我们提供了另一种衡量事件重要性的标准,

18、即考察能够产生重要新闻事实的基本范围(主要指新闻主题类型)。接近性指标中已涵盖主题内容,此处的重要性指标主要衡量主题重要性,借助新闻栏目分类实现。栏目分类标准不一,但大同小异。本文选取一种常见分类,共 4 大类,即市场类、泛产品类、新闻资讯类和其他,下分 27 小类。对于股票市场各主体来说,泛产品39科 技 情 报 研 究第5卷第3期类中的股票类信息与其直接利益相关,定为最高级别 1。结合专业人士建议,将其余栏目分类按照“财经新闻资讯类市场类泛产品类其他”进行重要性排序。据此,信息级别划分,见表2。表2 新闻栏目级别划分表注:InfoLevel:新闻栏目重要性级别,1代表最高级别,5代表最低级

19、别。InfoLevel12345Category5/股票1/要闻,2/宏观,3/国际,14/产经,15/公司,21/滚动新闻4/证券市场,19/港股,20/美股,22/新三板,26/科创板6/基金,7/债券,8/期货,9/私募,10/外汇,11/黄金,12/理财,13/衍生金融,16/银行,17/保险,18/信托,23/期权,24/中国存托凭证,25/股票期权27/其他3.1.3显著性显著性,衡量构成新闻事实各种要素的知名度和显著度,主要包括新闻主体、事件、时间、空间等方面的显著性。对于新闻来说,其发布机构的权威性是衡量该指标的重要方面,例如,在内容主体差不多的情况下,一篇由“新浪财经”发布的

20、财经新闻比“牛股王”发布的财经新闻具有更高显著性。由此,借助新闻发布媒体的权威性度量“显著性”。为衡量该指标,爬取网站(https:/ 个关键值。其中,T1 可直接从财经新闻数据中获取,T2 则需要从新闻文本中抽取时间关键词,结合规则进行推理。进一步,将“T1-T2”,即 2 者之间的时间差,划分为 5 个等级。综上,得到面向股票的财经新闻关联度测度体系,见表3。3.2数据收集与处理3.2.1数据收集3.2.1.1股票数据通过 Python 爬取聚宽数据平台(https:/ 年 12 月 31 日全部 A 股数据。去除信息缺失严重的股票,最终得到 1 173 支。字段包括:股票代码、股票名称、

21、行业分类信息、股票概念信息等,进行数据清洗和梳理后,以二维表形式存储。3.2.1.2财经新闻数据由于2005年的股权分置改革对股市造成了较大影响。截至 2007 年初,改革大致完成,因此选取 2007年后的数据。数据来自于上海聚源数据服务有限公司,随机抽取 2017 年 1 月 1 日至 2019 年 12 月 31 日由网络财经媒体发布的新闻 9 000 条。字段包括:新闻 ID、标题、摘要、正文、信息发布时间、媒体出处、媒体出处代码、撰写作者、撰写机构、撰写机构代码、栏目分类等。3.2.1.3其他数据爬取网站(https:/ 2 003 个核心词,见表4。表3 与股票关联的财经新闻关联度指

22、标量化方法注:S-N_Score:接近性分数;Mag_Score:重要性分数;Sig_Score;显著性分数;Tim_Score:时新性分数;MediaRank:媒体排名指标名称接近性重要性显著性时新性量化指标S-N_scoreMag_scoreSig_scoreTim_ score量化方法基于股票-财经新闻关联关系矩阵InfoLevel=1InfoLevel=2InfoLevel=3InfoLevel=4InfoLevel=50.8 1/MediaRank1 1.00.6 1/MediaRank1 0.80.4 1/MediaRank1 0.60.2 1/MediaRank1 0.40 1/

23、MediaRank1 0.20dT1-T21d1dT1-T22d2dT1-T23d3dT1-T24d4dT1-T2Mag_Score=5Mag_Score=4Mag_Score=3Mag_Score=2Mag_Score=1Sig_Score=5Sig_Score=4Sig_Score=3Sig_Score=2Sig_Score=1Tim_Score=5Tim_Score=4Tim_Score=3Tim_Score=2Tim_Score=1表4 核心词集特征分类Entity_infoIndustries_infoConcepts_info特征描述股票对应的上市公司全称股票对应的申万行业分类词股

24、票对应的聚宽平台股票概念词核心词数量共计1 173词共计365词,去重后299词共计576词,去重后531词数据收集与处理流程,如图2所示。3.2.3关联关系抽取3.2.3.1股票-核心词集关联矩阵构建将股票与核心词集的关联关系转化为 01 矩阵,即股票-核心词集关联矩阵。在该矩阵中,若股票与实体词集中的词一致,则值为1;否则,值为0,见式(1)。由于股票与核心词集中的实体词、行业分类词和股票概念词都是同一来源的规范词汇,因此,只需检索便可精确匹配,最终得到股票-核心词集矩阵(1 1732003维)。S-C_scorei,j=1,该股票的实体名称、所属行业、所属概念与核心词集相同0,否则,()

25、i)0,1173,j 0,2003)(1)石静,张斌,陈烨:面向股票的财经新闻关联度研究3.2.3.2财经新闻-核心词集关联矩阵构建财经新闻-核心词集关联矩阵更为复杂,新闻文本提到实体名称与仅涉及相关行业与概念应当具有不同的重要性。因此,此处将矩阵分为2部分:财经新闻-实体词矩阵与财经新闻-主题词(包含行业分类词与股票概念词)矩阵。财经新闻-实体词矩阵构建首先需通过自然语言处理中的 NER(命名实体41科 技 情 报 研 究第5卷第3期识别)从新闻文本中抽取实体。结合任务特征,当前效果较好的是BERT+RNN/DNN+CRF 模型框架26,由于 BERT 每一层对文本的理解都有所不同27,为比

26、对模 型 效 果,此 处 对 BERT 进 行 改 写,将 十 二 层transformer生成的表示赋予权重来训练模型(权重值由模型训练得到),共构建4种模型框架,如图3所示。采用 2019BDCI 互联网金融实体发现竞赛提供的标注数据作为训练数据,训练结果,见表 5。最终,选择综合性能较好的 Origin_BERT+BiLSTM+CRF 作为命名实体识别模型。财经新闻-主题词矩阵构建行业词与概念词均可以在文本主题词中得到反映,因此放在一起通过主题词抽取任务实现。当前最新的深度学习模型并未在中文文本主题词抽取任务中获得很好的效果,且抽取的准确性与任务情境紧密相关,很大程度上依赖于分词效果。因

27、此,本文选择主流的 LDA 模型为基础框架,选择北京大学推出的 PkuSeg 工具28进行分词。原因如下:相比其他工具,该分词包有领域细分,本文选择专门针对新闻领域的模型,具有较高的分词准确率。财经新闻-核心词集矩阵构建由于中文表达存在同词异义、异词同义、简称全称等复杂特征,因此在与标准核心词集进行匹配时,易产生错漏,尤其是在没有标准表达形式的主题词中,会极大地影响模型准确性。针对这个问题,本文基于词汇相似度计算加以改进,最终矩阵中储存的新闻与核心词集词语的关联程度是01的概率值。3.2.3.3股票-财经新闻关联矩阵构建股票-核心词集矩阵(下称 S 矩阵)是 1 1732 003 维,财经新闻

28、-核心词集矩阵(下称 N 矩阵)是9 0002 003维。2 003个特征中,前 1 173是实体类特征,后 830 是主题词类特征。对 N 矩阵转置得到 NT,图2 数据收集与处理过程注:N_matrixi,e:新闻i与核心实体词e的关联关系值;N_matrixi,k:新闻i与核心主题词k的关联关系值;S-Enntityscore:新闻-核心实体词关联矩阵;S-Keywordscore新闻-核心主题词关联矩阵422023年7月股票-财经新闻关联关系矩阵(下称 S-N 矩阵)由两矩阵点乘得到:S-N=SNT,标准化后最终生成S-N矩阵(1 1739 000 维),用以保存股票与财经新闻之间的关

29、联程度。另外,由于 4 个指标的量化逻辑并非完全相同,在汇总计算之前,首先需要对各个指标进行标准化。此处通过标准化将 4 个维度的指标规范为0,1之间的概率值,标准化之后将 4 个维度的指标值,按照一定权重加和得到最终的Score。具体见式(2)(6)。S-N_Score=图3 4种NER模型框架表5 模型训练结果模型Origin_BERT+BiLSTM+CRFDynamic_BERT+BiLSTM+CRFOrigin_BERT+ID-CNN+CRFDynamic_BERT+ID-CNN+CRFPrecision(%)59.8956.3259.4957.12Recall(%)70.2664.2

30、469.5970.99F1(%)64.6660.0264.1463.30石静,张斌,陈烨:面向股票的财经新闻关联度研究43科 技 情 报 研 究第5卷第3期S-N_Score-min(S-N_Score)max(S-Nscore)-min(S-N_Score)(2)Mag_Scorei,j=Mag_Scorei,j min(Mag_Scorej)max()Mag_Scorej min(Mag_Scorej)(3)Sig_Scorei,j=Sig_Scorei,j min(Sig_Scorej)max()Sig_Scorej min(Sig_Scorej)(4)Tim_Scorei,j=Tim_

31、Scorei,j min(Tim_Scorej)max()Tim_Scorej min(Tim_Scorej)(5)Scorei,j=S N_Scorei,j+1/3(MagScore i,j+SigScorei,j+Tim_Scorei,j)(6)公式(2)(6)中,max 表示对应变量的最大值,min 表 示 对 应 变 量 的 最 小 值,S N_Scorei,j、Mag_Scorei,j、Sig_Scorei,j、Tim_Scorei,j分别是新闻 i 在各个指标 j 的得分,Scorei,j为归一化之后的最终得分。4结果与分析4.1量化结果展示与分析整体的新闻关联度结果分布情况,如图

32、 4 所示,横轴为标准化之后的分数,纵轴为该分数对应的财经新闻数量。图4 财经新闻关联度得分分布图 4 显示,数据整体呈现左偏分布,大部分新闻与股票关联度较低,极少新闻关联度较高,也就是说对某只股票而言,真正具有强关联的财经新闻数量是十分有限的,而具有弱关联的财经新闻相对较多。一般而言,财经新闻与某股票之间的弱关联,并非直接提及该股票及企业名称,而是该财经新闻所述事件涉及该股票所处的行业、概念等较广泛的关键词。而财经新闻与某股票之间的强关联,则通过该财经新闻直接提及股票或企业名称,或者同时提及企业名称、相关行业、相关概念实现。虽然大部分财经新闻并未提及股票名称、股票概念和相关行业,但这并不代表

33、这部分财经新闻毫无价值,若是权威媒体发布最新的与股票市场相关的财经新闻,仍值得引起相应群体的关注。进一步,按照得分将新闻划分为 5 个等级,并统计了各个等级财经新闻的数量占比,见表6。整体来看,随着关联等级提高,新闻数量越来越少。真正通过直接提及股票、企业名称和股票形成关联的新闻占比不足 15%。而排序 IIIV 的新闻占比近 75%,这些新闻仅仅是通过概念词、行业分类词与特定股票关联,甚至只是对宏观经济环境的报道。为进一步展示结果,选取保利地产(股票代码:600048.442023年7月XSHG)作为示例,从 5 个等级中各抽取一条新闻,见表7。从表 7 中可知,等级 I 的新闻(60815

34、9125669)是专门针对“保利地产”的,对公司的具体业务动向进行了报道,发布媒体较为权威,栏目分类是“股票”,时新性较强(内容是一季度概况,发布日期在2019年4 月 9 日)。而等级 II 的新闻(582028355566),也直接提及了保利地产,但栏目分类是证券市场,内容重点也在于地产股的整体情况概述。等级 III 的新闻(581016044466),则并未直接提及保利地产,而是提及其行业内相关企业信达地产。因此,即使来源权威、栏目相关、时新性强,也并未得到很高的分数。等级IV的新闻(550754362431)仅仅提及了地产行业相关的“建材”,等级 V 的新闻(590756667088)

35、则基本不相关,得分很低。4.2各维度指标的影响分析针对上述 50 支股票,统计各维度指标对最终价值得分的贡献占比情况,如图 5 所示。高关联财经新闻主要从内容维度与股票形成关联;随着财经新闻关联等级降低,S-N_Score 占比下降。也就是说,如果关联等级IIIIIIIVV新闻占比(%)310182841量化得分(0.8,1.0(0.6,0.8(0.4,0.6(0.2,0.40,0.2解释说明直接提及企业名称;时间最新;主题最重要;发布媒体最权威直接提及企业名称,但涉及相关企业、行业、股票概念等;时间较新,主题较重要,发布媒体较权威或未直接提及企业名称,但涉及相关企业、行业、股票概念等;时间最

36、新,主题最重要,发布媒体最权威未直接提及企业名称,但涉及相关企业、行业、股票概念等;时间较新,主题较重要,发布媒体较权威未直接提及企业名称,未涉及相关企业、行业、股票概念等;时间较新,主题较重要,发布媒体较权威未直接提及企业名称,且未涉及相关企业、行业、股票概念等;时间不新,主题不重要,发布媒体不权威表6 新闻得分与关联等级对应表排序IIIIIIIVV得分1.00.780.590.310.16新闻ID608159125669582028355566581016044466550754362431590756667088标题保 利 地 产:一季度签约金额1 097 亿元,同比增26%地产股集体走

37、强保利地产涨超4%信 达 地 产:重大资产重组获证监会通过明日复牌安徽明确新一轮技术改造路线图 聚焦“7+5”体系半导体级多晶硅 片“一 片 难求”局 面 或 于2020年逆转内容保利地产(600048)4 月 9 日晚间公告,2019 年 3 月,公司实现签约面积283.07万平方米2019年13月,公司实现签约面积700.04万平方米6月11日讯 地产股早盘走势强劲,截至发稿,保利地产涨超 4%,华夏幸福、万科 A涨超 3%,招商蛇口、新城控股等涨超2%5 月 30 日讯 信达地产(600657)5 月 30日晚间公告,公司发行股份购买资产获得证监会无条件通过,公司股票 5月 31日复牌据

38、新华社6月14日消息,安徽新一轮技改将聚焦“7+5”产业体系,冶金、化工、建材、纺织、食品等五大传统产业531 新政过后,普通太阳能级硅片陷入滞销全球排名前五家企业市占率达到 97.8%,高纯度硅材料几乎全依赖进口来源证券时报网证券时报网证券时报网中国证券网界面栏目5/股票4/证券市场5/股票2/宏观14/产经发布日期2019年4月9日2018年6月11日2018年5月30日2017年6月14日2018年9月20日表7 与保利地产有关的各等级新闻示例石静,张斌,陈烨:面向股票的财经新闻关联度研究45科 技 情 报 研 究第5卷第3期图5 各维度指标占比分布图在 III 级的财经新闻中,接近性指

39、标分数贡献将近一半,其余3个指标差异不大,这基本与公式(6)所构建的比例关系一致。说明在直接提及股票相关的财经新闻集中,其发布媒体、栏目分类和时新性均较为一致,很可能是受某些头部媒体的固定宣发模式影响。在 IIIV 级的新闻中,指标贡献比例差异较大:接近性指标占比骤减,不足 10%;重要性指标贡献比例与财经新闻价值呈负相关,而时新性指标贡献比例与新闻价值呈正相关,显著性则没有明显关系,即对于价值较高的财经新闻,时新性的作用更大;而对于价值较低的财经新闻,重要性指标的作用更大。也就是说,如果一条财经新闻并没有在内容层面与某支股票发生关联,那么提升财经新闻时新性比改善栏目分类更有可能有效提升财经新

40、闻价值。从常识来看,这些指标的关联方向是合理的,也进一步验证了本文财经新闻关联度测度方法的合理性与有效性。5结语本研究将新闻价值理论引入到股票-财经新闻关联度测度中,从新闻受众角度构建与股票关联的财经新闻关联度评价指标体系,并利用文本挖掘方法,从实体、行业、概念等多个维度建立股票-财经新闻关联,实现财经新闻关联度个性化、自动化度量,不仅更加准确、客观,也便于在大型数据集上应用。此外,通过对各个指标分析,发现对于与某支股票强相关的财经新闻来说,外部属性作用有限。但随着关联程度减弱,外部属性的重要性逐渐增强,甚至可以成为影响新闻关联度的主要因素。研究结合信息学、新闻学与金融学,提出新的新闻关联度测

41、度思路,不仅对新闻本身的属性特征进行度量,还考虑了股票-财经新闻关联关系大小,既实现了关联度个性化度量,又保证了新闻价值评价的全面性。在实践上,不仅有助于财经新闻中的情报价值挖掘,提升信息组织与利用的效率,也能为股票市场上的其他应用服务提供基础能力,如市场波动预测、话题识别与追踪等。本研究的局限性主要体现在 2 方面。其一,在挖掘股票-财经新闻关联关系时,主要用到实体类、主题类等内容维度的信息,但这种关联关系除了通过财经新闻中直接提及股票信息,即使其发布媒体、栏目等指标表现不是很好,被判定为高关联新闻的可能性也会较高。事实上,在当前信息发布与传播渠道更平民化、信息接触层次更扁平化的多媒体时代,

42、传统新闻中发布媒体和栏目分类的作用已经被弱化。462023年7月这些信息建立,还可以通过诸如公司高管、投融资行为等形成,这部分因素虽然影响有限,但倘若可以全部纳入辅助量化,会有更好的效果。其二,在操作方法上,主要选择矩阵作为存储形式和表现形式,难以刻画复杂的交叉关联关系,若以图形式存储与展示数据,或可展示股票及其背后的上市公司彼此之间复杂的人物联系和投融资联系。在未来研究中,可从以上2方面加以改进,提高量化结果的准确性。参考文献:1 罗琦,游学敏,吕纤.基于网络数据挖掘的资产定价研究述评J.管理学报,2020,17(01):148-158.2 汪昌云,武佳薇,孙艳梅,等.公司的媒体信息管理行为

43、与IPO定价效率J.管理世界,2015(01):118-128.3 喻发胜,张唐彪,鲁文禅.普遍联系:马克思主义新闻学的重要哲学基石及其实践价值J.新闻与传播研究,2019,26(04):5-24,126.4 左宇坤.新媒体语境下新闻价值的发展与坚守J.新媒体研究,2019,5(01):97-98.5 张斌,张昆.中西新闻价值观“异”“同”的文化学阐释J.新闻前哨,2011(01):43-45.6 李良荣.新闻学概论M.上海:复旦大学出版社,2009.7 甘惜分.新闻学大辞典M.郑州:河南人民出版社,1993.8 斯蒂芬 李特约翰.人类传播理论M.北京:清华大学出版社,2004.9 吴晨光.吴

44、晨光源流说:内容生产与分发的44条法则M.北京:中国人民大学出版社,2020.10 GA LTUNG J,RUGEM.The structure of foreign newJ.Journal of Peace Research,1965(02):64-91.11 HARCUP T,ONEI D.What is news?News values revisited(again)J.Journalism studies,2017,18(12):1470-1488.12 HIBERT RE,UNGURAIT D F,BOHN T W.Mass media:an introduction to mo

45、dern communicationM.NewYork,1974:38-48.13 钱燕妮.新闻价值及其量化分析J.新闻世界,2000(06):7-8.14 熊艳,李常青,魏志华.媒体报道与IPO定价效率:基于信息不对称与行为金融视角J.世界经济,2014,37(05):135-160.15 FANG L,PERESS J.Media coverage and the crosssection of stock returnsJ.The journal of finance,2009,64(05):2023-2052.16 LI Q,WANG T J,LI P,et al.The effect

46、 of news and public mood on stock movementsJ.InformationSciences,2014(278):826-840.17 牛枫,叶勇,陈效东.媒体报道与IPO公司股票发行定价研究:来自深圳中小板上市公司的经验证据J.管理评论,2017,29(11):50-61.18 杨洁,詹文杰,刘睿智.媒体报道、机构持股与股价波动非同步性J.管理评论,2016,28(12):30-40.19 AMMANN M,FREY R,VERHOFEN M.Do newspaper articles predict aggregate stock returns?J.J

47、ournalof behavioral finance,2014,15(03):195-213.石静,张斌,陈烨:面向股票的财经新闻关联度研究47科 技 情 报 研 究第5卷第3期20 SHYNKEVICH Y,MCGINNITY T M,COLEMAN S,et al.Stock price prediction based on stock-specificandsub-industry-specificnewsarticlesC/2015internationaljointconferenceonneuralnetworks(ijcnn).IEEE,2015.21 TETLOCK P C

48、.All the news thats fit to reprint:Do investors react to stale information?J.The Reviewof Financial Studies,2011,24(05):1481-1512.22 ENGELBERG J E,PARSONS C A.The causal impact of media in financial marketsJ.the Journal ofFinance,2011,66(01):67-97.23 CHEN C W,PANTZALIS C,PARK J C.Press coverage and

49、stock price deviation from fundamental valueJ.Journal of Financial Research,2013,36(02):175-214.24 汤淳,王过京.绿色指数发布的股价效应研究:基于投资者情绪的视角J.商业经济与管理,2020(01):79-91.25 王美今,孙建军.中国股市收益、收益波动与投资者情绪J.经济研究,2004(10):75-83.26 DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of deep bidirectional transformers forlangu

50、age understandingJ.arXiv preprint arXiv:1810.04805,2018.27 JAWAHAR G,SAGOET B,SEDDAH D.What does BERT learn about the structure of language?C/ACL 2019-57th Annual Meeting of the Association for Computational Linguistics.2019.28 LLUO R,XU J,ZHANG Y,et al.Pkuseg:A toolkit for multi-domain chinese word

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服