基于深度学习的社交媒体虚假健康信息识别机制研究.pdf

资源描述

1、2023年8月图书情报导刊第8卷第8期Aug.2023JOURNAL OF LIBRARY AND INFORMATION SCIENCEVol.8 No.8社交媒体虚假健康信息是近年来在移动互联网领域展现出的新的舆情样态，主要以医疗卫生机构、医学研究人员伪造、夸大、杜撰最新医学研究成果的形式出现1，也包括对最新医学研究成果作用的夸大等，误导社交媒体用户在食品安全、疾病治疗、健康养生方面产生错误决策，给生命健康带来威胁2。当前针对社交媒体虚假健康信息识别方法主要是特征提取，如语义特征、维度特征，应用向量机、随机森林等机器学习方法实现真假信息的分类，而这种基于特征提取的方法虽然可以借助专家经验知

2、识，但需要人工实现特征提取，无法满足社交媒体海量健康信息的真假识别需求3。同时，虽然应用自然语言处理工具在低维向量空间构建的分布式大规模数据集合能借助语义关联实现对虚假健康信息的分析预警，但对于应用深度伪造（DeepFake）的虚假健康信息的识别准确率较低，并且只能以数据库收录的文本特征作为判断依据，对于未收录的文本特征仍需要人工识别4。为了解决上述问题，本研究提出了基于深度学习的社交媒体虚假健康信息识别机制，在针对社交媒体虚假健康信息特征提取后实现对社交媒体多元异构健康信息的筛选、挖掘和分析，并具有社交媒体海量健康信息挖掘、分析的能力，适用于复杂的社交媒体环境。1相关研究概述1.1深度学习概

3、述深度学习（Deep Learning，DL）是人工智能领域研究的一个重要方向，它使机器学习（Machine Learning）更接近于学习目标5。同时，深度学习指促进机器学习已获得样本数据的变化规律、分布态势和表示方式，在学习过程中对文字、图形、图像和声音能形成较好的理解能力，最终形成完善的学习分析能力。1.2社交媒体虚假健康信息进入人工智能时代，随着个性化推荐算法、用户画像、大数据分析工具的应用，微信、微博、博客、抖音和头条等社交媒体工具逐渐成为健康虚假信息传播的主*基金项目：2023年辽宁省高等学校图书情报工作委员会基金项目“知识赋能与交互的图书馆空间建构研究”（项目编号：LTZ2023

4、02）。文章编号：2096-1162（2023）08-0028-09收稿日期：2023-06-26基于深度学习的社交媒体虚假健康信息识别机制研究*潘冬梅（营口职业技术学院，辽宁营口，115000）摘要：在概述深度学习、社交媒体虚假健康信息、社交媒体虚假健康信息特征和特征识别相关研究的基础上，以微信辟谣助手为研究平台，应用内容分析法，通过资料编码提取了社交媒体虚假健康信息特征，构建了社交媒体虚假健康信息特征识别清单，并应用爬虫工具、自然语言文本处理技术和深度学习神经网络，从社交媒体虚假健康信息采集、信息处理和信息分析3个维度构建了社交媒体虚假健康信息识别机制，旨在实现社交媒体虚假健康信息的智能识

5、别、智能筛选与智慧分析，为社交媒体用户获取真实可靠的健康信息提供保障。关键词：深度学习；社交媒体；虚假健康信息；识别机制中图分类号：G202文献标识码：A28阵地。由于社交媒体的高度开放性、高度传播性及信息共享的即时性，用户可以随意使用社交媒体发布、加工、传播和评价健康信息，不能从本质上确认所发布健康信息的真实性6。Brady J T等在社交媒体用户健康信息发布动机与意愿研究中提出，社交媒体用户在微信、微博和抖音等社交媒体平台发布健康信息和共享健康经验有着更强烈的动机和意愿，比在其他平台分享信息的意愿更强烈，而社交媒体用户发布的这些尚未经过科学证实的健康信息往往是不科学、不准确的7。Fichm

6、an R G等研究发现，与官方机构的健康门户网站相比，用户在社交媒体发布的健康信息更简洁，缺乏微小但重要的信息支撑，实用性往往较低8。针对当前社交媒体健康信息的传播发展趋势，Tsai H等聚焦于社交媒体虚假健康信息的识别、筛选，认为社交媒体健康信息是指与人们身体健康具有密切关联的经验、技术、观念、行为和能力的信息集合9。根据美国学者Bode L等的研究论点10，社交媒体虚假信息可以定义为基于社交媒体传播缺乏科学佐证和专家验证的不真实的健康信息。基于这一概念可以对社交媒体中有关身体健康谣言、失真健康信息及伪健康信息进行描述。1.3社交媒体虚假健康信息特征研究伴随越来越多的虚假健康信息在社交媒体上

7、发布、传播，当前图情界学者对社交媒体虚假信息特征的研究工作正逐步深入开展。Zhou J等在针对Facebook的虚假健康信息调查研究中发现，Facebook上的虚假健康信息具有7个特征：主题吸引性、情感引导性、作者权威性、内容性、主题标签、论据和说明案例11；Li Y应用CARS列表对社交媒体中的虚假健康信息特征进行了提炼，总结为4个方面：可信度不足、准确性不足、可靠性不足和说明力不足12。Rubin V L将社交媒体上的虚假健康消息总结为3方面特征：不真实、隐瞒（忽略科学事实）和内容清晰度不足13。Zhou L通过研究将社交媒体虚假健康信息特征表述为9种：数量性、复杂性、不准确性、间接性、多

8、样性、表达性、异质性、影响性和不可接触性14。Lavorgna L等对社交媒体平台上粉丝社群中的健康虚假信息特征进行了分析，研究结果表明，社交媒体粉丝社群中的虚假健康信息大多是未经过科学论证的虚假信息或具有夸大成分的不真实的健康信息15。目前关于社交媒体虚假健康信息特征的研究主要集中在欧美国家，国内学者研究较少，且关于社交媒体虚假健康信息特征的研究较多来自已有研究成果的总结分析，较少来自实证数据。1.4社交媒体虚假健康信息识别研究当前，人工智能领域已经开发了一些应用于社交媒体虚假信息识别和筛选的算法工具，如：美国普林斯顿智能研究院开发的CRASH就是一款帮助肢体残疾人从Twitter识别虚假治

9、疗信息的一款工具，该智能工具包括14个判定识别指标，涉及肢体治疗信息的科学性、可靠性、客观性和有效性等16；Finding Soul是由英国利物浦大学生命科学院开发的用于帮助听障人群识别社交媒体虚假健康信息的一款工具，该工具包括健康信息来源、信息发布日期、信息参考依据、信息发布者身份和信息内容明确性等5类判定指标17；LIDA是由英国牛津大学医学院设计的用于识别医疗服务App虚假健康信息的一款工具，该识别工具由3部分组成，包括健康信息的可识别性、准确性和实践性18；GPMAQ是由瑞典皇家医学院开发的一款专用于国际流行的多种社交媒体医疗健康信息识别的访问标准，该标准包括健康信息创作者、健康信息发

10、布机构、传播路径、内容合理性和更新等，具体包括创作者称谓、发布机构信息、权威性、认可程度、内容评价指标、日期和主题等19。虽然国外医学科研机构开发出一些应用于社交媒体虚假健康信息的识别工具，但这些识别类算法工具的信息识别准确度较低、智能化程度不高，能否适用于社交媒体海量健康信息的精准识别还有待验证，但是一些人工智能专家指出应用机器学习方法实现对社交媒体虚假健康信息的精准识别具有借鉴性。如Li J应用深度学习算法通过对健康信息的实体提取、关联关系挖掘和词性分析对虚假类信息和真实信息进行筛选，应用朴素贝叶斯（NBM）和支持向量随机模型（SVM）实现对虚假健康信息的精准识别20；Jindal N等对

11、社交媒体健康信息文本挖掘应用逻辑回归模型进行了分析，实现了对虚假健康信息65%78%的识别准确率21；Mukherjee A将向量机分类器融入数据集，通过分析社交媒体虚假健康信息的文本特征达到了72.8%第8卷第8期潘冬梅基于深度学习的社交媒体虚假健康信息识别机制研究2929的识别准确率22。从上述研究不难看出，基于逻辑回归、深度学习和决策树的社交媒体虚假健康信息识别方法具有较高的识别率，针对社交媒体中的虚假健康信息能有效识别、筛选。2社交媒体虚假健康信息特征提取基于表示学习的社交媒体虚假健康信息的识别最关键的一步是对社交媒体虚假健康信息特征的提取，只有将社交媒体虚假健康信息特征清晰表示出来才

12、能使智能系统得以识别、理解和记忆，进而通过特征属性实现对社交媒体中海量虚假健康信息的精准识别。2.1研究方法和工具在社交媒体虚假健康信息特征提取上主要应用内容分析法和NVivo Plus软件实现。内容分析法是实现对原始样本资料归纳和演绎的研究方法，通过对样本资料颗粒度分析，准确反映样本数据揭示的核心主题。NVivo Plus是当前人工智能领域使用较为广泛的编码分析工具，能够实现对社交媒体数据的精准采集和分析，有助于精炼社交媒体虚假健康信息特征。2.2样本数据获取微信作为当前国内使用最广泛的社交媒体工具，每时每刻都向用户提供着大量健康信息，是具有较大影响力的健康信息传播社交媒体。因此，以微信作为

13、研究平台具有代表性。微信辟谣助手自上线以来已有数百家权威机构入驻，主要作用是辟谣未经证实和缺乏科学依据的虚假信息。因此，可以使用微信辟谣助手收集虚假健康信息。鉴于此，本研究基于NCapture从微信辟谣助手采集了2022年1月2022年7月的被证实为不真实、虚假的健康信息，共251条。同时，采集了对这些虚假健康信息能进行有力反驳的真实健康信息251条，并剔除了不能证实真伪的健康信息。最后，通过对其搜集来的502条真假健康信息进行文本遍历，并将文本保存为PDF，为每条真假健康信息建立资料索引，样本采集工作历时3个月完成。根据世界卫生组织（World Health Organization，WHO

14、）对健康主题的分类23，由两名研究人员负责完成对每条真假健康信息的主题分类。最终样本数据被归纳为3类主题：一是食品安全类主题信息（占31.3%），包括与日常食品安全有关的信息以及科学膳食、绿色食品等；二是疾病治疗类主题信息（占27.7%），包括新冠疫苗接种、心脏病治疗、心脑血管病治疗等；三是保健养生主题类信息（占41.0%），包括身体理疗、养生、减肥等。因为真实健康信息与虚假健康信息是一一对应的，所以它们具有相同的主题，每类信息中真假健康信息各占50%。2.3资料编码为了实现对社交媒体虚假健康信息特征的精准识别，参考了美国图书馆学会（American Library Association，A

15、LA）2020年为应对新冠疫情虚假信息筛选的虚假健康信息识别方法信息图表24，建立了社交媒体虚假健康信息特征编码分析框架，提取了社交媒体虚假健康信息特征。ALA设计的虚假健康信息识别标准从信息来源、内容全面性、发布者信息、支撑依据、专家判定、对信息的偏见性、夸大程度等7个维度判定健康信息的真实性。其中“对信息的偏见性”和“专家判定”并不是社交媒体健康信息自身具有的特征，因此，在编码过程中予以剔除。最终可以归纳出社交媒体虚假健康信息的5个核心特征（信息源可靠性、信息内容完整程度、元数据缺失、例证支持程度和夸大程度），如表1所示。其中，元数据缺失主要揭示的是发布者信息、发布日期。因为研究对象选

16、择的是微信辟谣助手，是中文类社交媒体，与传统媒体的健康信息存在一定差异，因此，本研究以编码过程编制的如表1所示的分析框架为主，但不局限于该编码分析框架。表1社交媒体虚假健康信息特征编码分析框架核心特征信息源可靠性信息内容完整程度元数据缺失例证支持程度夸大程度含义信息来源不准确、不可靠信息内容不全面、有偏差、有歧义与信息有关的各种描述性数据缺失信息缺乏科学实验或实例的支持信息故意夸大效果、扭曲事实参考来源信息来源内容全面性发布者信息支撑依据夸大程度为保障编码结果的合理性，本研究引入了Corbin JM等人的程序化编码方法25，分步骤进行开放式编码、主轴编码和选择式编码，进而实现对社交媒体虚假健康

17、信息特征的提取。在提取虚假健康信息特征的同时，也需要对与之对应的真实健康信息进行编码分析，以此来确定虚假健康信息的核心特征。本研究对真实健康信息进行了相同的编码分析，并对真实健康信息2023年8月图书情报导刊3030的特征编码单独记录。在研究过程中，由两名编码人员进行资料编码，为保障编码结果的科学性，随机选择50%的样本数据由两名研究人员同时进行编码，并进行了一致性计算，一致性Cohan is kappa系数为0.79，说明两名编码人员的编码结果一致性较高。剩余50%的样本数据分为两个小组持续进行编码，对编码过程存在歧义的虚假特征进行小组讨论，最终选择与研究目标高度关联的虚假特征。编码过程包括

18、以下3个阶段：一是开放式编码阶段。该阶段需要参考 NVivoPlus经常使用的字句逐行检阅的方式检查每条健康信息，在对原始资料进行反复分析和总结归纳后，对字词加以规范化处理，提炼出27个初始范畴及4 478个参考点，包括信息来源不清、信息来源不可靠、版式混乱、表述错误、发布者信息缺乏、内容不全、概括不到位、杜撰案例、编纂数据、缺乏权威解释等。二是主轴编码阶段。根据主范畴、子范畴的逻辑关系，将归纳出的27个初始范畴映射到特征中，归纳出11个主范畴。这些主范畴既包括信息源可靠性、信息内容完整程度、元数据缺失、例证支持程度和夸大程度等编码分析框架中的特征，也包括语气激烈、格式混乱、术语表示不清晰、宣

19、传诱导、蓄意编造和假冒权威等编码分析框架之外的新特征。三是选择式编码阶段。通过语义构建的方式对主范畴进行语义融合，对11个主范畴归类为语义特征、表述特征和来源特征3个核心范畴。语义特征是指信息内容的科学性，包括信息内容完整程度、夸大程度、语气激烈程度、术语表示不清晰、宣传诱导和蓄意编造；表述特征是指信息表述的正确性，包括格式混乱、元数据缺失；来源特征是指信息来源的可靠性，包括信息来源不明确、假冒权威、例证支持不足。社交媒体虚假健康信息特征描述及占比如表2所示。2.4理论饱和度检验在经过编码分析后，基本界定了社交媒体虚假健康信息的特征，为验证本研究选择的社交媒体虚假健康信息特征已达到理论饱和，按

20、照与上文所述相同的编码分析过程与规则连续5次随机选择25条社交媒体虚假健康信息进行编码分析，编码结果未呈现出新的范畴和关系，由此可以证明本研究设计的社交媒体虚假健康信息特征抽取全部涉及，具有较好的理论饱和度。2.5基于深度学习的社交媒体虚假健康信息特征识别清单构建通过上述资料编码，本研究从社交媒体筛选的虚假健康信息有3个维度特征、11个主要特征、29个子特征。为了准确识别社交媒体虚假健康信息，本研究结合上述试验结果，构建了社交媒体虚假健康信息特征清单，如表3所示。该清单主要由社交媒体虚假健康信息维度特征、主要特征、子特征及智能系统深度学习的要点组成，以便于智能系统通过深度学习，快速识别社交媒体

21、虚假健康信息的特征，为后续基于深度学习的虚假健康主题信息分类保健养生类主题信息（41.0%）食品安全类主题信息（31.3%）疾病治疗类主题信息（27.7%）Code版式混乱表述错误图片错误发布者信息缺失发布日期缺失缺少验证信息内容不全缺少支撑性数据标题与内容不对应概括不到位夸大危害扩大作用与事实不符语气无限制言语表述过激专业术语表示缺乏概念表述混乱宣称最新内容宣称秘密信息无节制宣传编纂数据杜撰案例借用权威名称借用专家名义用组织命名缺少科学支持缺乏权威解释来源不清来源不可靠Code格式混乱元数据缺失信息内容不完整故意夸大语气激烈术语表示不清晰宣传诱导蓄意编造假冒权威缺少实证支持信息来源不可靠Co

22、de特征占比/%表述特征（19.2%）语义特征（49.6%）来源特征（31.2%）表2社交媒体虚假健康信息特征描述及占比第8卷第8期潘冬梅基于深度学习的社交媒体虚假健康信息识别机制研究3131表3基于深度学习的社交媒体虚假健康信息特征识别清单维度特征表述特征语义特征来源特征主要特征元数据缺失格式混乱信息内容不完整故意夸大术语表示不清晰语气激烈宣传诱导蓄意编造信息来源不可靠假冒权威缺少实证支持子特征发布者信息缺失发布日期缺失缺少验证信息版式混乱表述错误图片错误内容不全缺少支撑性数据标题与内容不对应概括不到位夸大危害扩大作用与事实不符专业术语表示缺乏概念表述混乱语气无限制言语表述过激宣称最新内容宣

23、称秘密信息无节制宣传编纂数据杜撰案例来源不清来源不可靠借用权威名称借用专家名义用组织命名缺少科学支持缺乏权威解释深度学习要点识别发布者信息、识别发布时间、识别审核者信息、学习虚假健康信息元数据结构学习图片特征、识别图片信息、识别排版特征、分析排版结构、学习表述语句的结构识别标题特征、识别内容要义、学习信息的内容结构、识别标题与内容的语义关联识别夸大描述的词汇、学习夸大词汇的特征识别专业术语特征、学习专业术语表述逻辑、识别专业术语概念识别信息的语言风格和语气强弱，学习信息的语言表达逻辑识别诱导性字词、学习诱导性词汇表述方式识别数据真伪和案例真伪、学习数据和案例的表述方式识别信息的来源、学习信息的

24、传播逻辑、追溯源头识别是否有权威媒体跟进报道、识别信息的真实性、学习信息的潜在逻辑识别信息的实证特征、识别信息的证明内容、学习信息的实证逻辑社交媒体虚假健康信息识别机制的建构奠定基础。3基于深度学习的社交媒体虚假健康信息识别机制构建在明确了社交媒体虚假健康信息的特征后，本研究应用网络爬虫工具、自然语言文本处理技术和深度学习神经网络，从社交媒体虚假健康信息采集、社交媒体虚假健康信息处理、社交媒体虚假健康信息分析等维度构建了基于深度学习的社交媒体虚假健康信息识别机制，旨在实现对社交媒体虚假健康信息的精准识别。社交媒体虚假健康信息识别机制框架如图1所示。3.1社交媒体虚假健康信息采集实现社交媒体虚假

25、健康信息精准识别方法的第一步是对包括WeChat、QQ、Email、抖音、快手和Facebook等不同类型社交媒体上传播的虚假健康信息进行科学高效采集，可以考虑应用大数据技术中的系统日志与网络数据采集方法，应用爬虫工具对社交媒体平台上各类虚假健康信息进行采集。应用爬虫工具通过采集社交媒体用户界面的源文件，抽取出社交媒体中虚假健康信息的URL，实现对社交媒体中的系统日志数据和网络数据的采集，从虚假健康信息具有的3个维度特征（表述特征、语义特征和来源特征）建立反映其特征的分类数据集，对每类数据集具有的属性、关系进行采集，反映出每类数据集的属性特征，为后续社交媒体虚假健康信息的预处理奠定基础。3.2

26、社交媒体虚假健康信息处理实现对社交媒体虚假健康信息的关键词提取是提2023年8月图书情报导刊3232升识别率的重要方式。从虚假健康信息的11个主要特征（元数据缺失、格式混乱、信息内容不完整、故意夸大、术语表示不清晰、语气激烈、宣传诱导、蓄意编造、信息来源不可靠、假冒权威和缺少实证支持）出发，本文对涉及主要特征的关键词进行了提取。在关键词提取方面，可以考虑应用自然语言文本处理方法进行分词处理。在处理过程中，可以考虑应用深度学习模型中的字符标记法和整词标记法对虚假健康信息中的文本语言进行标注，借助分词模型进行词语间隔，然后将分隔的词语进行实体命名和词性标注，最后结合虚假健康信息的11个主要特征进行

27、文本分析。3.3社交媒体虚假健康信息分析当前针对社交媒体虚假健康信息分析应用的是文本聚类、低维向量度量表示等无监督学习方法，或诸如条件随机场、向量机嵌入的机器学习方法，但这些算法工具的数据分析效率低，针对采集上来的海量社交媒体健康信息无法做到大规模精准识别，针对深度伪造（Deep Fake）的虚假健康信息识别的准确率低26。因此，应用深度学习神经网络的虚假健康信息识别方法具有较高的识别准确率和较强的数据分析能力，能适应大规模社交媒体虚假健康信息的精准识别。由于社交媒体虚假健康信息类型多样、来源多样，可以将不同来源的虚假健康信息定义为不同的网络节点，例如针对WeChat、QQ、头条等社交媒体用户

28、可以设定为复杂网络中的节点，对输入进行处理后，可以表示为社交媒体虚假健康信息传播模型中的语义向量，通过构建输入矩阵X=Xnt，n表示节点数量，t表示采集时间，用于进行深度学习训练，多层耦合网络框架如图2所示。图1基于深度学习的社交媒体虚假健康信息识别机制框架图e=vi,vje=vi,vjGviD(e)G图2多层耦合网络框架第8卷第8期潘冬梅基于深度学习的社交媒体虚假健康信息识别机制研究3333多层耦合网络框架的第1层是虚假健康信息中标准的词向量表示层，输入句子矩阵的列和行，分别是词向量的维度和序列长度；第2层是用于进行卷积操作提取虚假健康信息语句29个子特征的卷积层；第3层是最大池化操作，将虚

29、假健康信息的子特征和维度特征相对应，舍弃卷积出的多余特征，表示为特定维度的特征向量，最后将最大池化操作学习到的特征和文本融合作为全连接层特征输入的一部分，在经过全连接层后生成特征表示结果。虚假健康信息特征提取过程：W（i）使用word2vec转化为对应的词向量E（W（i），其中E（W（i）RK代表句中第i个词，词向量为K维，文本矩阵可以表示为：E（W（1），E（W（2），E（W（3），.，E（W（n）（1）用hk的滤波器对文本矩阵开始卷积操作，获得的虚假健康信息特征表示为：Ci=f（FE（W（i i+r-1）+b）（2）在这个表达式中：F代表的是hk滤波器，b代表偏置量，f代表RELU进行操作

30、的函数，E（W（i i+r-1）代表从i到i+h-1总体为h行的向量，Ci代表卷积操作获得的虚假健康信息特征。依靠滤波器进行单位长度为1的由上到下的滑动，走过社交媒体虚假健康信息中句子的整体长度，获得虚假健康信息特征向量集合CiRK。应用n个不同的滤波器对虚假健康信息文本中连续的词的h窗口进行持续的卷积计算，获得C1：m-h+1R（m-h+1）n，应用VALID进行padding操作，获得与初始输入具有相同长度的虚假健康信息特征向量Ci：mRmn。借助生成器、判断器基于堆叠式编码处理，通过不断构建如图1结构的多层耦合网络，逐渐构建出复杂网络。在社交媒体虚假健康信息复杂网络拓扑结构中，Ci，t，

31、n是可以开始的自编码，i表示第i个网络节点，t是节点的时间，n表示复杂网络中的隐藏层。定义顶点间的欧氏距离 di.j.t1.t2.n1.n2=IICi.t1.n1-Cj.t2.n2II。其中，当 t1=t2=const时，建立的是时间上的多层耦合网络；当n1=n2=const时，构建的是空间粒度的多层耦合网络。对于不同节点，可以基于SAR模型定义节点状态，各个网络节点可以定义为4种状态，即节点标签可定义为Y=L，M，G，K，其中L表示节点的易感状态、M表示节点的接收状态、G表示节点的传播状态、K表示节点的免疫状态。易感状态表示网络节点从未接收过社交媒体传播的虚假健康信息，即对虚假健康信息处于不

32、了解时的状态；接收状态是节点已经接收到社交媒体传播的虚假健康信息，还未传递虚假健康信息时所处的状态；传播状态是指节点将社交媒体虚假健康信息传播出去后所处的状态；免疫状态是节点完全不接收、不传播虚假健康信息所处的状态。结合社交媒体虚假健康信息的特征深度学习神经网络可以对社交媒体传播的虚假健康信息进行筛选、过滤，精准识别出虚假健康信息，为实现对社交媒体大规模虚假健康信息的海量识别提供借鉴。4结语本研究对深度学习、社交媒体虚假健康信息、社交媒体虚假健康信息特征及社交媒体虚假健康信息识别相关研究进行了梳理和总结，结合近年来学界的研究成果，通过实验设计，应用内容分析法和NVivo Plus软件采集微信辟

33、谣助手的真假健康信息，通过资料编码归纳出社交媒体虚假健康信息的维度特征、主要特征和子特征，构建了社交媒体虚假健康信息特征识别清单，并指出了智能系统深度学习的要点；同时，应用爬虫工具、自然语言文本处理技术、深度神经网络从社交媒体虚假健康信息采集、数据处理和数据分析3个维度构建了社交媒体虚假健康信息识别机制，实现了对社交媒体虚假健康信息的精准识别，并能够适应海量社交媒体健康信息的识别和筛选，去除虚假健康信息，为社交媒体用户获取真实可靠的健康信息提供支持。本研究对社交媒体虚假健康信息特征提取是基于微信辟谣助手实现的，构建的虚假健康信息特征清单是否适应于其他社交媒体还需进一步探索。此外，本研究基于深度

34、神经网络算法工具设计的识别机制尚未进行实证分析，识别效果难以判定，未来研究中还需通过实践验证。参考文献1金晓玲，冯慧慧，周中允.微信朋友圈中健康信息传播行为研究 J.管理科学，2017，30（1）：73-82.2徐孝婷，赵宇翔，朱庆华.在线健康社区老年用户健康信息2023年8月图书情报导刊3434需求实证研究 J.图书情报工作，2019，63（10）：87-96.3宋士杰，赵宇翔，朱庆华.社交媒体中失真健康信息的传播、识别与纠偏研究 J.情报杂志，2023，42（6）：162-169.4莫祖英，盘大清.信息茧房效应对用户虚假信息识别能力的影响关系探析 J.图书馆学研究，2023（3）：50-5

35、7.5李广建，袁钺.基于深度学习的科技文献知识单元抽取研究综述 J.数据分析与知识发现，2023（6）：1-23.6曹雅宁，柯青.为什么人们对虚假健康信息的易感性不同？：基于信息加工过程组态的分析 J.现代情报，2023，43（1）：40-54.7 BRADY J T，KELLY M E，STEIN S L.The trump effect：withno peer review，how do we know what to really believe on social media?J.Clinics in colon and rectal surgery，2017，30（4）：270-27

36、6.8 FICHMAN R G，KOHLI R，KRISHNAN R.The role of information systems in healthcare：current research and future trendsJ.Information systems research，2011，22（3）：419-428.9 TSAI H，BAGOZZI R P.Contribution behavior in virtual communities：cognitive，emotional，and social influences J.Management information sy

37、stems quarterly，2014，38（1）：143-164.10 BODE L，VRAGA E K.In related news，that was wrong：thecorrection of misinformation through related stories functionality in social mediaJ.Journal of communication，2015，65（4）：619-638.11 ZHOU J，LIU F，ZHOU H.Understanding health food messages on Twitter for health lit

38、eracy promotion J.Perspectivesin public health，2018，138（3）：173-179.12LI Y，ZHANG X，WANG S.Fake vs real health information insocial media in China J.Proceedings of the Association forInformation Science and Technology，2017，54（1）：742-743.13 RUBIN V L.On deception and deception detection：contentanalysis

39、 of computer-mediated stated beliefs J.Proceedingsof the Association for Information Science and Technology，2011，47（1）：1-10.14 ZHOU L，BURGOON J K，NUNAMAKER J F，et al.Automating linguistics-based cues for detecting deception in text-based asynchronous computer-mediated communications J.Group decision

40、 and negotiation，2004，13（1）：81-106.15 LAVORGNA L，DE S M，SPARACO M，et al.Fake news influencers and health-related professional participation on theWeb：a pilot study on a social-network of people with Multiple SclerosisJ.Multiple sclerosis and related disorders，2018，25（10）：175-178.16 DUENAS-GARCIA O F

41、，KANDADAI P，FLYNN M K，et al.Patient-focused websites related to stress urinary incontinence and pelvic organ prolapse：a DISCERN quality analysisJ.International urogynecology journal，2015，26（6）：875-880.17 BOYER C，DOLAMIC L.Automated detection of HONcodewebsite conformity compared to manual detection：

42、an evaluation J.Journal of medical internet research，2015，17（6）：e135.18 TAVARE A N，ALSAFI A，HAMADY M S.Analysis of thequality of information obtained about uterine artery embolization from the internetJ.Cardiovascular and interventionalradiology，2012，35（6）：1355-1362.19WINKER M A，FLANAGIN A，CHILUM B，

43、et al.Guidelinesfor medical and health information sites on the internet：principles governing AMA Web sites J.Jama，2000，283（12）：1600-1606.20 LI J，OTT M，CARDIE C，et al.Towards a general rule foridentifying deceptive opinion spam C/Meeting of the Association for Computational Linguistics.Baltimore：Ass

44、ociationfor Computational Linguistics，2014：1566-1576.21 JINDAL N，LIU B，LIM E P.Finding unusual review patternsusing unexpected rules C/Proceedings of the 19th ACM international conference on information and knowledge management.Toronto：ACM，2010：1549-1552.22 MUKHERJEE A，VENKATARAMAN V，LIU B，et al.Wha

45、tyelp fake review filter might be doing?C/Proceedings of theseventh international AAAI conference on weblogs and socialmedia.ellevue.Washington：AAAI Press，2013：1-10.23WORLD HEALTH ORGANIZATION.Health-topics EB/OL.2023-04-20.https：/www.who.int/health-topics/coronavirus.24 INTERNATIONAL FEDERATION OF

46、LIBRARY ASSOCIATIONS AND INSTITUTIONS.How to spot fake news EB/OL.2023-04-26.https：/www.ifla.org/node/11175.25CORBIN J M，STRAUSS A.Grounded theory research：procedures，canons and evaluative criteria J.Qualitative sociology，1990，13（1）：3-21.26詹骞，赵冰洁.健康类虚假信息的人工神经网络识别与治第8卷第8期潘冬梅基于深度学习的社交媒体虚假健康信息识别机制研究353

47、5Research on the Recognition Mechanism of False Health Information on SocialMedia Based on Deep LearningPAN DongmeiABSTRACT：On the basis of an overview of the researches related to the deep learning，the false health information onsocial media，the features of the false health information on social me

48、dia and the features recognition，and taking WeChatrumor-refuting assistant as the research platform and applying content analysis，this paper extracts the features of thefalse health information on social media through data coding，constructs a feature recognition list of the false health information

49、on social media，and by using crawler tools，natural language text processing technology and deep learning neuralnetworks，builds a recognition mechanism for false health information on social media from three dimensions of information collecting，information processing，and information analyzing，to real

50、ize the intelligent recognizing，intelligentscreening and intelligent analyzing of false health information on social media，and to provide social media users with access to authentic and reliable health information.KEY WORDS：deep learning；social media；false health information；recognition mechanism202

展开阅读全文