ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:1.93MB ,
资源ID:465146      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/465146.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(一种融合标签和患者咨询文本的医生推荐算法_周鑫.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种融合标签和患者咨询文本的医生推荐算法_周鑫.pdf

1、一种融合标签和患者咨询文本的医生推荐算法周鑫,熊回香,肖兵(华中师范大学 信息管理学院,湖北 武汉 430079)摘要:【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富

2、了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。关键词:医生推荐;标签;Word2vec;LDA;社会网络分析中图分类号:G254DOI:10.13833/j.issn.1007-7634.2023.03.017收稿日期:2021-09-16基金项目:国家社会科学基金重点项目“数智驱动的在线健康资源挖掘与智慧服务研究”(22ATQ004);2022年度华中师范大学基本科研业务费(人文社科类)交叉科学研究项目“基

3、于量化自我技术的个体健康管理研究”(CCNU22JC033)。作者简介:周鑫(1995-),男,江西吉安人,硕士研究生,主要从事网络信息组织和数据挖掘研究;熊回香(1966-),女,湖北鄂州人,教授,博士,主要从事网络信息组织和数据挖掘研究;肖兵(1993-),男,四川资阳人,博士研究生,主要从事网络信息组织和用户行为研究,通讯作者:。1 引言近年来在政策的扶持下,为了满足健康医疗信息用户交流、分享、合作、协调一致行动的本能需求,互联网在线医疗社区快速兴起,代表社区如“丁香园”“微博医疗”“好医生”等。医生和患者在平台中浏览诊疗信息、参与病情讨论、寻求潜在的合作和诊疗机会【1】,生成了海量却分

4、散的健康医疗信息。这些指数式增长的信息呈现出大规模、异质多元、组织结构松散等特点,这给患者有效的信息获取和利用带来了诸多困难,因此需要对患者进行精准的医生推荐。当前大部分在线医疗社区(典型为丁香园、好医生)医生推荐的主要依据是医生“星级”“在线情况”“问诊价格”等网站指标,功能较为粗泛,推荐效果欠佳;进一步地,目前学界在线医生推荐研究方法上多基于传统的内容推荐【2】、协同过滤推荐【3】,内容上多基于传统的医疗文本如病例。因此,利用混合推荐方法弥补单一推荐手段的不足【4】,对用户生成的更具分析价值的标签、患者咨询文本等信息进行挖掘,无疑可以提高推荐的质量。本文提出了一种融合标签和患者咨询文本的医

5、生推荐算法,选取患者咨询文本、医生擅长领域标签等数据进行推荐算法研究。首先,构建患者病症集合与医生集合,通过Word2vec模型对预处理后的患者咨询文本进行词向量训练以表征病症特征和医生特征,进而改进相似度算法计算病症与医生之间的相似度得到医生推荐集A;其次以医生推荐集A作为输入数据,利用LDA主题模型对医生标签进行医疗主题训练,将各医生的标签关系映射到潜在的医疗主题上,根据改进的KL算法计算概率之间的分布距离以表示医生之间的相似度进而得到医生推荐集B;最后结合医生推荐集A和B的推荐结果构建医生社会网络,利用社会网络分析方法设计网络链接值并计算中心性指标,得到最终的医生推荐集C。2 研究现状国

6、内外一些学者对医生推荐方法进行了相关研究,主要集中在近五年的医学和计算机科学领域,多为探讨推荐算法与模型的设计与实现。Huang Y等人提出了一种基于医生绩效模型和患者偏好模型的医生推荐算法,旨在解决医生信息过载和预约不平衡的问题【5】;Makowski等人利用层次分析法提出了一种基于医患偏好模型的医生决策算法,辅助临床并提供治疗建议【6】;杨晓夫等人为解决传统推荐方法在医疗领域推荐质量不佳的问题,提出了一种基于矩阵乘法构建的医生推荐模型【7】;陈亚明对病历信息和处方信息进行挖掘,提出了一种基于 DBSCAN 聚类和 KNN 算法的疾病预测方法,进行医生处方推荐【8】。而在情报学领域中,医生推

7、荐是个较新的课题,一些学者将传统的个性化推荐方法移植到了医生推荐课题中,取得了一定的进展。Waqar等人结合内容情报科学20232023年第年第3 3期期(第第4141卷卷)业务研究-145库、协同过滤和人口学过滤方法,提出了一种医生推荐系统【9】;李勇等人基于推荐过程中语义相关度的考量缺陷,提出了一种协同过滤推荐算法【10】。目前推荐方法多基于病历处方等传统医疗文本进行单一方法的推荐,混合推荐的研究较少,对海量的医疗UGC利用不足,对较新算法和模型的运用也有所欠缺,这使得在信息日益增长环境下丰富资源的利用程度、检索结果的可用程度、医生推荐的精确程度差强人意。因此,本文基于患者咨询文本和医生标

8、签,融合机器学习领域、社会学领域相关方法和模型,设计了一种混合推荐算法。相关研究成果能够从独特视角丰富个性化推荐的理论与方法体系,促进情报学领域融合交叉学科发展;也可以帮助患者治疗和康复,节省医疗成本,节约社会资源,具有理论与现实意义。3 推荐模型构建本文构建的医生推荐模型是一种针对患者咨询病症,挖掘在线医疗社区中相关患者咨询文本和医生标签的语义关联,完成对症推荐的模型,完整架构如图1。该模型主要分为数据来源与预处理、基于患者咨询文本的推荐模型、基于医生标签的推荐模型及基于社会网络分析的推荐模型四个子模型。由图1可知,该模型实时从在线医疗社区收集更新每一位医生的患者咨询文本数据和标签数据,对不

9、同推荐子模型需要的数据提供预处理和组织。首先将患者咨询的病症作为参数输入基于患者咨询文本的推荐模型中,输出与该病症最匹配的医生集合A。然后将集合A输入基于医生标签的推荐模型,召回部分医生,扩展医生推荐集合B;最终将两个子模型推荐的医生集合(A+B)输入基于社会网络分析的推荐模型,得到最终的医生推荐集C。3 3.1 1 基于患者咨询文本的医生推荐模型基于患者咨询文本的医生推荐模型患者咨询文本可以给予相似用户直观的建议,相关推荐能够起到改善推荐结果,扩大推荐覆盖面的作用。本节引入Word2vec词向量模型,将咨询文本内容映射成词语的向量形式进行相似度计算,使数据矩阵更为稠密,提高文本之间相关的可信

10、度。3.1.1 文本训练与评估Word2vec是Google在2012年提出的一系列基于深度学习的用以产生词向量的模型,本质上是一种降维模型,利用上下词推测可能出现的词【11】。Word2vec分为词向量计算结构(Skip-gram)和连续的词袋模型(Continue bag-of-wordCBOW)。其中,CBOW擅长处理300M以下的小型语料。因此,采用CBOW模型对文本进行训练。为证明训练结果有效,可以作为下一步推荐过程的语料而不影响推荐精度,需要对训练结果进行可信度评估。为了不失一般性,选取代表性的词语作为训练测试集,计算词间的余弦相似度,找到与训练测试词语最相似的其他训练词语,进行训

11、练效果评价。通过相似词的排序,判断得到的训练结果是否有效。有效的模型训练结果应当符合相似度预期,从而作为后续研究的基础。3.1.2 医生与病症特征表示(1)医生特征表示将医生对应的患者咨询文本数量记为n。选取k(knmin)个具有代表性的文本,这些文本是点赞数最高、查阅数最高、时间最近等最能表征该医生特征的文本。对k个预处理后的文本进行词向量表征,每个文本都被分解为m个特征词,每一个特征词都拥有一个词向量。整合该文本中所有保留下的训练词向量,并计算该向量集合的均值以表示该文本的文本句向量,以表征该文本对应医生的特征。那么,对于医生j的序号为k的文本,记其第i个训练词的向量为vki,其句向量则表

12、示为(vk1+vk2+vk3+vkm)/m。(2)病症特征表示患者输入的病症词包含在患者咨询文本中,经词向量训练后即拥有词向量。与医生特征表示同理,一个或多个病症可用词向量进行表征。当患者咨询的症状词数量为1时,该症状词的词向量即表征当前病症;当咨询的症状为组合症状,即病症词数量大于1时,由各病症向量取均值,构造病症图1 医生推荐模型架构Figure 1 The framework of physician recommendation modelInformation ScienceInformation ScienceVol.41,No.3 2023-146句向量,以表征病症特征。对于疾病

13、训练测试集W1,W2,W3,Wm,m为训练集的词语数量,计算病症句向量为(vW1+vW2+vW3+vWm)/m。3.1.3 医生推荐特征表示后,采用余弦相似度方法,通过计算表征后的医生和病症之间的相似度排序进行医生推荐。对于每位医生,选取表征文本k个,通过病症句向量和文本句向量计算得到的余弦相似度也有k个。那么,需要对这k个相似度进行整合,以表征医生和病症之间的关联,得到医生和病症之间的相似度,计算方法如公式(1)。sim()Dn,Um=sim()On1,Om+sim()Onk,Omk(1)式中Dn表示医生n,Um表示相关病症集合m,Oni(ik)表示医生n的第i个文本句向量,Om表示相关病症

14、集合句向量。那么sim(Dn,Um)为医生n和病症集合m之间的相似度,sim(Oni,Om)为医生特征文本i的句向量和病症句向量的余弦相似度。根据医生与病症相似度的排序,选择相似度最高的n个医生,作为最终的基于患者咨询文本的医生推荐结果,记为医生推荐集A。3 3.2 2 基于医生标签的医生推荐模型基于医生标签的医生推荐模型上节所述方法考虑到了UGC中的关联信息,但是单一的基于内容的推荐方法存在一定局限。除了医生与患者之间的关联值得挖掘,医生之间的关联同样具备提供推荐的可行性。因此,可通过召回医生推荐集A的相似医生达到协同过滤推荐的效果。医生标签为协同过滤推荐提供了直接可靠的数据源。本节引入LD

15、A主题模型量化相关相似度。隐含狄里克雷分配(Latenet Dirichlet Allocation LDA)模型本质上是基于概率分布,对文本中可能存在的不同主题出现的概率进行建模的方法【12-14】。某一文档资源可能存在不同概率分布下的文档主题,而这些主题依靠与之相关的词语来表达,不同的词语表达同一主题的概率也会随之不同。模型引入语词概率的度量方式,展现文档语义层面的关系。3.2.1 主题训练计算医生主题联合概率分布的目的是利用潜在的主题量化医生和医生之间、医生和标签之间的联系。传统的标签关系挖掘单纯从共现角度进行相似度计算,在Web2.0环境下会造成系统误差。医生在定义标签时没有特定规则,

16、对于擅长同一疾病的医生集合,不同医生会用不同的标签进行表征,如“感冒”“咳嗽”“呼吸道感染”等,这些标签各自不同但含义接近。因此,LDA主题概率分布可以从语义角度弥补标签存在的不限定规则问题,提高标签表征相似医生的精度。3.2.2 主题矩阵构建本节通过挖掘不同医生基于标签的语义关系进行相似推荐。而构建主题矩阵,可以将医生之间的相似程度以主题概率分布的形式进行量化,进而计算医生之间的相似度。(1)医生标签矩阵构建LDA三层结构中,主题层是隐性的,医生集和标签是显性的,因此可以根据显性的标签链接关系,构建医生标签矩阵。那么有医生集合U=u1,u2,,un(n为医生总数),标签集合T=t1,t2,t

17、m(m为标签总数),医生标签矩阵表示为公式(2),其中,tij(in,jm)为第i位医生的第j个标签。为阐述方便,该矩阵是一个m*n维矩阵;但LDA模型实际允许输入不规则的矩阵进行主题概率分布训练。X=|u1u2 un=|t11t12 t1mt21t22 t2m tn1tn2 tnm(2)(2)医生主题矩阵构建将显性的矩阵X作为模型训练的输入数据,设定潜在主题维度k,运用吉布斯迭代采样方法进行主题概率先验分布的拟合,构建医生主题概率分布矩阵Y,如公式(3)所示。在医生集U=u1,u2,un(n为医生总数)中对应标签集合T=t1,t2,tm(m为标签总数),那么有医生标签tij(in,jm),基

18、于标签数据生成潜在主题Zp(pk)的概率分布。pij解释为第i个用户在第j个潜在主题上的分布概率。Y=|u1u2 un=|topic1topic2 topickp11p12 p1kp21 p22 p2k pn1pn2 pnk(3)3.2.3 医生推荐在计算各医生在主题层面的概率分布后,度量医生间的相似度则转化为比较潜在医疗主题的相似性。矩阵Y的概率分布距离通常采用 KL(Kullback-Leibler Divergence)距离算法,如公式(4)。Dkl()p,q=i=1pilnpiqi(4)式中Dkl(p,q)为概率分布p和q的距离,当Dkl(p,q)趋近0时,概率分布相似度极高。但由于引

19、入对数,使得Dkl(p,q)Dkl(q,p),是非对称的距离计算函数。为便于矩阵计算,改进KL距离公式,通过均值处理进行对称转换,构建新的概率分布距离计算函数,如公式(5)。Dkl()p,q=12|Dkl()p,p+q2+Dkl()q,p+q2(5)该公式构建的是医生在主题分布中的距离,表示医生之间的距离差异。Dkl(q,p)取值区间为0,1,越趋近0,表明医生之间的相似度越高。为便于后续计算,对其进行相似度转换,如公式(6)。sim()a,b=11+D()a,b(6)通过相似度计算,获得基于医生标签的医生相似度集合。将医生推荐集A作为本节医生推荐的输入数据集,计算与A中每一位医生最相似的k名

20、医生,构成新的基于医生标签的医生推荐集B。周鑫,熊回香,肖兵.一种融合标签和患者咨询文本的医生推荐算法J.情报科学,2023,41(3):145-154.-1473 3.3 3 基于社会网络分析的医生推荐模型基于社会网络分析的医生推荐模型上文两种推荐模型分别存在患者选择医生的动机局限、标签定义和关联的随机性等问题。通过组合两个推荐集进行混合推荐,可以弥补各模型的弱点。组合的医生推荐集本身具有一定联系,擅长相关病症的医生集合可以构建一个社会网络,网络中最重要的结点可视作与病症最匹配的结点。因此,可基于社会网络分析进行医生推荐,得到网络中最重要的医生。本节引入的社会网络分析用于描述和测量行动者之间

21、的关系,是一种较成熟的定量分析方法【15-16】,在情报学领域常被应用于合著网络、引文网络、竞争情报等研究。由于社会网络分析的点度中心性指标测度网络中节点与其他节点之间联系的重要程度【17-18】,故本节采用该指标进行个体医生的推荐。3.3.1 医生网络链接构建网络是由网络结点和结点之间的链接组成的,如何测度两个结点的链接值,需要进行值的量化,且保证值的归一。在基于患者咨询文本的推荐模型中,相关病症与集合A中每一位医生的相似度是归一的;在基于医生标签的协同过滤推荐模型中,(A+B)中医生两两之间的相似度对于整个网络而言不是归一的。所以在构建医生网络链接的过程中,需要确定基于整个网络的归一的链接

22、值,有以下三个步骤。(1)病症与医生的相似度重构在推荐集B中,医生与病症基于患者咨询文本的相似度由于词向量训练的系统误差,在一定程度上被低估。例如,对于推荐集A中排序第一的医生i、最后的医生j,与医生i最相似的医生k,当医生k在推荐集B中,没有充分理由认为医生k与病症的相关性会低于医生j,可以认为医生k与病症的相似度被低估。因此,需要重构推荐集B中的医生与病症的相似度,以提升网络链接的精度。将医生 i 与相关病症基于咨询文本的相似度记为sim(i_text),同理医生k相似度记为sim(k_text),医生i与医生k基于医生标签的相似度最高记为sim(ik_tag),重构后的医生k基于咨询文本

23、的相似度记为sim(k_text_new)。那么,基于患者咨询文本的病症与医生相似度重构算法如公式(7)。sim()k_text_new=sim()i_text sim()ik_tag+sim()k_text2(7)医生k是由医生i推荐而来,在医生i的视角里,医生k与病症的相似度可以定义为sim(i_text)与sim(ik_tag)的乘积。而实际上由词向量训练模型得到的医生 k 与病症的相似度为sim(k_text),因此取二值的均值代表重构后的医生k与病症的相似度。(2)基于病症与医生相似度的网络链接值计算上一步获得重构后归一的相似度集合,因此进一步计算医生之间基于病症与医生相似度的网络链

24、接值。事件A发生的概率记为P(A),事件B发生的概率为P(B),两者互相独立,那么A、B至少发生一件的概率如公式(8)。P()AorB=1-P()-A P()-B(8)当医生i与病症的相似度为sim(i_text_new)时,可以认为医生i能够治愈该病症的概率 P(i)=sim(i_text_new),对医生 k 有 P(k)=sim(k_text_new)。当两位医生同时被推荐,该病症能被治愈的概率P(i or k)记为simI(ik_text_new)。该值代表两位医生组合的病症相似度,将该值作为基于病症与医生相似度的网络链接值,记为v(ik_text),其计算方法如公式(9)。v()ik

25、_text=1-()1-sim()i_text_new()1-sim()k_text_new(9)(3)融合医生与医生相似度的网络链接值计算上一步计算的链接值仅是基于患者咨询文本推荐得到的链接值。为实现协同过滤的推荐效果,需要引入基于标签得到的医生相似度对网络链接值进行改进。在基于医生标签的协同过滤推荐维度上,医生 i、k 的网络链接值是归一的,直接使用医生间相似度sim(ik_tag)来表征。将任意两位医生基于医生标签的网络链接值记为v(tag),融合医生与医生相似度的网络链接值记为v(ik),直接由公式(10)计算,将式代入式(10),得到最终的医生网络链接值计算公式(11)。v()ik=

26、v()ik_text v()ik_tag(10)v()ik=()1-()1-sim()i_text_new()1-sim()k_text_newsim()ik_tag(11)经上述步骤计算的医生网络具有结点、结点链接和链接测度值。而此类关系数据常见形式是列表,但该形式不便于社会网络分析,需要将其转换成矩阵。社会网络矩阵是一个大小等于网络结点量的方阵。由此,将上述计算结果转化为医生社会网络矩阵,以进行社会网络分析。3.3.2 医生推荐在社会网络分析中,挖掘潜在的网络信息有多种角度,如中心性分析、凝聚子群分析和核心边缘结构分析等。本文最终目的是挖掘出网络中最重要的医生结点,并将其作为与病症相匹配的

27、最核心结点,进行医生混合推荐。因此,选择对网络进行中心性分析。运用中心度计算方法,对获取到的医生网络矩阵进行社会网络分析,挖掘出中心度最高的医生排序,获得网络中最重要的医生集合作为最终推荐结果,记为医生推荐集C。4 实证分析4 4.1 1 数据获取及预处理数据获取及预处理“丁香医生”是医学文献检索知识传播的专业医疗媒体平台,核心用户达550万,医生用户超200万。系统的就医决策引擎基于医生同行的评议数据,着重考虑医生层面,忽略了患者间的联系。使用“丁香医生”主页提供的医生标签和患者咨询文本作为实证的数据来源,不仅可以验证算法的可行性,也可优化“丁香医生”的推荐精度。4.1.1 数据收集“丁香医

28、生”中包含丰富的UGC文本,选择适中大小的ZHOU Xin,XIONG Huixiang,XIAO Bing.A Physician Recommendation Algorithm Based on the Fusion of Label and Patient Consultation TextJ.Information Science,2023,41(3):145-154.-148实验数据集,获取范围限定在“普通内科”医生,医生主页信息包含姓名、基本信息、擅长方向标签、患者咨询文本等。通过Python对2020年2月26日0时在线的296位“普通内科”医生的患者咨询文本和医生擅长方向标签

29、分别进行采集。用患者咨询文本表征医生特征,文本数量不宜过小,不然会导致医生特征表示不准确,增大推荐误差。设定患者咨询文本数少于 5的医生不能被患者咨询文本所表征,故筛选出110位医生,8376条患者咨询文本,其中,医生对应的患者咨询文本数量最大值为100(平台展示的最大数量),最小为5。4.1.2 数据预处理(1)数据筛选和清洗对采集的数据进行清洗,去除数据中的无效信息,如姓名、时间、标签等,将每一条文本处理到一行,并去除行间空格,整合成方便代码处理的格式。(2)文本分词与去噪在进行Word2vec词向量训练前,需要把数据处理成分词后的格式,并且去除无意义的词语,以降低训练结果噪声。本文采用目

30、前Python中文分词包中效果最好的Jieba进行分词,并选择常用且效果好的“哈工大停用词表”过滤无意义的词。患者咨询文本数据如表1所示,医生标签数据见表2。4 4.2 2 基于患者咨询文本的医生推荐基于患者咨询文本的医生推荐4.2.1 文本训练与评估将患者咨询文本输入到 CBOW 模型中,参数选择 100维,利用Python+Gensim对该文本进行词向量训练。Gensim是一款开源的第三方 Python 工具包,支持包括 LDA 和Word2vec等多种主题模型算法,在小语料处理中具有方便快捷且准确度高的特征。保留训练词最低词频默认为5,部分词向量训练结果如表3所示。词向量训练后,需要评估

31、训练结果。模拟普通患者实际使用中的情形,通常只会笼统简短地描述病症,因此选取患者症状“咳嗽”+“胸闷”进行测试,测试结果见表4。表1 患者咨询文本数据(部分)Table 1 Patient consultation text data(part)医生张宝艾永梅陆金帅谢琪文本序号1231001231001233512310文本内容我29岁,男,昨天出现低烧体温37.4,无咳嗽,无咽喉疼我从大年初二开始一直喉咙痛、中间有段时间长溃疡喉咙疼大概有十天了,之前喝了蒲地蓝口服液效果不太好前天低烧37.6,吃了退烧药,昨天体温36.7,早上又37.5我女朋友今天体温37.5了,有点担心是不是新冠今年40岁

32、,近期有咳嗽症状,咽喉肿痛伴随呼吸有点困难早上起床后,嘴里很苦,不知但怎么了!酒喝多了,第二天胃痛吃什么吐什么武汉人,咳嗽有好几天了,然后昨天开始胸口正中间有点疼痛陆医生,您好,我这两天有点轻微咳嗽,目前每天都有量体温陆医生你好 我老公现在出现嗓子痛 嗓子痒 不怎么咳嗦头痛有两天,喉咙也痛,上肢痛,不咳嗽,不发烧我的母亲63岁了,患有骨质疏松,在治疗中。我觉得她平时老师你好,我外公76岁,膀胱癌,做了膀胱全切除您好,我朋友41岁,这周一做的脑部肿瘤手术,手术过程医生我到了冬天穿很多,背心也特别冷,刺骨的冷表2 医生标签数据(部分)Table 2 Physician tag data(part)

33、医生张宝艾永梅陆金帅谢琪医生标签心力衰竭 心脏病 心血管系统疾病 高血压病 冠心病 重症肌无力 肺炎高脂血症 糖尿病 痛风 慢性肾衰竭 高血压 肥胖症 冠心病 妊娠期糖尿病急性酒精中毒 心脑血管疾病 急性上呼吸道感染 慢性阻塞性肺疾病 高血压急症蛋白质能量 营养不良 肿瘤周鑫,熊回香,肖兵.一种融合标签和患者咨询文本的医生推荐算法J.情报科学,2023,41(3):145-154.-149与“咳嗽”最相似的病症词语为“打喷嚏”“干咳”“鼻涕”;与“胸闷”最相似的病症词语为“气短”“酸痛”“心慌”。可以看出,训练结果符合预期,可在此基础上进行后续研究。4.2.2 医生推荐按照3.1.2所述方法对

34、医生和病症进行特征表示后,通过计算医生和病症之间的余弦相似度进行医生推荐。设定公式(1)中的k值与上文筛选医生时同步取5,即选择患者咨询文本中的前五个文本(丁香医生中点击量越高的文本排名越靠前)。沿用上文病症测试集“咳嗽+胸闷”,医生推荐的相似度结果见表5。表5 文本句向量与病症句向量相似度Table 5 The similarity of text sentence vector anddisease sentence vector陈曼刘旭阳张磊门士虎张宝黄茂梁10.8799910.8741630.7957950.8074090.8686170.047824420.9009390.63507

35、40.78070.8431770.7728710.13733730.7078170.8103910.8353950.7893910.6118480.60390740.9609650.8427820.7608920.7258560.8368010.80227250.6852740.8163150.8051540.7452790.8150710.047173平均相似度0.82699720.7957450.79558720.78222240.78104160.30883342根据表5所示,对病症“咳嗽+胸闷”,最终基于患者咨询文本的医生推荐选择相似度排名前五的集合。推荐医生为“陈曼”“刘旭阳”“张磊

36、”“门士虎”“张宝”,记为医生推荐集A。4 4.3 3 基于医生标签的医生推荐基于医生标签的医生推荐4.3.1 主题训练通过 Python+Gensim 工具包输入 LDA 主题模型进行联合概率分布训练。综合考虑普通内科可能存在的病症主题数量与训练集,将训练主题维度设为8,主题词数为5。训练后各主题词概率分布如表6所示。4.3.2 主题矩阵构建根据3.2.2所述方法,将训练后的医生主题概率分布转化为公式(3)形式的概率分布矩阵,如表7所示,各医生均依据标签关系被映射到了潜在的医疗主题上。基于语义层面的计算依据,相较于传统的标签共现计算方法,具备更高的推荐精度。4.3.3 医生推荐将上节基于患者

37、咨询文本推荐的医生集合A作为输入数据集,对相似医生进行召回,设定每一位医生召回两位相似医生,构建医生推荐集B。推荐集A和推荐集B中医生的相似度见表8。表3 患者咨询文本词向量训练结果(部分)Table 3 Word vector training result of patient consultation text(part)咳嗽胸闷发烧体温医生蛋白粉1-0.01790669-0.434441240.003195192-0.23032880.986560340.056049412-0.33933419-0.23471412-0.16810364-0.29572448-0.24992710.0

38、1716746930.34496513-0.003008240.20673151-0.707953160.31704214-0.0446315040.922082720.890456620.68857050.99125737-0.79299921-0.0184673150.937926590.801766870.396053670.0255199240.552897870.0866738331000.101665140.62328011-0.45278853-0.30792186-0.380542130.029833119表4 测试词相似度(部分)Table 4 The similarity

39、of test words(part)咳嗽胸闷词1(相似度)打喷嚏(0.9442)气短(0.9585)词2(相似度)干咳(0.9362)酸痛(0.9579)词3(相似度)鼻涕(0.9235)心慌(0.9498)词10(相似度)咽痛(0.8903)无力(0.9401)表6 医生标签主题联合概率分布Table 6 The joint probability distributions of physician tag topics主题12345678联合概率分布0.049*急性+0.038*感染+0.038*发热+0.026*病毒性+0.026*肝炎0.077*急性+0.064*感染+0.044*

40、肺炎+0.026*冠心病+0.023*螺杆菌0.079*急性+0.063*感染+0.053*疾病+0.041*糖尿病+0.033*冠心病0.109*急性+0.058*感染+0.052*肺炎+0.041*出血+0.029*胃肠炎0.066*急性+0.045*腹泻+0.034*咳痰+0.034*腹痛+0.034*咳嗽0.047*糖尿病+0.035*胃炎+0.035*高血压+0.027*高血压病+0.027*溃疡0.053*疾病+0.039*急性+0.038*感染+0.030*肺+0.030*阻塞性0.074*冠心病+0.059*糖尿病+0.053*高血压病+0.045*高血压+0.036*疾病ZH

41、OU Xin,XIONG Huixiang,XIAO Bing.A Physician Recommendation Algorithm Based on the Fusion of Label and Patient Consultation TextJ.Information Science,2023,41(3):145-154.-150表8 医生推荐集A与B中医生相似度Table 8 The similarity of physicians in recommendation set A and B医生推荐集A陈曼刘旭阳张磊门士虎张宝医生推荐集B王泽华韩旭巩雷李津龙胜规范永周张海容蒋芳于

42、翠萍许蕊相似度0.9999999930.9964824940.9999999980.9999410100.9767138490.8687548940.9999999930.9999392860.9999999890.999857501由上表可知,对病症“咳嗽+胸闷”,基于患者咨询文本和医生标签推荐的医生集合(A+B)=“陈曼”“刘旭阳”“张磊”“门士虎”“张宝”“王泽华”“韩旭”“巩雷”“李津”“龙胜规”“范永周”“张海容”“蒋芳”“于翠萍”“许蕊”。4 4.4 4 基于社会网络分析的医生推荐基于社会网络分析的医生推荐4.4.1 医生网络链接构建(1)病症与医生的相似度重构通过上节得到了医生推

43、荐集合B。根据上文3.3.1小节中的公式(7)对集合B中医生与病症的相似度进行重构,重构结果见表9。表9 医生集B与病症相似度重构结果Table 9 The similarity reconstruction result of recommendation set B and disease医生陈曼刘旭阳张磊门士虎张宝王泽华韩旭巩雷李津医生与病症相似度0.82699720.7957450.79558720.78222240.78104160.71002980.62471140.63432260.5878008重构后的相似度0.82699720.7957450.79558720.7822224

44、0.78104160.7685134970.7243998160.7150337990.69174943龙胜规范永周张海容蒋芳许蕊于翠萍0.71869980.32756220.73372920.61760420.72031720.70498340.7478804180.5093662370.7579757970.6998895540.7506237510.743012496(2)医生网络链接矩阵构建获得重构后归一的相似度集合后,按照3.3.1所述方法进一步构建医生之间基于病症与医生相似度的网络链接矩阵,由公式(9)计算得到,其结果如表10所示。再根据公式(11),计算融合医生与医生相似度的网络

45、链接值,构建的网络链接矩阵见表11。链接值取小数点后三位。表10 基于病症与医生相似度的网络链接矩阵Table 10The network link metrix based on thesimilarity of disease and physician医生陈曼刘旭阳张磊门士虎张宝于翠萍陈曼10.6420.6550.6400.6500.645刘旭阳0.64210.6030.6000.6050.600张磊0.6550.60310.8030.8190.812门士虎0.6400.6000.80310.6030.598张宝0.6500.6050.8190.60310.943于翠萍0.6450.60

46、00.8120.5980.9431表11 融合医生与医生相似度的网络链接矩阵Table 11 The network link metrix fused the similarity of physician and physician医生陈曼刘旭阳张磊门士虎张宝许蕊于翠萍陈曼10.9650.9650.9620.9620.955刘旭阳0.96410.9580.9560.9550.947张磊0.9650.95810.9550.9550.947门士虎0.9620.9560.95510.9520.944张宝0.9620.9550.9550.95210.943于翠萍0.9560.9480.9470.9

47、440.94414.4.2 医生推荐社会网络分析工具多达数十种,在参考王陆对典型社会网络分析软件工具的详细比较【19】后,本文选定UCINET,该工具是一种综合型的社会网络分析软件,是处理小型网络的表7 医生主题概率分布矩阵(部分)Table 7 Probability distribution metrix of physician-topic(part)张宝艾永梅陆金帅李柏林魏伟谢琪Topic10.013910.013890.011380.012510.010440.03133Topic20.013910.013910.011380.912410.010430.03125Topic30.0

48、1390.01390.345120.012510.010430.03127Topic40.01390.013890.586580.012510.010430.03125Topic50.013940.555150.011380.012520.486190.03125Topic60.013910.013910.011380.012510.010430.78104Topic70.902610.01390.011390.012510.285690.03127Topic80.013910.361440.011380.012510.175950.03132周鑫,熊回香,肖兵.一种融合标签和患者咨询文本的医

49、生推荐算法J.情报科学,2023,41(3):145-154.-151首选。将获得的网络链接矩阵导入UCINET,进行点度中心度计算,结果如表12,医生网络可视化见图2。表12 医生网络点度中心度结果Table 12 The degree centrality of physician network医生张磊龙胜规张宝于翠萍许蕊陈曼门士虎张海容王泽华范永周蒋芳韩旭刘旭阳巩雷李津Degree10.25710.0749.8229.7259.7169.6269.6009.5419.4819.4089.3859.2399.1568.9708.919NrmDegree76.31774.96173.084

50、72.36372.29271.62371.42970.99070.55070.00669.83268.74968.12766.74366.363Share0.0720.0700.0690.0680.0680.0670.0670.0670.0660.0660.0660.0650.0640.0630.062图2 医生网络可视化Figure 2 The visualization of physician network基于社会网络分析的推荐方法将推荐结果进行了重排,排序前五的医生为“张磊”“龙胜规”“张宝”“于翠萍”“许蕊”,构成最终推荐集C;当推荐医生数量为1时,最终医生推荐结果为“张磊”医生。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服