资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,崔雷,中国医科大学医学信息学系,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,崔雷,中国医科大学医学信息学系,内容,数据挖掘的定义,知识发现的过程,数据挖掘的种类,数据挖掘的算法,关联规则挖掘,PageRank,文本挖掘的流程,自然语言处理,命名实体的识别,关系抽取,Swanson,的早期探索,文本分类和聚类,内容,共现分析,同被引和书目对,词共现,作者共现,共现的泛化,聚类分析,基本原理和种类,工具及参数选择,聚类结果,基于共,现的文本挖掘分析,高被引论文的同被引共现分析,高频主题词的共现分析,数据挖掘的定义,数据挖掘,=data mining,挖掘(,mine,)就是抽取,(extract),,通常是指从地下抽取,隐藏,的,贵重,资源的挖掘操作。,Data+mining,:对数据进行深入的研究,目的在于从大量的数据中去发现事先没有注意到的额外信息。,在数据集中正规地发现有效的、新颖的、潜在有用的、并且最终可以被读懂的,模式,的过程。,知识发现的过程,转换过的数据,数据模式与趋势,大型,数据库,目标数据,处理过的数据,知识,选择,处理,转换,数据挖掘,解释与评价,知识发现的过程,选择:根据某种标准选择或者切分数据。例如,将所有患有肺结核的病人的记录套录下来,形成该疾病患者的数据子集。,处理:包括清除和充实两个方面,由于数据是来自于日常工作中的记录,有许多,冗余的和重复,的内容,如病人的姓名可能在药局和实验室的数据库中都出现,有时还要从其他数据库中,补充,新的数据等等。,转换:删除那些丢失重要内容的,记录,,将数据分类(如按病人年龄分组),改变记录的格式(如将生日转换为实际年龄)等等。,数据挖掘:运用工具和算法,在数据中发现模式和规律。,解释与评价:将发现的模式解释成为可以用于决策的知识,如预测、分类任务、总结数据库的内容或者解释观察到的现象。,转换过的数据,数据模式与趋势,大型,数据库,目标数据,处理过的数据,知识,选择,处理,转换,数据挖掘,解释与评价,数据挖掘的种类,按照目标,分为预测和描述两类:,预测,利用数据库中已有的变量来预测未知或将来的数值。,例如,可以利用预测型建模技术来对患某一种疾病的病人预测其预后情况。,描述,注重发现能够描述数据的模式,然后提供给用户进行解释和表述。,对数据中的模式或关系进行辨别,可以用于探索已有数据的性质,而不是预测新的性质。,数据挖掘的种类,按照挖掘对象,分为:,数据库,文本,Web,信息,空间数据,图像和视频数据,数据挖掘的算法,如同,木匠手中的凿子,刨子,锯等,在不同的挖掘目标、要求和任务中使用之。,十大经典算法,可以到网络上查,。,C4.5,PageRank,k-Means,AdaBoost,SVM,kNN,Apriori,Naive Bayes,EM,CART,关联规则挖掘,关联规则挖掘:,从事务数据库、关系数据库和其他信息存储中的大量数据的,项集,之间发现有趣的、频繁出现的模式、关联和相关性。,应用:,购物篮分析、分类设计、,捆绑销售和亏本销售分析。,“尿布与啤酒”,沃尔玛通过建立的数据仓库,,定期,统计产品的销售信息,。,结果发现,每逢周末,位于某地区的沃尔玛连锁超市啤酒和尿布的销量很,大,一些年轻的父亲下班后经常要到超市,去买婴儿尿布,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒 之后该店打破常规,,把啤酒和尿布的,货架放在了一起,。,Apriori算法,基于两阶段频集思想的递推算法,找出频繁,1-,项集,找出频繁,2-,项集,用最小支持度、可信度等来衡量。,应用实例:Amazon,治疗痛经方药的关联规则分析,应用计算机检索中医方剂数据库(源于,中医方剂大辞典)有关治疗痛经的,217首方剂,以EXCEL 2000软件建立数据库,收录每首方,剂中的单味药进行统计分析。,应用关联规则方法中Apriori算法分析方剂中药对的应用规律。,结果在治疗痛经的217首方剂中共使用427种药物2450频次。其中,使用频次在10次以上的依次为当归、川芎、延胡索、赤芍、香附等56味中药,使用总频次为1622次;,关联规则方法分析出使用频次在10次以上的药对当归-川芎、当归-白芍、当归-香附等389对。,结论运用用药频率统计与关联规则等数据挖掘方法,能较好地发现中医临床治疗痛经方药的用药规律,为临床遣方用药提供理论指导。,主题词关联规则的医学文本数据库数据挖掘的尝试,利用关联规则算法,对PubMed数据库中有关两种消化系统疾病和两个相应的检查方法的主题词和副主题词组配模式进行分析,抽取出与之有关的、有效的语义关系搭配模式,并以文献和教科书为标准对结果进行检验,从而为文献检索和建立知识库提供依据。,PageRank,PageRank是,Google,算法的重要内容。,2001年9月被授予美国专利,专利人是Google创始人之一Larry Page。,PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。,PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”,衡量多少人愿意将他们的网站和你的网站挂钩。,PageRank这个概念引自学术中一篇论文的被引的频度,即被别人,引用的次数越多,一般判断这篇论文的权威性就越高。,内容,数据挖掘的定义,知识发现的过程,数据挖掘的种类,数据挖掘的算法,关联规则挖掘,PageRank,文本挖掘的流程,自然语言处理,命名实体的识别,关系抽取,Swanson,的早期探索,文本分类和聚类,文本挖掘的流程,数据源,源文本,结构化数据,知识或模型,知识,检索,预处理,挖掘,评价,文本特征提取,文本转换,文本特征表示,评测语料集、,评测指标、,评测会议,文本分类、文本聚类、,共现分析,关联识别,围绕,Medline,的文本挖掘,Medline,检索,胃癌文献,主题词,抽取,转换,C04.,挖掘,模式,12,知识,解释,自然语言处理,Natural Language Processing,NLP,无结构的自然语言,结构化的数据,自然语言处理的系统,MedLEE系统,:用于抽取、构建和编码来自于病人报告文本中的临床信息,所得到的数据可以用于进一步的自动化处理。,MetaMap,:,lucid.cpmc.columbia.edu/medlee/,Semantic Knowledge Representation,SKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。,mmtx.nlm.nih.gov/,其中,MetaMap,是,SKR,系统的核心组件。,MMTx,是完成,MetaMap,功能的,Java,工具包,它进行的分析是语义层次上的分析。,MetaMap,工作原理,complication of myasthenia gravis”(重症肌无力的眼部并发症),“ocular complication”和“of myasthenia gravis”,“ocular complication”分为“mod(ocular),head(complication),MetaMap,工作原理:,产生变形体,Ocularadj,0=”,Eyenoun,2=”s”,同义词,Eyesnoun,3=”si”,同义词的复数,Opticadj,4=”ss”,同义词的同义词,Ophthalmicadj,4=”ss”同义词,的同义词,Ophthalmianoun,7=”ssd”,同义词的同义词的变形,Oculusnoun,3=”d”,变形,Oculinoun,4=”di”,同义词的复数,检索候选词及候选词的评价,检索,超级词表,,检索到包含有至少一个变形体的候选字串集合,。,计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度,:,中心度,:即包含中心词;,变形情况,:距离倒数的平均值;,覆盖面和内敛度,:测量候选词与文本的匹配程度和有多少个片段,按照匹配程度排列这些候选词。,中文自然语言处理工具,中国科学院,-计算技术研究所数字化室软件室-中文自然语言处理开放平台 Entity Recognition,NER)就是将其从文本数据中识别出来。,它的主要任务包括从文本中识别命名实体,确定该实体的类型,以及出现多个实体表示同一事物时,选择一个代表该组。,命名实体的识别:意义,生物医学命名实体识别比传统意义上的,NER更具挑战性:,生物医学领域新名词的不断涌现;,首字母缩写构成的基因名称被广泛认可,造成不同的基因具有相同的名称。,命名实体的识别:方法,方法可分为以下三类:,基于字典的方法,与字典词条进行比对匹配,但是不存在一部完整的包含了所有生物医学领域命名实体名称的词典。,基于规则的方法,按照定义的规则将实体与其他文本数据区分开来。,基于统计的方法,从样例数据集合中统计出相关特征和参数,以此建立识别模型,最终识别出测验文本的命名实体,也称基于机器学习的方法,。,命名实体的识别:系统,SciMiner,jdrf.neurology.med.umich.edu/SciMiner/,关系抽取:定义,Relationship Extraction,RE,目标:检测一对特定类型的实体之间有没有预先假设的关系。,生物医学文本挖掘抽取的就是基因、蛋白质、药物、疾病、治疗之间的关系。,关系抽取:方法,基于模版的方式:从已知的实体周围的文本中归纳出模式,再利用这个模式对测试语料集的文本进行模式匹配。,基于统计的方法:通过寻找经常一起出现(多于随机出现)的实体而识别出关系。,基于自然语言的方法:把自然语言分解为可从中提取出关系的结构。,SemRep,ablation of pituitary gland(垂体腺切除),head(ablation)-prep(of),head(pituitary gland),ablation-,Excision,NOS(Therapeutic or Preventive Procedure,Research Activity),pituitary gland-,Pituitary Gland(Body Part,Organ,or Organ Component),SemRep,句法分析,:查询规则,认为介词“,of,”表示的是语义网络中的“,LOCATION_OF,”关系,,注明该谓词的语义网络关系是:,Semantic Type 1:Body Part,Organ,or Organ Component,Relation:LOCATIO N_OF,Semantic Type 2:Therapeutic or Preventive Procedure,Pituitary Gland-LOCATION_OF-Excision,NOS,SemRep,We used,hemofiltration,to treat a patient with digoxin overdose that was complicated by refractory hyperkalemia,Hemofiltration-,TREATS,-Patients,Digoxin overdose(disorder)-,OCCURS_IN,-Patients,Hyperkalemia-,COMPLICATES,-Digoxin overdose(disorder),Hemofiltration-,TREATS(INFER),-Digoxin overdose(disorder),EDGAR,Extraction of Drugs,Genes and Relations,用于在MEDLINE中确定药物、基因关系的程序。,它以前面几项工具为基础,以癌症治疗有关的药物和基因作为研究的主要领域,从文本中确认药物、基因和细胞株的名称。,ARBITER,Assess and Retrieve Binding Terminology,从生物医学文本中抽取大分子键联关系,Swanson的早期探索,Don R,Swanson,目前是美国芝加哥大学的信息科学荣誉教授,他于,1986,年首次在医学文献研究中发现了非相关互补文献。,闭合式,开放式,arrowsmith.psych.uic.edu,Arrowsmith,可作为生物武器的潜在病毒,能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。,A,:病毒毒力遗传方面(,virulence-genetic,),C,:病毒疾病传播力,病毒的昆虫媒介传播(,insect vectors,),空气传播(,air,),在空气中的稳定性(,stability of viruses in air,),通过与,A,和,C,有共同联系,B,找出更多符合条件的病毒。,将得到的文献经过一些系列的处理,,Arrowsmith,列出了三个有意义的,B-LIST,(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(,B,),发现科研机构间潜在的合作方向,利用,Arrowsmith,程序,发现美国斯坦福大学和哥伦比亚大学在医学信息学研究领域的潜在合作方向,尝试将这种方法运用到寻求发现科研机构合作与交流的领域中。,结果表明,利用,Arrowsmith,所挖掘的科研合作与交流的内容详细、明确,能体现出研究所使用的具体方法和侧重点,能更好地体现出两个机构研究内容的相似点(可以合作之处)和不同点(可以相互交流、学习之处)。,BITOLA www.mf.uni-lj.si/bitola/,开放式与闭合式,输入单个的概念(疾病,A,),找到该概念的第一层相关概念并加以归类(药物,B,)。,从第一层相关概念(药物,B,)出发,找到它们的相关概念,并加以归类(基因,C,)。,检验,基因,和,疾病,是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。,提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。,本分类和聚类,文本分类(Text classification)就是将文本自动归入预先定义好的主题类别中,是有监督的机器学习方法。,Web文档分类,电子邮件过滤等。,文本分类和聚类,文本分类步骤:,获取训练文本集,,选择分类方法并训练分类模型,,用分类模型对其他文本进行分类,,根据分类结果评估分类模型,文本分类和聚类,文本聚类(Text Clustering)是根据文本数据特征的不同将一组对象集合按照相似性归纳为不同类的过程。,与文本分类的区别就是聚类的对象没有类别标记,是根据聚类算法自动确定的。称为无监督的机器学习方法。,文本分类和聚类,文本聚类的步骤有:,获取结构化的文本集,,执行聚类算法,,获取聚类谱系图,,选取合适的聚类阈值。,共现分析,同被引和书目对,词共现,作者共现,共现的泛化,同被引和书目对,同被引,强度,幅度,书目对(引文耦合),强度,幅度,co-citation graph of 394 articles,“the DNA/RNA and proteins of research papers”,词共现,词:,关键词、主题词、自由词,共现:,同一篇文章、同文摘、同句子(标题),直接反映了概念(知识单元),拆散了文章。,词共现,作者共现,共现的泛化,作者同被引,共现的泛化,期刊同被引,共现的泛化,共现的泛化(篇内与篇间),作者,1,,,2,,,3,作者单位,1,,,2,,,3,标题,期刊,摘要:词,1,,,2,,,3,主题词,1,,,2,,,3,分类号,1,,,2,,,3,引文,作者、期刊、年代,作者,作者单位,标题,期刊,摘要,主题词,分类号,引文,作者、期刊、年代,基于共现的聚类分析,聚类分析,基本原理和种类,工具及参数选择,聚类结果,基于共现的文本挖掘分析,高被引论文的同被引共现分析,高频主题词的共现分析,聚类分析cluster analysis,是将数据集划分为若干组或类的过程,使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。,聚类和分类,分类,知道训练样本的分类属性,将数据对象分到不同的已知类,。,聚类问题中,划分的类未知,将数据对象分组成不同类,需在训练样本中找到,该类别属性。,数据矩阵,属性,1,属性,2,属性,3,属性,4,属性,m,对象,1,对象,2,对象,3,人数,经费,发表论文,课题数,计算机数,中国医学科学院医学信息研究所,北京市公共卫生信息中心,江苏省医药信息网,引文-被引文矩阵与共词矩阵,高被引论文,1,2,3,4,6,8,11,2016,ALBANESE MA,1993,ACAD MED,V68,P52,1,1,0,1,0,0,1,1,BARROWS HS,1980,PROBLEM BASED LEARNI,1,0,0,1,0,1,1,0,VERNON DTA,1993,ACAD MED,V68,P550,0,1,1,1,1,0,1,1,NORMAN GR,1992,ACAD MED,V67,P557,1,0,1,0,0,1,1,0,BARROWS HS,1986,MED EDUC,V20,P481,1,1,1,0,0,1,1,1,SCHMIDT HG,1983,MED EDUC,V17,P11,0,1,0,0,0,0,0,0,高频主题词,1,2,3,4,6,8,11,2016,阿司匹林,/,副作用,1,1,0,1,0,0,1,1,消化道出血,/,化学诱导,1,0,0,1,0,1,1,0,非甾体类抗炎剂,/,药理学,0,1,1,1,1,0,1,1,阿司匹林,/,毒理学,1,0,1,0,0,1,1,0,鼻息肉,/,病因学,1,1,1,0,0,1,1,1,血小板凝集抑制剂,/,药理学,0,1,0,0,0,0,0,0,相似度的计算,区间标度度量:粗略线性标度的连续度量,比如重量、高度、温度等。,欧几里德距离:,Euclidean,相似度的计算,二元变量:只有两个状态,其中,0,代表(变量所表示的)状态不存在;而,1,则代表相应的状态存在。,出现(,1,),不出现(,0,),出现(,1,),a,B,不出现(,0,),c,d,高频主题词,1,2,3,4,6,8,11,2016,阿司匹林,/,副作用,1,1,0,1,0,0,1,1,消化道出血,/,化学诱导,1,0,0,1,0,1,1,0,非甾体类抗炎剂,/,药理学,0,1,1,1,1,0,1,1,阿司匹林,/,毒理学,1,0,1,0,0,1,1,0,鼻息肉,/,病因学,1,1,1,0,0,1,1,1,血小板凝集抑制剂,/,药理学,0,1,0,0,0,0,0,0,相似矩阵,聚类分析方法,基于划分的方法,(,partitioning,),k-平均算法,K-中心点算法,基于层次的方法,(,hierarchical,),分解,凝聚,基于密度的方法(,density-based,),基于网格的方法,(,grid-based,),基于模型的聚类方法,(,model-based,),类间距离的测量,最小距离,最大距离,平均距离,SPSS中的聚类分析方法,聚类树图,聚类结果的解释,牢记聚类的原理:最相近的成为一个类别。,用什么表示它们相近呢?,是用,聚类的指标:聚类的对象因为什么被聚类到一起的?是因为共现和同被引的次数。,为什么共现或者同被引呢?,因此,要用原始的属性数据来解释。,牢记聚类步骤:系统聚类方法,所以最先聚类的是最相似的,因此也是最可靠的。而在聚类的最后阶段,某一个词或者文章分配到某一个类的偶然性就很大了。,因此在结果分析上,把握从中心向外逐步推进的原则,,聚类结果的解释,词共现:词与词之间的组合代表了什么语义关系?通过到相应的数据库检索含有共现词对的文献,分析文献中共现词对的关系。,关联规则。,同被引:是因为它们同时被后来发表的论文引用才聚集到一起的。可以:,人工,:阅读同类论文的标题、文摘甚至全文,分析这些文献的共同之处;同时,还要站在全局的角度,分析这一类的论文在主题上与其他类别的不同之处。,辅助的方法:有条件的话,分析同类别论文的词频,高频词表示该类的主要内容。甚至采用向量空间模型来区分各个类别在主题内容上的特色。,展望:共现矩阵的应用,高频词的共现,战略坐标,高被引论文的同被引共现,新颖度和关注度,研究历史的表达,高被引作者的同被引,学科结构,社会网络分析,面向生物信息学的应用,可视化的研究:多维标度、主成分分析等等。,
展开阅读全文