1、北京科技大学本科生毕业设计(论文)目录目录1摘 要3Abstract4第一章 绪论71.1 课题提出的背景及研究意义71.2 相关研究的现状81.2.1 高血压领域的研究现状81.2.2 关联规则的研究现状91.3 本课题的主要研究目标10第二章 数据挖掘技术研究112.1 数据挖掘技术及其在中医药研究中的应用112.1.1 数据挖掘简介112.1.2 数据挖掘的功能概述142.1.3 数据挖掘技术在中医药研究中的应用162.1.4 数据挖掘和传统数据分析工具和学习机器的区别182.2 关联规则192.2.1 关联规则介绍192.2.2 关联规则的有关定义202.2.3 关联规则的分类2323
2、 挖掘关联规则的经典算法介绍242.3.1 AIS算法252.3.2 APRIORI算法252.3.3 不产生候选挖掘频繁项集算法28第三章 中医医案分析系统的实施及结果分析323.1 系统体系结构323.2 功能模块333.2.1 原始数据录入333.2.2 中医医案模型创建模块353.2.3 模型浏览模块353.3 数据存储结构的设计363.4 算法设计的基本思想及实现过程393.4.1 算法设计的基本思想393.4.2 Apriori算法的实现过程393.5 算法运行结果403.6 结果评价及性能分析413.6.2 对高血压医案模型进行分析413.6.3 对Apriori算法进行性能分析
3、42第四章 总结与展望454.1 总结454.2 展望45参考文献46在学取得成果48致谢4910摘 要名老中医宝贵的临床经验是中医学术与临证思维相结合的产物。中医临证辨治是以中医视点采集信息、以中医思维处理信息,并据此施以中医治法的过程。中医知识的代代相传多为言传身教,无形中为中医的知识的传播与造福大众制造了阻碍。利用数据挖掘正好能够解决中医药特色研究中所遇到的关键问题和技术难题。中医学经过长期的发展积累了大量的关于临证经验及治法、方剂、药物和相关知识等信息的历史文献。采用数据挖掘的方法来研究继承名老中医临床经验,挖掘整理其学术思想,创新研究方法,结合应用数据挖掘技术、机器学习技术等智能化技
4、术,力求获得名老中医真实的经验,便于传承者学习。本文的主要研究工作如下:1、深入分析和探讨了典型的关联规则挖掘算法Apriori算法,在此算法的基础上完成数据库挖掘的基本构思。2、在Windows XP平台上Visual BAS工C6. 0的环境下,采用Apriori算法,开发了基于数据挖掘的中医高血压医案分析系统。3、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2001年1月一2005年10月中国中医研究院基础所胸痹急症研究室主任、国家中医药管理局医政司胸痹急症协作组组长沈绍功先生医案65份为医案来源,以高血压病为例,采用Apriori算法进行频繁项集的搜索,所得医案模型几乎完
5、全符合沈教授在治疗高血压病时常用的处方。本文提出的高血压诊疗系统,只在辅助高血压的诊断和治疗,是依靠人工技能及计算机技术对高血压诊断和治疗工作的一次尝试与探索。突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,开创了应用计算机辅助分析名老中医经验的新思路和新方法。希望能对后续的从事相关研究的人员提供有益的借鉴。关键词:关联规则;Apriori算法;数据挖掘;用药规律;名老中医经验AbstractFamous TCM valuable clinical experience is Chinese medicine academic and clinical medicine card
6、product of the combination of thinking. TCM Clinical Treatment is the process of gathering information by the viewpoint of TCM, Chinese medicine thought to process information, and accordingly imposes the healing method. Chinese medicine knowledge from generation to generation, mostly words and deed
7、s, virtually for the dissemination of knowledge and the benefit of the public medicine made obstacles. Just using data mining addresses key issues and technical challenges in the study of Chinese medicine characteristics . After a long-term development of Chinese medicine has accumulated a great dea
8、l of clinical experience, treatment, prescription drugs, and other information relevant knowledge about the history of literature. using data mining methods to study inherit old TCM clinical experience, digging finishing their academic thinking, innovation and research methods, combined with the app
9、lication of data mining technology, machine learning technology and other intelligent technology, and striving to get the real experience of old TCM, easily inheritors learning.The main work is as follows:1 in-depth analysis and discussion of the typical association rule mining algorithms Apriori al
10、gorithm, complete the basic idea of the database mining on the basis of this algorithm.2 Visual BAS work on Windows XP platform C6. 0 environment, using Apriori algorithm, developed analysis of medical records system ,based on data mining for TCM hypertension. 3 based on considering the reliability,
11、 accuracy and integrity of the original data this study, the foundation of the China Academy of TCM Thoracic Obstruction emergency. From January 2001 to October 2005, research Director State Administration of Traditional Medical Administration chest stuffiness and emergency coordination team leader
12、Mr. 65 copies of medical records Medical Records are used for the Source of hypertension, for example, using Apriori algorithm to search frequent item sets, The resulting medical case model is almost exactly in line with commonly prescribed when professor Shen is in the treatment of hypertension. In
13、 this paper, hypertension treatment system, only in the diagnosis and treatment of secondary hypertension, is the first attempt and exploration to rely on manual skills and computer technology to the diagnosis and treatment hypertension .Break the previous simple application of finishing, inductive
14、method summarizing the experience of old TCM traditional thinking , created new ideas and new methods using a computer-aided analysis of old TCM experience Hope to provide a useful reference for subsequent personnel engaged in related research.Keywords: association rules; Apriori algorithm; data min
15、ing; drug laws; famous TCM experience第一章 绪论1.1 课题提出的背景及研究意义心脑血管疾M(Cardiovascular Disease, CVD)是全球威胁人类健康的重大疾病,已成为我国居民的首位死因。心脑血管病的发病和死亡一半以上与高血压有关,同时居民脑卒中和冠心病发病最重要的危险因素也是高血压,所以控制高血压是防治心脑血管病、脑卒中和冠心病的关键。我国居民高血压患病率持续增长,1991年全国患病人数约为9000万。中国居民2002年营养与健康状况调查显示,18岁以上居民高血压患病率为18.8%,全国患病人数大约1.6亿多。中国高血压防治指南(200
16、9年基层版)中估计我国现高血压患者2亿人,10个成年人当中就有2个患有高血压,在高血压患病率持续增长的同时,高血压病人的知晓率和治疗率也处于一个很低的水平。高血压是一种慢性疾病,病人都需要接受长期治疗。治疗高血压最有效的方式是药物治疗,药物治疗就需要医生开具处方,从而产生了大量的纸质处方的存储和查询问题。随看计算机网络技术的成熟,我国医疗卫生信息化建设不断深入,全国的医疗机构也都开始建设自己的医疗信息化系统,其中电子处方作为推行医疗信息化建设的必然产物和医疗信息化建设的重要组成部分将得到广泛的运用。中医药是中华民族的瑰宝,进行中医药的数据挖掘是中医药现代化研究的重要组成部分,是对中医药几千年沉
17、淀的宝贵历史数据进行去伪存真、去粗取精的过程,也是为更好地推进中医药的发展,保持其优势与特色的重要方法。中医药在漫长的发展过程中形成了自己独特的理论和诊疗经验,中医医案中的方、药、证之间的关系错综复杂,在一定程度上保持了中医药系统的特色,但也成为中医药走向世界的障碍。大量的医案散见于文献刊物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。总结其经验,继承其学术,既是今天振兴中医药事业的需要,也是历史赋予我们的重任。目前,对名老中医的学术思想和临证经验尚停留于口授、身教、整理、归纳阶段,带有一定的主观成份,缺乏全面系统的整理与统计,学者搜寻不易,难以为广大医务工作者借鉴应用。
18、本课题对数据挖掘技术在中医药方面的应用进行了有益的探索,设计并实现了基于数据挖掘的中医医案分析系统,通过收集治疗典型病例的众多医案,从大量有噪声、不完整甚至是不一致的数据中,挖掘出典型病例的中医用药规律,突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,为中医临床治疗、中医药教学及中成药的研制提供参考,开创了应用计算机辅助分析名、老中医经验的新方法。1.2 相关研究的现状1.2.1 高血压领域的研究现状高血压作为全球人类最常见的慢性病,中华人民共和国卫生部疾病预防控制局、卫生部心血管病防治研究中心出台了中国高血压防治指南(2009年基层版),指南中估计我国现有高血压患者2亿人,严重了
19、我国居民的身心健康。为了有效防治高血压,领域学者对高血压做了多方面研究,主要集中在几个方面:(1)对高血压患病率的统计。文献中指出我国成年人高血压患病率为18.8%。15岁以上患病率为17.6%。高血压的患病率跟年龄和经济发展水平有关。(2)对成年人高血压知晓率和治疗控制状况的统计。高血压的患病率持续增长,同时高血压的知晓率和治疗率也处于一个很低的水平。文献中指出我国高血压患者的知晓率和患病率只30.2%.、24.7%,这对高血压的治疗带来了很大的困难。(3)借助数据仓库、数据挖掘和人工智能等计算机技术对高血压的病因、发病机制和高血压的防治的研究.例如对同时患有糖尿病和高血压的患者选择强化降压
20、还是强化降糖的研究、尿酸与高血压前期关系的研究、血脂与高血压关系的研究等。国外的Thusitha等人认为高血压病人要想达到降血压的目的,必须坚持接受药物治疗。并对病人的不坚持服药的心理和原因进行了分析,然后找到了一种鉴定病人不坚持服药的方法。同时,为了增强全科医生的查询能力,更好地提醒病人按时服药,Thusitha等人还开发了一个基于本体的查询方法。1.2.2 关联规则的研究现状随着信息化时代的到来,多种行业积累的数据正在以指数式增长,数据的存储随着计算机硬件和数据库技术的不断成熟己经得到了有效解决,但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为
21、各个行业决策者的强烈需求。随若数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。信息的需求带动了对信息挖掘分析工具的需求,数据挖掘(Data Mining, DM)技术应运而生。关联规则挖掘是数据挖掘的一个重要研究课题,它反映了一个数据集中数据项之间的依赖或相互关联,是数据挖掘领域的一个重要分支,它是由R.Agrawal等人于1993年首次提出。关联规则最初应用于购物篮分析,用于发现商品交易数据中的被顾客频繁购买的商品、顾客的购买习惯和不同商品之何的联系。由于关联规则技术易于理解并且实际应用效果非常理想,所以在关联规则提出后的几年中学者和研究
22、人员对它做了大量的研究工作,现在对关联规则的研究主要集中在以下两个方面:(1)优化原来的算法或提出更高性能的算法.这其中包括Agrawal本人对Apriod算法提出的改进算法AprioriAl和ApriodTid,其他研究人利用并行挖掘技术、散列技术、分区技术对Apriod算法提出的优化算法.(2)把关联规则的概念应用到其他的领域。现在关联规则技术被广泛应用于金融、保险、电信、医学研究等领域。在医学领域中,关联规则主要用来寻找症状和疾病之间的关联、疾病和治疗标准之间的关联、药物和不良反应之问的关联,从而辅助疾病的诊断和治疗。刘宏强利用Apriori算法发现了冠心病和影响它发病的可能因素之间的关
23、联,用于辅助冠心病的预防和诊断。赵连朋利用关联规则技术发现病人的处方和药品之间的关联,以监督医师合理用药。马丽伟把关联规则算法应用到中医药数据挖掘中,发现了具有临床参考价值的症状间、处方间的关联和症状-处方药物间的关联。高血压病人的电子处方记录中也隐藏了很多关联,因此把关联规则技术应用到电子处方中也应该会得到抗高血压药物间、药物-血压间的一些关联,这些关联可用于辅助高血压的诊断和治疗。1.3 本课题的主要研究目标本文的研究目标是设计一个高血压的辅助诊断和治疗系统,目的是帮助用户诊断是否患有高血压,为确诊的病人提供一个合适的治疗方案,从而提高病人的知晓率和治疗率,最终提高全社会对高血压的防治水平
24、。该系统利用了数据挖掘中的关联规则技术、本体的构建方法和本体理论的知识表达与推理技术。本文的研究内容包括:1、深入分析和探讨了典型的关联规则挖掘算法Apriori算法,在此算法的基础上完成数据库挖掘的基本构思。2、在Windows XP平台上Visual BAS工C6. 0的环境下,采用Apriori算法,开发了基于数据挖掘的中医高血压医案分析系统。3、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2001年1月一2005年10月中国中医研究院基础所胸痹急症研究室主任、国家中医药管理局医政司胸痹急症协作组组长沈绍功先生医案65份为医案来源,以高血压病为例,采用Apriori算法进行
25、频繁项集的搜索,所得医案模型几乎完全符合沈教授在治疗高血压病时常用的处方。北京科技大学本科生毕业设计(论文)第二章 数据挖掘技术研究2.1 数据挖掘技术及其在中医药研究中的应用2.1.1 数据挖掘简介随着Internet的不断发展,信息化时代的到来,像超市、保险公司、医疗机构等多个行业积累的数据正在以指数式增长。数据的存储随着计算机硬件和数据库技术的不断成熟已经得到了有效解决。但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。比如超市的经营者希望获得哪些商品经常被顾客同时购买,保险公司希望得到购买保险的客户的特征,医疗机构研
26、究人员希望找到影响某种疾病思病率的因素.随着数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。信息的需求带动了对信息挖掘分析工具的需求,数据挖掘(Data Mining, DM)技术应运而生。数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database, KDD)是通过仔细分析大量数据提取有意义的新的关系、趋势和模式等新知识的过程。从商业角度来看,数据挖掘是对既定的业务目标,从大量的企业数据中发现未知的规律或者验证己知的规律,并进一步模型化,从而获得辅助商业决策、解决商业向题的关键数据的方法.ISL, NCR
27、, DaimlerChrysler三家公司在1996年制定了数据挖掘的交叉产业标准过程(CRISP-DM) ,它强调数据挖掘在商业中的应用,是数据挖掘应用商业的通用流行标准之一。数据库系统的参考模型的如下图2-1所示:用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据清理、集成和选择数据库数据仓库万维网其他信息储存库知识库图2-1 典型数据挖掘系统的结构其主要成分有数据库、数据仓库或其它信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。1、数据库、数据仓库和其它信息库数据库、数据仓库和其它信息库是进行数据挖掘的数据源,可以在它们的数据上进行数据清理和集成。2
28、、数据库或数据仓库服务器根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。3、知识库知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。3、数据挖掘引擎数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。4、模式评估模块通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚集在有趣的模式上。它可能使用兴趣度闽值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。5、图形用户界面图形用户界面在用户和
29、数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构、评估挖掘模式。从技术角度来讲,数据挖掘是从大量的、真实的、有噪声的、校糊的、不确定的相同或不同的数据集中,提取隐藏的,事前不为人知的但又有用的潜在知识的过程。从数据挖掘技术上的定义可以看出,数据挖掘的原始数据必须是大量的真实数据,挖掘出的知识是用户感兴趣的并对用户有价值的数据,用户可以理解、接受并应用这些知识。数据挖掘是利用区别于传统的统计方法从大量数据集中获取深层次的知识的过程。挖掘出的知识,可以是概念、
30、规则、规律和约束,这些知识可以用来指导决策者做出正确的决策和预测事物发展的趋势。从数据中挖掘出有用的知识是一个往复循环的过程,首先要确定合适的挖掘目标,然后抽取所需要的数据,选取相应的挖掘算法进行数据挖掘,最后对生成的知识进行评估,如果对挖掘出的只是不满足用户的要求,则整个挖掘过程需要退回,重新选取数据,甚至改变挖掘算法,直到满足要求为止。数据挖掘的步骤如图2-2所示:问题定义数据抽取数据预处理模式评估数据挖掘选择模式图2-2 数据挖掘的步骤2.1.2 数据挖掘的功能概述数据挖掘的最终目标是描述和预测,描述是规范当前存在的事实,找到数据可理解的一般特征,预测是利用数据库中的历史和当前的已知变量
31、与字段预测未来感兴趣的其他变量或字段的未来的值。数据挖掘功能可发现多种不同的知识模式,根据发现知识的不同可以从以下6个方面描述数据挖掘的功能。1、概念描述:区分和特征化数据的概念描述(Concept Description)包括数据区分(Data Discrimination)和数据的特征化(Data Characterization)。数据区分是发现或提取目标数据的某些特征或属性与其他数据的特征或属性相比较,用于描述不同数据之间的区别。例如,分别提取两张不同疾病的症状,利用这些症状就可以区分这两种疾病。数据特征化是对口标数据的总体情况的描述,提取数掘的一般特征或特性的汇总。2、关联分析关联分
32、析(Association Analysis)就是从目标数据中发现数据项之间存在的依赖关系,关联分析又称为关联规则.关联规则通过找出频繁地在目标数据集中一起出现的数据项来发现隐藏在不同数据项之间的某种因果关系。关联规则被广泛地应用到商业领域,通过分析交易数据来指导销售和制定市场决策.比如人们熟知的“啤酒和尿布”的故事就是从超市的交易数据中分析得出的频繁项集。3、分类和预测分类(Classification)是指构建一个分类模型或函数,这模型或函数能够把各个数据项映射到预定义的类别。分类包括模型的创建和模型的使用两个过程。通过对预先定义的各个类的训练数据的进行分析,从每个类的训练数据中发现共性得
33、出这个类的描述从而建立分类模型,然后使用分类模型对新的数据进行分类。分类方法有决策树、分类规则、神经网络、粗糙集等。例如,根据病人的症状和己建立的疾病分类规则可到定病人患病的种类。预测(Prediction)是利用训练数据建立模型,该模型可以获得新输入数据的未来变化的趋势或评估数据的属性值的分布范围。4、聚类分析聚类分析(Clustering Analysis)是将抽象对象或物理对象的数据集中类似的对象聚合为一类的过程。每个数据集包括若干个类,各类之间数据对象相似程度极低,每个类内部的对象相似程度很高。聚类分析的方法不同于分类预测,分类预侧是在预定义类别的前提下训练数据找出类的总体特征或属性,
34、然后再根据每个类的特征或属性和分类锐型对新加入的数据进行分类,属于有教师监督学习方法:聚类分析方法直接从数据集中抽象出相似程度高的对象聚合为一类,属于无教师监督的学习方法。6、孤立点分析孤立点(Outlier)是指与数据的一般行为或模型不一致的数据对象。大部分的数据挖掘算法都将孤立点视为噪声,在数据预处理阶段就被过滤掉了。但是罕见或意想不到的事件有时候比正常的事件更有价值。比如发现病人对治疗方式的不良反应校式,在欺骗检测中孤立点可能预示着欺骗行为模式。6、演变分析演变分析(Evolution Analysis)是描述事件或对象的行为基于时间或共他序列变化的规律或趋势,并对其建模.演变分析主要包
35、括序列或周期校式匹配、机遇类似性的数据分析和时间序列数掘分析。比如,可以利用演变分析方法获得整个股票市场的变化规律,发现的规律可指导股民投资。2.1.3 数据挖掘技术在中医药研究中的应用数据挖掘技术只有十多年的发展时间,但其应用十分广泛。在商业、金融业、工业中都有成功的应用例子,取得了一定的经济和社会效益。数据挖掘技术在中医药研究领域中的应用刚刚起步,但己经表现出了很好的势头,目前数据挖掘技术在此领域中的应用主要表现在以下几个方面。1、在中医药信息化研究中的应用对中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一。从中医诊断、辨证到组方的各个环节,用文字语言描述的过程占很大比例,使得定
36、性内容相对多一些。当中医药在实现以计算机技术为主要工具的信息化研究时,这种定性信息的量化常常会遇到相当的困难,即使是原先有量化信息的用药剂量,也因不同中药有效成分含量的差异而失去了原先的意义。因此,对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘技术来实现。可以采用特征抽取的方法,或者采用聚类的方法描述某些相似病症的内容,找出其中隐含的相似关系。2、在中医药专家系统研究中的应用计算机和人工智能技术在中医药研究中最普遍的应用是各种专家系统,如关幼波肝病专家系统等。专家系统是一种面向特定对象的决策支持系统(Decision
37、Support System, DSS),它根据专家对某种疾病的认识及多年积累的治疗经验,在建立相应知识库的基础上,采用各种推理方法模拟专家进行疾病的诊断和治疗。对于一个专家系统来说,实际诊断成功与否的关键取决于它的知识库中知识的完备程度,而仅凭中医专家的口授心传和系统设计者的领悟,往往难以满足专家系统知识库的要求,而且相对简单的推理往往也难以体现出人最活跃的主观能动的部分,知识的获取途径和表示方法因此成为限制专家系统发展的瓶颈。而数据挖掘可以在大量经验中发现隐含的、客观有用的新型知识,这对于丰富专家系统的知识库将起到积极的作用。3、在中医药基础理论研究中的应用数据挖掘不仅在中医药临床实践中有
38、广泛的应用,也可应用于中医药基础理论的现代化研究中。如中药药性理论的现代化研究,中药药性理论是中药配伍应用的核心内容之一,其内容完善的程度将直接影响到组方的准确性和治疗的有效性。中医对于中药药性的认识是一个逐渐积累和完善的过程,至今还存在某些药物的药性不完整的情况,如华山参的药性特征为只有性味而无归经;对于中药的功效归类也因专家对药物认识程度的不同,而导致同一药物分属于不同类别,甚至功效分类名称也不统一的情况。数据挖掘技术可以在分析大量历史数据的基础上,协助中药药性的完善研究。如数据挖掘中的分类方法可以依据药性特征的辨识结果,将一些还未归类的中药进行分类预测;也可用聚类方法将药味聚类后,根据同
39、类药物的药性相近,归类也应相近的特点进行分类预测;用决策树和关联规则分析可以自动对药物进行功效分类与其药性特征之间的关联模式或规则研究;粗糙集理论可以实现对药物分类的简化药性特征研究等。进行中药药性特征的数据挖掘研究,对中药复方配伍的科学规律研究有着重要意义。4、在中药化学研究中的应用中药发挥作用的物质是其所含的化学成分,在中药中提取有效成分直接用于新药开发或作为先导化合物,经过结构修饰或改造后进行合理药物设计,然后开发为新药的途径,己成为现代新药开发的热点。中药化学成分一般较人工合成的成分复杂,具有相同药效的成分往往具有相似的活性基团和比较稳定的活性构象。因此通过对大量中药化学成分的二维和三
40、维构象分析,以及结构与活性之间关系的分析,进行药效基团的建模研究,并实现对中药化学成分数据库的柔性搜索,为更充分利用中药化学成分提供技术支持。如利用分子对接技术(DOCK)在进行受体与配体结合分析的基础上,建立对应结构类型不同配体的构效方程和它们的结合模式;比较分子力场分析(COMFA)和定量构效关系(QSAR)的结合可以在提取大量分子共同活性结构模式的基础上,揭示出化合物之间的联系和潜在特征以及与生物活性之间的关系,并可实现对成分数据库和活性数据库中有价值信息的挖掘。5、在中医医案方面的应用中医医案在中医药科学中扮演着非常重要的角色,大量的医案散见于文献刊物中,散见于名老中医的案头,他们的学
41、术经验是中医药事业的一笔巨大财富。但“百花齐放、百家争鸣”的局面使得医案经常出现药味和药量千差万别的情况,无法形成中医在整体上对疾病规律统一的认识。应用数据挖掘方法对众多中医专家的宝贵经验进行全面整理和挖掘,将会比较全面地获得对中医药基础理论和临床实践规律的统一的认识。其中决策树、关联规则和面向属性的归纳方法可以在不同配伍层次(单味药、药物功效分类等)上分析药味配伍的模式或规则。6、在中医药其他方面的应用数据挖掘技术不但可以应用到中医药研究中的上述方面,而且在研究中医病证与复方组方的关系、中医症候与现代医学临床表现之间关联的关系以及中医药信息数据仓库的开发研究等方面都可以得到广泛应用。2.1.
42、4 数据挖掘和传统数据分析工具和学习机器的区别对于在线分析OLAP (On Line Analytical Processing),用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如一个分析师想找到是什么导致拖欠贷款,他可能先做一个初始假设,认为低收入的人信用也低,然后他可以用OLAP来验证他的假设,如果这个假设没有被证实,他可能去查看那些高负债的账户,如果还不行,他可能要把收入和负债一起来考虑,继续进行下去直到找到他想要的结果或放弃。也可以这么说,OLAP分析师是建立一系列的假设,然后通过OLAP验证或推翻这些假设来最终得到自己的结论。OLAP过程本质上是一个演绎推理
43、的过程。数据挖掘与OLAP相比其不同之处在于数据挖掘不是用来验证某个假设的模式(模型)的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的过程。举个例子,一个用数据挖掘工具的分析,想找到引起贷款拖欠的因素,数据挖掘可以帮他找到高负债和低收入是引起这个问题的因素,甚至还能发现一些分析师从没想过或试过的其它因素。概括说来,数据挖掘与传统的数据分析(如查询、报表、联机分析处理)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有原先未知、有效和实用三个特征。先前未知的信息是指该信息是预先未能预料的。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至
44、是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘是从现实世界中存在的一些具体的数据中提取知识,这些数据在数据挖掘出现之前早己存在;而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许毫无意义。由于数据挖掘使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此数据挖掘算法的效率和可扩充性就显得尤为重要;此外,数据挖掘所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,如何将这些数据加工成算法可以接收的数据也需要进行深入的研究;再者,数据挖掘可以利用目前数据库技术所取得的研究成果来加快挖掘过程,提高挖掘的效率。最后,由
45、于数据挖掘处理的数据来自于实际的数据库,而与这些数据库数据有关的还有其他一些背景知识,这些背景知识的合理运用也会提高算法的效率。2.2 关联规则2.2.1 关联规则介绍数据挖掘所发现出的知识种类中关联规则的应用是目前数据挖掘领域中研究最为广泛的课题之一。关联规则是描述数据库中数据项之间潜在关系的规则。关联规则挖掘的一般对象是事务数据库,起初主要应用于零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易更完整,从而存储了大量交易资料,关联规则是通过辨别这些交易资料,来分析顾客的购买模式。根据关联规则提供的信息可以用做商品销售目录设计、商品布置、针对性的营销等。1993年Agr
46、awal R.等人首先提出了挖掘顾客交易数据库中项集的关联问题,并于1994年提出了挖掘关联规则的经典Apriori算法。后来有不少学者对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有Aprior算法进行优化,如引入随机采样、并行的思想、使用哈希方法等,以提高算法挖掘规则的效率,有的为了避免频繁集产生方法的一些缺陷,提出了独立于Apriori算法的挖掘关联规则的新方法,如Jianwei Han等人提出的不产生候选挖掘频繁项集的FP-Growth方法、基于关联图的挖掘关联规则的方法等。2.2.2 关联规则的有关定义设是n个不同项(Item)的集合,表示集合中的第j项。相同的事务的集合构
47、成事务集D。一组项的集合构成一个事务T,使得每一个事物都与唯一的标识符TID相联。设A是一个项集当且仅当时就称事务T包含A。一条关联规则就是一个形如的蕴涵式,其中,。关联规则的实用性由支持度衡量。描述了A和B两个项集同时出现的概率.定义为:support(AB)=P(AB)。关联规则的准确性由置信度衡量,描述了出现A的前提下也出现B的概率,定义为,。最小支持度表示项集的最低实用性,最小置信度表示关联规则的最低可靠性。满足最小支持度min-sup的项集成为频繁项集,同时满足最小支持度min-sup和最小可信度min-conf的规则成为强关联规则。SupportConfidence 关联规则数据挖
48、掘的过程大体为两步,如下图所示,第一步是利用频繁项集搜索算法从事物数据中找出所有大于或等于。up的频繁项集的集合:第二步是根据设定的min-conf从频繁项集产生关联规则。第一步要从大量的事物数据中找出频繁项集,每次执行部要扫描一次数据库,需要耗费大量的时间和空间,所以对关联规则算法的研究工作主要是对第一步算法的优化或改进。描述关联规则属性常用的参数有:1、支持度(Support)支持度S是D中包含的事务百分比,它是概率,即,它描述了A和B这两个物品集的并集在所有的事务中出现的概率。例如,一事务数据库中共有1000条记录,其中同时包含A和B的100条,则关联规则AFB的支持度为100/ 1000100% =10%。支持度表示了规则的频度。满足最小支持度的项集称之为频繁项集。2、置信度(Confidence)