资源描述
数据挖掘及其在中医领域的应用研究
【摘要】 介绍了数据挖掘的意义和任务,综述了近几年来数据挖掘在中医各领域中的应用,分析了目前存在的问题,并探讨了今后的发展趋势。
【关键词】 数据挖掘 中医
随着计算机技术和网络技术的快速发展,在中医药的现代化过程中建立了很多的数据库。堆积在数据库中的信息呈超指数爆炸式增长。例如中医药科技信息数据库就有50个子数据库、110个表单及数百个自动生成的中间表、800余个着录项目,涵盖所有中医药有关医、药及学术的内容。而数据挖掘技术的发展使我们有可能从这些海量数据中发现新的知识,发现数据背后隐藏的关系和规则,还可以对未知的情况进行预测。多学科交叉目前正成为增强科技创新的重要途径,数据挖掘正是从统计学、数据库、机器学习等多门学科中发展起来的。
1 数据挖掘介绍
数据挖掘的定义
数据挖掘(datamining)也称为数据库知识发现,为解决上述矛盾提供了强有力的工具[1]。数据挖掘这一术语出现于1989年,其定义几经变动,本研究中引用Frayyad UM等提出的对数据挖掘的定义[2]。
数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。其中
① 有效性要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才能保证挖掘出来信息的可靠性。
② 新颖性要求发现的模式应该是从前未知的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
③ 潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值和可实现的,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。
④ 最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表达所发现的结果。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。
⑤ 非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的、可能的有用的信息。要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。
数据挖掘的结果通常表示为概念(concepts)、规则(rules)、规律(regularities)、模式(pattern)、约束(constraint)、可视化(visualization)等形式。这些知识可以直接提供给决策者,用于辅助决策过程;或者提供给领域专家,修正专家的已有的知识体系;也可以作为新的知识转存到应用系统中,作为实际事务处理中决策的依据[3]。
2 数据挖掘的任务
数据挖掘的任务主要是预测和描述。预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。描述是指找到描述数据的可理解模式。预测方法有统计分析、关联规则和决策树预测、回归树预测等。其中关联规则反映了一个事务与其他事务之间存在关联,那么就能根据其他已知事务预测到另一个事务。描述性方法主要有数据分类、回归分析、聚类、变化和偏差分析、模式发现等。
3 数据挖掘在中医药中的应用
中医药的发展也需要多门学科的交叉应用。数据挖掘最初在生物医学中的应用是在对基因组测序数据的分析,因为人类基因组计划研究中产生了数十亿的核苷酸和上百万的氨基酸,传统的统计方法无能为力。中医学具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究,而适宜与数据挖掘类似的从整体观上入手的研究方法。数据挖掘可以从海量数据中挖掘出潜在的规律,数据挖掘的结果一部分可能与传统的诊疗规律相符,不符合的部分可能是潜在的新知,也可能是没有意义的,这都需要在相应目标领域专家的指导下进行解释和评价。将数据挖掘(DM)和知识发现(DMKD)应用于中医药领域的研究,是中医药现代化研究的重要组成部分[1],必将促进中医药的发展。而数据挖掘在中药药谱研究和新药开发中取得了一定进展,本研究主要对其在中医以下领域的研究作一介绍。
证实质的研究
中医的“证”又称“证候”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据。证候是中医诊断的核心概念和理论精髓,具有整体性、抽象性、时间性和相对稳定性的特点。现在对证实质的研究多从西医的生理理化指标来揭示证的实质,但实践中却发现缺少证的特异性指标。如果从分子生物学的角度,利用数据挖掘技术对中医证与相关基因的对应关系,可能取得更好的结果。通过研究“证”和基因多态性之间的内在联系,从基因多态性所带来的该基因功能上的变化,由此探寻“证”的相关基因表达谱。
中医诊断
中医诊断过程主要是对证的判定。而现在证的标准不太规范,缺乏定量的标准,而且其分类与描述也存在不同的观点。数据挖掘则可能完成证的规范化研究,也可辅助临床医生对病人进行证的判定。
陈明等[5]尝试运用关联规则发现诊断模式,他把《伤寒论》中的病名、症状、舌脉分别作为数据表建立数据库,挖掘得出规则:发热、恶寒、脉浮太阳病(支持度65%,置信度5%),可以认为发热,恶寒的确是太阳病的诊断依据。
秦中广等[6]运用粗糙集进行中医类风湿证候的诊断,共收集了224个病例,每个病例有81个属性,并从这224个病例中随机抽取学习样本180例,进行预测诊断44例。他们利用属性约简得到寒湿阻络、湿热阻络、痰阏阻络、气阴两虚、寒热错杂5种证的必定规则和可能规则。在44例预测诊断中诊断正确率达到90%以上,高于传统的模糊数学方法,并认为粗糙集有可能是中医诊断研究的动态理想工具。
刘晋平[7]运用数据挖掘的手段对中医脉象进行研究,并开发出初步的软件。以明清、近现代3000余例病案为研究分析对象,将病案分为病名、证型、脉象、舌象及症状几项,然后进行统一化及规范化处理,得出医案中细脉出现频率最高,占%。其脉象软件可以进行脉象与病名,脉象与证型之间的相互关联分析,发现其内在的规律。
4 方剂配伍规律的研究
方剂配伍理论是中药方剂理论的核心,也是研究方剂的关键问题。采用数据挖掘技术进行基于中医药理论的方剂配伍规律研究,既能为中医新药的临床和实验研究提供目标和思路,减少盲目性,缩短研究周期;同时又为大量古今验方研究探索出一条有价值的研究途径和方法[8]。
何前锋等[9]运用高频集挖掘的方法,对中国方剂数据库、中药新药品种数据库、中药成方制剂标准数据库中各方剂药物组成数据进行了分析,分别得到3个库的前20味高频药,可以看出古今用药频率的变化。并把高频用药组合与经验药对进行比较分析,提示可能成为新药对的组合。
姚美村等[10]应用关联规则分析技术,以文献中收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库,以数据挖掘系统Enterprise Miner为平台,关联规则分析为工具,在单味药层次上进行消渴病复方组成药味之间的关联模式研究。得到了药物与上中下三消的关联以及药物之间的关联,与中医专家对于消渴病的治疗在主要药物的配伍方面基本一致,这在一定程度上反映出历代中医在消渴病治疗方面认识和治疗的整体规律性。
陈波等[11]应用关联规则对李东垣的脾胃方从药物间关联、症状间关联、处方结构与症状关联进行分析,得出当出现当归、黄芪、升麻时,同时出现柴胡的次数为60次,支持度为%,可信度为%;当出现当归、黄芪、柴胡时,同时出现升麻的次数为60次,支持度为%,可信度为%。两者的支持度和可信度都较高,提示他们常共同使用。此反映出李东垣补气与升阳同用的学术思想,此药组也是补中益气汤的基本组成部分。
现在的研究中存在着方法比较简单,频繁模式、关联规则为其主要方法。方剂配伍不仅是各药味之间的组合,还包含着各药剂量比例的搭配,这也是临床组方的关键,但现在对其进行数据挖掘的研究还很少。
数据挖掘的方法不仅可以运用于中医基础理论中的伤寒、温病等研究,也可用于临床各科的研究。但高质量的数据挖掘不仅需要有被处理数据的质量,更要在中医药专业背景知识引导下,针对具体问题,选择合适的数据挖掘方法,利用各种工具的效能和应用的可能性,取长补短。
对中医药知识进行规范化、数字化、信息化是促进中医药国际化和现代化进程的重要内容[12]。通过数据挖掘,就可以对中医药发展过程中某些缺失的信息进行预测完善并可以避免主观性的干扰。数据挖掘还可以发现一些新的模式和规则,为中医药知识的创新和发展提供一条新途径。
【参考文献】
1 乔延江.中药(复方)KDD研究开发的意义.北京中医药大学学报,1998,21(3):15~17.
2 Frayyad UM, PiatetskyShapiro G,Smyth P, et al. Knowledge Discovery and Data mining:Towards a Unifying Framework ProcKDD96,Menlo park, CA:AAAIPress,1996,82~88.
3 胡文丰,张正国.生物医学数据挖掘.国外医学生物医学工程分册,2003,26(1):11~15.
4 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望.复杂系统与复杂性科学,2004,1(3):45~55.
5 陈明,张书河.关联规则在中医疾病证候诊断中的应用.中华医学丛刊,2004,4(5):14~16.
6 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用.中国生物医学工程学报,2001,20(4):354~363.
7 刘晋平.数据挖掘在中医脉诊研究中的应用.天津中医药大学硕士论文,2002.
8 蒋永光,胡波,刘娟,等.方剂配伍的数据挖掘可行性探索.四川中医,2004,22(8):25~28.
9 何前锋,崔蒙,吴朝晖,等.方剂中配伍知识的发现.中国中医药信息杂志,2004,11(7):655~658.
10 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报,2002,25:48~50.
11 陈波,蒋永光,胡波,等.东垣脾胃方配伍规律之关联分析评述.中医药学刊,2004,22(4):611~612.
12 姚美村,袁月梅,艾路,等.数据挖掘及其在中医药现代化研究中的应用.北京中医药大学学报,2002,25(5):20~23.
展开阅读全文