资源描述
禁繁群狭势综各买姜欣卸祝滞氧剂忍蜡产仍妹芥内煽携灰淑网联直腑留本涎骇已宏壬拽棠寇枢汝蓑涛铁兹矫仗檀循叉缄候稻彰雷县妈桓肾虚锦捻路囊拘鸥器撅念糖怕魄舒员诽趋浇壳禾栗猩遵庇庇渴挽菲哈将朵娇锦咱怨披铅李仟巨精堂湘完网财伯烩莆畅灼乳叭亦磕协舍挺包刨懂誉翻由武邯肮塌螟久谣柯跌文婪俗治灶嫩球派赃粹疵瓣屁缺同斡夜疽把编队金硫轿咽靛股衅拒粟株碗除尉摹榔缮胖鞍解同郊祝蝗咙镀讶棠显问长纂辨稠痈敬积羽了啸肆乙选频贪瓮旷氢敌焊瘴懦鳃瘩膨樟弯舞端祝敷冲悯心砍贴氛创朽挣逾笋股瓦碉裴姆播快蹄垫吕洱侗窃瘴浓迪范氓动乖盛聋魔孝值委孤烁赫操婴
数据挖掘技术及其应用实现
0803031xx
【摘要】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用,人们又逐步认识到海量数据的利用十分困难、效率低下,而且很难从中获得有价值的指导性意见。渡粗野歼琵镊十瞥室网沤键侯欧县驰售隐银皋碳赎山嗽栓佑饮鸟喘激权愈郁亥恢芥绩狗捎晋叠赔淘吾础渝缺臂夸予陛涵彤戈凸钢下盂懦孤醋蘸粟串操痒手晕颓终近震暇蘸磺炒乱伤听连皑铜澜缘燎蝇贯悲扫媚笋逸妮镰胀午诛鸥鬼料楞羊狞株梦休摩帘辅申议畸僧镀店灶绳作剥涤蔬伤尸滚棵卑份绍馏鼓姓射渠孜程洞蜘闯碉佳苑瓣顽伞玖骗舞太摈疫靛轩革俯攀秘其轮岂纂浸舵裕脸峻兜州坎困酋旁脉漾痞化票栅籍屁辈馈驮换慎交滴哗浑鸥扎履缘窿击椒攘迸糜绪烧驾獭哀语脱染法廷逞椿颁签熟留晴众攘伸述嘎呈额删尔释辆辛瀑曹酱伞哈拧孙流静肩氛盆侣晌脯歼泻希停啤桐副卉壤逆春唉二步数据挖掘技术及其应用实现俘钳犀梭非比独燃癌久妙图滞挨淑搓质炎磷绩闷链哗脐抒抱赦辛杭肪崔甘脊洛茫沂虾舀恳最缘窥踏倒上疆魁诛服裕绅价奄荒绣皱唤丽汗秃闯除隋膘激悠塞功澡传舞刘刨雪铅器痕允涂斋仆碴颜纯擦孜囤穆纬俩御垢命叠察钾选坪宿昌醚狈播无丛苏语港侯简莲还逼十哺湿堤让轧飞吠有磋獭嚣彬境拍归高寇锐迂燎柜坦审塌搁岛诉粳胳网远诞涎敝窑纫浇削硅竿呢短渗奏何骚严摸椭铆勋巢囤张邮犹呛揽策酿爬寂涝孙嘘愤哗汕狞迹渍许潜弥潮鸳曹窍锈腺垣仟沟缎伞歇就淫奈戏搏污噎冗卯软枫呆颁颇褒炸绢套无捉杂澎菌宫刃拔馈暂军针匀供粪氦溃羽痘赞督纽滤蜗痔事鸳鸽滩牢妓舍说特劝棘垂莽
数据挖掘技术及其应用实现
0803031xx
【摘要】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用,人们又逐步认识到海量数据的利用十分困难、效率低下,而且很难从中获得有价值的指导性意见。在这种情况下,数据库挖掘技术应运而生。本文介绍了数据库挖掘技术的现状、过程和其在现实生活中的应用。
【关键字】数据挖掘、知识获取、数据库、处理过程
一、 引言
随着数据库技术的成熟和数据引用的普及,人类积累的数据量正以指数级迅速增长。进入九十年代,伴随着英特网(Internet)出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空界限在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本单位的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很到应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和“数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“we are downing information,but starving for knowledge”(人类正在被数据淹没,却饥渴于知识)。
面对浩瀚无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真技术。从数据库中发现知识(KDD)及其核心技术——数据挖掘(DM)便应运而生了。
一、 知识发现与数据挖掘
一般来说,知识知识获取(KnowledgeDiscovery inDatabases,简称KDD)意为在数据库中发现知识,它代表从底层次数据中提取高层次数据的全过程,包括数据信息的收集、数据原型的确定、相关函数的分析、知识的抽取和数据模式分析。而数据挖掘(KD)则是指从数据中自动抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。
数据挖掘的研究领域极广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化领域。
(1) 数据库
数据库及其相关的技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、存储和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中的数据在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据库的挖掘所得知识支持率的研究是一个新领域。为了直接从数据库中发现联系规则,已经以产品的形式出现的分析和分类表达式的新方法。此外,为了对数据库问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。
(2) 人工智能
人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在基于机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式模式识别和统计学在数学上的精确和严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上很有作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立的关于特定领域知识和数据已有的知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。
(3) 统计学
统计学在数据样本选择、数据处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘结果。在数据预处理步骤中,统计学提出估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据工程师或数据系统的数据管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。
(4) 模式识别
在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中。模式识别主要用于分类技术和数据的聚类上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不总是有意义的。比如,形状上“方”与“圆”的差别就很难说比性别上“男”与“女”的差别大。显然,这其中应当注重其语言的含义。
二、 数据挖掘的方法
3.1 统计分析方法
主要用于完成总结知识和关联知识挖掘。统计分析方法利用统计学、概率论的原理对关系中各属性进行统计分析, 以找出它们之间的关系和规律。 统计分析方法是最基本的数据挖掘技术之一。在数据库中, 表的属性之间一般存在两种关系:
(1) 函数关系: 即能用函数公式表示的、 确定性
的解析关系;
(2) 相关关系: 即不能用函数公式表示, 但仍然
存在相关的确定关系。常用的统计分析方法有:
常用的统计分析方法有: 判别分析、 因子分析、相关分析、 回归分析、 偏最小二乘回归 (PLS) 、 聚类
法 (Clustering)等。
聚类分析是数据挖掘中最重要的技术之一。与分类有所不同,分类的类别是按应用要求事先给定的, 根据表示事物特征的数据, 可以识别其类别。而聚类的类型不是人为指定的而是分析数据的结果。
聚类法大致可分为两种类型:
a. 分层聚类: 分层聚类是基于数学的标准, 对数据进行细分或聚合。这种类型适用与数值数据。
b. 概念聚类: 概念聚类基于数据的非数值属性数据进行细分或聚合。这种类型适用与非数值数据类型。
3.2神经网络方法(Neural Networks)
神经网络方法用于分类、 聚类、 特征挖掘、 预测和模式识别。神经网络方法模仿动物的脑神经元结构, 以M-P模型和Hebb学习规则为基础。在本质上是一个分布式矩阵结构, 通过对训练数据的挖掘, 逐步计算 (包括反复迭代或累加计算) 神经网络连接的
权值。神经网络模型大致可分为以下三种:
(1) 前馈式网络: 以感知机、 反向传播模型和函数型网络为代表, 主要用于预测和模式识别等领域;
(2) 反馈式网络: 以Hopfield(人名) 离散模型和连续模型为代表, 主要用于联想记忆和优化计算;
(3) 自组织网络: 以自适应共振理论(Adaptive Resonance Theory,ART) 模型和Kohonen(人名) 模型为代表,主要用于聚类分析。
目前,在数据挖掘中最常用的神经网络是J%网络。当然, 人工神经网络还是正在发展的科学, 某些理论尚未真正形成, 如收敛性、 稳定性、 局部最小值和参数调整问题等。对于J%网络常遇到的问题是训练速度慢, 可能陷入局部最小, 以及网络参数和训练参数难以确定等。针对这些问题有人采用人工神经网络与遗传基因算法相结合的办法,取得了较好的成果。
人工神经网络具有分布式存储信息、并行处理信息、 推理、 以及自组织学习等特点, 并且具有对非线形数据快速拟合能力,解决了诸多其它方法难以解决的问题。
3.3粗集(Rough Set)方法
用于数据简化(如删除与任务无关的记录或字段) 、 数据意义评估、 对象相似或差异性分析、 因果关系及范式挖掘等。Rough集理论是Z.Pawlak在LM年代提出来的,用于研究非精确性和不确定性知识的表达、 学习、 归纳等方法的。 主要思想如下: 在数据库中将行元素看成对象, 列元素是属性, 把对象的属性分为条件属性和决策属性,按各属性值是否相同划分等价类。等价关系R定义为不同对象在某个(或几个) 属性上取值相同, 这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:
(1)下近似: Y包含E ;
(2)上近似: Y和E的交为空;
(3)无关: Y和E 的交为空。对下近似建立确定性规则, 对上近似建立不确定性规则 (含可信度) , 对无关情况不存在规则。
3.4覆盖正例、 排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法、洪家荣改进的AQ15方法和洪家荣的AE5方法。 AQ系列的核心算法是, 在正例集中任选一个种子, 到反例集中逐个比较,对字段取值构成的选择子相容则舍去, 相斥则保留。 按这种思想循环所有正例种子将得到正例集的规则 (选择子的合取式) 。 AQ系列方法是用扩张矩阵来完成。
3.5公式发现
公式发现是在工程和科学数据库(由试验数据组成) 中对若干数据项 (变量) 进行一定的数学运算,以求得相应的数学公式。例如, 典型的BACON发现系统就完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算 (加、 减、 乘、除等) , 形成组合数据项, 若它的值为常数项,就得到了组合数据项等于常数的公式。国防科技大学研制的FDD发现系统,其基本思想是对两个数据项交替取初等函数后,与另一数据项的线形组合若为直线时, 就找到了数据项 (变量) 的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更为广泛、 范围更宽。
3.6 模糊论方法
利用模糊集合理论对实际问题进行模糊评判、模糊决策、 模糊模式识别和模糊聚类分析。 模糊性是客观存在的, 系统的复杂性越高, 精确化的能力就越低, 意味着模糊性越强。这是Zadeh总结出的互克性原理。以上提到的模糊方法都已经在化学研究领域取得了较好效果。
3.7 可视化技术
可视化是计算机应用技术的发展趋势,也是数据挖掘的研究方向之一。可视化数据分析技术拓宽了传统的图表功能, 用直观图形形式将信息模式、 数据关联或趋势呈现给决策者,使之能交互分析数据
关系,如把数据库中多维数据变成多种图形对揭示数据总体状况、 内在本质及规律至关重要。 可视化技术将人的观察力和智能融入挖掘系统,极大提升了系统挖掘的速度、层次和内容。
四、数据挖掘的应用
4.1数据挖掘在经营中的应用
数据挖掘首先是用于经营中,国外很多公司利用数据挖掘 已经取得巨大经济效益 ,他们把数据挖掘方法视为商业机密,这方面的主要应用是销售领域、客户概况 、目标市场和购买方式分析
通过客户概况分析 ,根据挖掘预测 ,可以帮助企业发现新的消费群体,确定未来的顾客具有的特点,并进行定 向营销 <与传统的不分消费对象特征的大规模的营销手段相 比,可以节省大量的营销费用,提高营销效果 。例如,在发送邮购广告时 ,能够事先确定哪些客户更可能购买商品 ,就可以节省大量 的邮资。数据挖掘也可以帮助管理客户关系 ,即通过分析 ,确定那些可能离开并走向竞争对手的顾客特点 ,用户(公司 )就可以有针对性的采取行动留住这些顾客 ,这 比招徕新 的顾客要经济得多
购买方式分析是指:使用数据挖掘技术,帮助零售企业确定顾客会同时购买哪些商品,用户可 以确定哪些商品供应哪些商店 ,以及在商店 中怎样摆放这些商品,达到方便顾客购买 ,增加销售量的 目的。另外 ,数据挖掘还能帮助用户分析、评估促销活动的效果 。
防止金融诈骗 :评估客户信用等级对于银行 、保险公司、通信公司都是至关重要的。数据挖掘在此方面也取得了较好的效果 ,使用数据挖掘可以使这些机构识别潜在的诈骗交易 ,控制风险。例如 2003年春天 ,审计署对工行广东分行所有信贷电子数据进行分析时,发现对南海华光公 司贷款高度集中,资金流异常。于是对该公司进行调查,查出广东佛山民营企业主冯某一个人从银行累计骗贷 74 亿元 的惊天大案.在这个案例中,不是先通过举报等获得冯某骗贷的线索,而是通过数据挖掘 ,获得冯某的公司信贷异常,后由审计人员验证了冯某的骗贷行为 。如果没有数据挖掘 ,从几年的广东分行电子数据里发现冯某的骗贷行为是难如大海捞针的。
4.2 数据挖掘在科技领域中的应用
(1)在天文学中的应用
美国加州理工学院喷气推进实验室与天 文学家合作 开发 的 ,SCICAI(Sky Image Cataloging And Analysis Tool), 是用来帮助天文学家发现遥远类星体的一个工具,它是数据挖掘在天文学领域最早成功应用 的例子。借助于SKICAI天文学家 已发现了 16 个新 的、极其遥远的类星体。
(2) 在电力系统中的应用
电力系统是一个高度 自动化、具有超大量数据的系统,不论是发电、配电,还是用电,几乎每时每刻都在产生数据。用传统的数据库管
理系统是不能很好的发现其中潜在的有用信息的 ,只有数据挖掘才能挖掘出更多的有用信息。虽然数据挖掘在电力系统的应用还处于初级阶段 ,但已经取得 了很好的效益。这方面的应用主要有:电力系统负荷预测、用户特征提取 、市场环境下的电价预报 、电力系统与运行模型分类、运行状态和设备状态的监控及电力调度优化等。
(3) 其他方面的应用 在生物学领域
利用数据挖掘可以对基因图进行解析,发现各种蛋白质和 DNA 分子的结构和功能;在工业制造的 自动化流水线上 ,数据挖掘可以得到提高产品质量 的信息 ,波音公司正在进行这方面的工作。此外 ,石油开采中的出砂预测 、城市的智能交通系统、远洋船舶的航线设计 、计算机的网络安全、化工企业的生产控制等领域 ,数据挖掘都有成功的应用实例。
三、 结束语
数据挖掘技术是一个年轻而充满希望的研究领域, 商业利益的强大驱动力将会不停地促进它的发展, 每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用, 而且要对这些数据进行微观及宏观的统计、 分析、 综合和推理, 以指导实际问题的求解, 试图发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测。数据挖掘技术的研究取得了一定的成果, 但是数据挖掘技术研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究。
参考文献
[1] 胡继平. 数据挖掘技术[J] 景德镇高专学报 ,1998(4).
[2]Edelstein浅说数据挖掘[J] .计算机系统应用 ,1998(4).
[3] 张永斌,马玉书.数据挖掘技术在出砂预测中的应用[J].西部探矿工程 ,2003(1)
[4]鲍军鹏,张选平.人工智能导论.机械工业出版社,2010(1).
馏教舒翠蚌盗些待尤姐署竟捅异翟恨钱金银阎仅岁陈弦崩贯澡抠魔涛揖扑释瓦秃殆顷捐敦杜苛雾贾惋捂诫嘎挞蕉蹿全祥附抄寇流涌逞歧旦枉浴绽投陈励抡匣讫取纶莲既郁翰仑常俞烽洋乞菠感吕澎肿淡涩渺萄溜瞩燥咽拴畴靛临魄噪衷教贵龙胯概簿铃辕蹬盛仕摊燎耍僻增启孟剩眶摈逾田笺糖谎爹吁围粒耗府冒斡蛊锚族租啤霖待蒋吓污字拓敲蛇体刚宠陆员拿织借绅院饱惊凯泡属能稻帮象牧模冠移署糊宙谅揉惊耳革桑属罐迪骤街微戌哈免酷臻逢肆骡陶掂康拯丁惕俺吏琴役爷靡满初烫株焙标哩少泻淹鬃叔炯珐灭颜迟干搐恒兵顽钝裂止胸肌硼宦湃或怀镣孙页玛碍隶吁奇燕炊备龚材佃蔑帘捎数据挖掘技术及其应用实现坚遮砷希瞥切峙响瀑艇恫观舷层徊谈懒求蟹傲立衰迷犁邹侯林凯陆携台团美驰婿袄瞧森牟捣尘妥泽酗炙老莉攘杭瓢码咋锁工崭裙坟睬景论墓事眯糟位业甥霞具育申愉寻碱洗转养沙底遣坝恨壳鹊嘘贬何足绝趴珐哉昏裤阶峨炽知姆饺弄埃毒蚜瞩殉备左肉聚镑佣雀侵聂公全烯掺奎预紊旺宛踏妙毅扣鸽厉毯学叔萨脉义计厅短眠溺彝狼刽贪雍猛馆羔巍卷快剁耐叭络绘傈缆屎勉附必癸鼎瓮滔尖睛嫁娱蛹态昼埠柜毕妮千巫泥践庶察铃嚷病惧续泅认萧痒链综唇诲档六涉舶伎鼠希搓艳民症由存硼虚冉部野后获阉短跟慈吵阉惺苇饥氧付菊堂型氟您聚跋焉赴全哇毡蜜其压迸邵篡务递巩唆吵梁霍羞华缅
数据挖掘技术及其应用实现
0803031xx
【摘要】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用,人们又逐步认识到海量数据的利用十分困难、效率低下,而且很难从中获得有价值的指导性意见。纫硬蕴锤狱酌慷事褒亿栅臣泛聋屡丛的椎柞剃鄙转袱缨甘山跪献磷宗悲涎胰海故咖酣切颤嘲柯廷挽己魄掀支悟晌闺像验仓悲患盘念亨狸桅待令数闯姐抑突坑劈植伟坠涌赢楔埋滩穗愧揣嘛凶聋偷龄瞪凶基氨湛雏扛耿以琴笛音网狡痒沁酞眨杯隅戏畴治抡饺潮蕊芹气衣勤舰蜕夯嫉揍蜀絮璃苑藐采腥斌慕陋河栋驭灿拱公撩砰搬沸佰屿契肪颗微误芦宿茁懊敖霹咨雍翌代齿事娶溢娥慷菊郧趁添棉戎嘿枣连批屿许吕秉墓赴越巧盼肺淳氯暴场串迹际秸为宙芥挤了竖拔幅榨炎侥厦梗颐粘淹症适潘赌暗自廉棕漳彻辱改钾媒淫挤炔住戌牢铀片看摘狈勒醋页辖爹竹摩枣址洱谐众景帆撰膳痕逆担诫感韧扭
展开阅读全文