ImageVerifierCode 换一换
格式:DOC , 页数:12 ,大小:32KB ,
资源ID:7646838      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/7646838.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据挖掘技术及其应用实现.doc)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据挖掘技术及其应用实现.doc

1、数据挖掘技术及其应用实现 0803031xx 【摘要】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用,人们又逐步认识到海量数据的利用十分困难、效率低下,而且很难从中获得有价值的指导性意见。在这种情况下,数据库挖掘技术应运而生。本文介绍了数据库挖掘技术的现状、过程和其在现实生活中的应用。 【关键字】数据挖掘、知识获取、数据库、处理过程 一、 引言 随着数据库技术的成熟和数据引用的普及,人类积累的数据量正以指数级迅速增长。进入九十年代,伴随着英特网(Internet)出现和发展,以及随之而来的企业内部网(Intranet)和企业外

2、部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空界限在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本单位的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很到应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和“数据关在牢笼

3、中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“we are downing information,but starving for knowledge”(人类正在被数据淹没,却饥渴于知识)。 面对浩瀚无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真技术。从数据库中发现知识(KDD)及其核心技术——数据挖掘(DM)便应运而生了。 一、 知识发现与数据挖掘 一般来说,知识知识获取(KnowledgeDiscovery inDatabases,简称KDD)意为在数据库中发现知识,它代表从底层次数据中提取高层次数据的全过程,包括数据信息的收集、数据原型的确定、

4、相关函数的分析、知识的抽取和数据模式分析。而数据挖掘(KD)则是指从数据中自动抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。 数据挖掘的研究领域极广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据

5、库和数据可视化领域。 (1) 数据库 数据库及其相关的技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、存储和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中的数据在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据库的挖掘所得知识支持率的研究是一个新领域。为了直接从数据库中发现联系规则,已经以产品的形式出现的分析和分类表达式的新方法。此外,为了对数据库

6、问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。 (2) 人工智能 人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在基于机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式模式识别和统计学在数学上的精确和严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上很有作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的

7、分布密度估计的强有力的工具。人工智能技术建立的关于特定领域知识和数据已有的知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。 (3) 统计学 统计学在数据样本选择、数据处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘结果。在数据预处理步骤中,统计学提出估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究工作大多是针对技术和模

8、型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据工程师或数据系统的数据管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。 (4) 模式识别 在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中。模式识别主要用于分类技术和数据的聚类上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计

9、学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不总是有意义的。比如,形状上“方”与“圆”的差别就很难说比性别上“男”与“女”的差别大。显然,这其中应当注重其语言的含义。 二、 数据挖掘的方法 3.1 统计分析方法 主要用于完成总结知识和关联知识挖掘。统计分析方法利用统计学、概率论的原理对关系中各属性进行统计分析, 以找出它们之间的关系和规律。 统计分析方法是最基本的数据挖掘技术之一。在数据库中, 表的属性之间一般存在两种关系: (1) 函数关系: 即能用函数公式表示的、 确定性

10、 的解析关系; (2) 相关关系: 即不能用函数公式表示, 但仍然 存在相关的确定关系。常用的统计分析方法有: 常用的统计分析方法有: 判别分析、 因子分析、相关分析、 回归分析、 偏最小二乘回归 (PLS) 、 聚类 法 (Clustering)等。 聚类分析是数据挖掘中最重要的技术之一。与分类有所不同,分类的类别是按应用要求事先给定的, 根据表示事物特征的数据, 可以识别其类别。而聚类的类型不是人为指定的而是分析数据的结果。 聚类法大致可分为两种类型: a. 分层聚类: 分层聚类是基于数学的标准, 对数据进行细分或聚合。这种类型适用与数值数据。 b. 概念聚类: 概念聚类

11、基于数据的非数值属性数据进行细分或聚合。这种类型适用与非数值数据类型。 3.2神经网络方法(Neural Networks) 神经网络方法用于分类、 聚类、 特征挖掘、 预测和模式识别。神经网络方法模仿动物的脑神经元结构, 以M-P模型和Hebb学习规则为基础。在本质上是一个分布式矩阵结构, 通过对训练数据的挖掘, 逐步计算 (包括反复迭代或累加计算) 神经网络连接的 权值。神经网络模型大致可分为以下三种: (1) 前馈式网络: 以感知机、 反向传播模型和函数型网络为代表, 主要用于预测和模式识别等领域; (2) 反馈式网络: 以Hopfield(人名) 离散模型和连续模型为代表,

12、主要用于联想记忆和优化计算; (3) 自组织网络: 以自适应共振理论(Adaptive Resonance Theory,ART) 模型和Kohonen(人名) 模型为代表,主要用于聚类分析。 目前,在数据挖掘中最常用的神经网络是J%网络。当然, 人工神经网络还是正在发展的科学, 某些理论尚未真正形成, 如收敛性、 稳定性、 局部最小值和参数调整问题等。对于J%网络常遇到的问题是训练速度慢, 可能陷入局部最小, 以及网络参数和训练参数难以确定等。针对这些问题有人采用人工神经网络与遗传基因算法相结合的办法,取得了较好的成果。 人工神经网络具有分布式存储信息、并行处理信息、 推理、 以及自组

13、织学习等特点, 并且具有对非线形数据快速拟合能力,解决了诸多其它方法难以解决的问题。 3.3粗集(Rough Set)方法 用于数据简化(如删除与任务无关的记录或字段) 、 数据意义评估、 对象相似或差异性分析、 因果关系及范式挖掘等。Rough集理论是Z.Pawlak在LM年代提出来的,用于研究非精确性和不确定性知识的表达、 学习、 归纳等方法的。 主要思想如下: 在数据库中将行元素看成对象, 列元素是属性, 把对象的属性分为条件属性和决策属性,按各属性值是否相同划分等价类。等价关系R定义为不同对象在某个(或几个) 属性上取值相同, 这些满足等价关系的对象组成的集合称为该等价关系R的等价

14、类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况: (1)下近似: Y包含E ; (2)上近似: Y和E的交为空; (3)无关: Y和E 的交为空。对下近似建立确定性规则, 对上近似建立不确定性规则 (含可信度) , 对无关情况不存在规则。 3.4覆盖正例、 排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法、洪家荣改进的AQ15方法和洪家荣的AE5方法。 AQ系列的核心算法是, 在正例集中任选一个种子, 到反例集中逐个比较,对字段取值构成的选择子相容则舍去, 相斥则保留。 按这种思想循环所有正例种子将得到正例集

15、的规则 (选择子的合取式) 。 AQ系列方法是用扩张矩阵来完成。 3.5公式发现 公式发现是在工程和科学数据库(由试验数据组成) 中对若干数据项 (变量) 进行一定的数学运算,以求得相应的数学公式。例如, 典型的BACON发现系统就完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算 (加、 减、 乘、除等) , 形成组合数据项, 若它的值为常数项,就得到了组合数据项等于常数的公式。国防科技大学研制的FDD发现系统,其基本思想是对两个数据项交替取初等函数后,与另一数据项的线形组合若为直线时, 就找到了数据项 (变量) 的初等函数的线性组合公式。该系统所发现的公式比BAC

16、ON系统发现的公式更为广泛、 范围更宽。 3.6 模糊论方法 利用模糊集合理论对实际问题进行模糊评判、模糊决策、 模糊模式识别和模糊聚类分析。 模糊性是客观存在的, 系统的复杂性越高, 精确化的能力就越低, 意味着模糊性越强。这是Zadeh总结出的互克性原理。以上提到的模糊方法都已经在化学研究领域取得了较好效果。 3.7 可视化技术 可视化是计算机应用技术的发展趋势,也是数据挖掘的研究方向之一。可视化数据分析技术拓宽了传统的图表功能, 用直观图形形式将信息模式、 数据关联或趋势呈现给决策者,使之能交互分析数据 关系,如把数据库中多维数据变成多种图形对揭示数据总体状况、 内在本质及规律

17、至关重要。 可视化技术将人的观察力和智能融入挖掘系统,极大提升了系统挖掘的速度、层次和内容。 四、数据挖掘的应用 4.1数据挖掘在经营中的应用 数据挖掘首先是用于经营中,国外很多公司利用数据挖掘 已经取得巨大经济效益 ,他们把数据挖掘方法视为商业机密,这方面的主要应用是销售领域、客户概况 、目标市场和购买方式分析 通过客户概况分析 ,根据挖掘预测 ,可以帮助企业发现新的消费群体,确定未来的顾客具有的特点,并进行定 向营销 <与传统的不分消费对象特征的大规模的营销手段相 比,可以节省大量的营销费用,提高营销效果 。例如,在发送邮购广告时 ,能够事先确定哪些客户更可能购买商品 ,就可以节省

18、大量 的邮资。数据挖掘也可以帮助管理客户关系 ,即通过分析 ,确定那些可能离开并走向竞争对手的顾客特点 ,用户(公司 )就可以有针对性的采取行动留住这些顾客 ,这 比招徕新 的顾客要经济得多 购买方式分析是指:使用数据挖掘技术,帮助零售企业确定顾客会同时购买哪些商品,用户可 以确定哪些商品供应哪些商店 ,以及在商店 中怎样摆放这些商品,达到方便顾客购买 ,增加销售量的 目的。另外 ,数据挖掘还能帮助用户分析、评估促销活动的效果 。 防止金融诈骗 :评估客户信用等级对于银行 、保险公司、通信公司都是至关重要的。数据挖掘在此方面也取得了较好的效果 ,使用数据挖掘可以使这些机构识别潜在的诈骗交

19、易 ,控制风险。例如 2003年春天 ,审计署对工行广东分行所有信贷电子数据进行分析时,发现对南海华光公 司贷款高度集中,资金流异常。于是对该公司进行调查,查出广东佛山民营企业主冯某一个人从银行累计骗贷 74 亿元 的惊天大案.在这个案例中,不是先通过举报等获得冯某骗贷的线索,而是通过数据挖掘 ,获得冯某的公司信贷异常,后由审计人员验证了冯某的骗贷行为 。如果没有数据挖掘 ,从几年的广东分行电子数据里发现冯某的骗贷行为是难如大海捞针的。 4.2 数据挖掘在科技领域中的应用 (1)在天文学中的应用 美国加州理工学院喷气推进实验室与天 文学家合作 开发 的 ,SCICAI(Sky Imag

20、e Cataloging And Analysis Tool), 是用来帮助天文学家发现遥远类星体的一个工具,它是数据挖掘在天文学领域最早成功应用 的例子。借助于SKICAI天文学家 已发现了 16 个新 的、极其遥远的类星体。 (2) 在电力系统中的应用 电力系统是一个高度 自动化、具有超大量数据的系统,不论是发电、配电,还是用电,几乎每时每刻都在产生数据。用传统的数据库管 理系统是不能很好的发现其中潜在的有用信息的 ,只有数据挖掘才能挖掘出更多的有用信息。虽然数据挖掘在电力系统的应用还处于初级阶段 ,但已经取得 了很好的效益。这方面的应用主要有:电力系统负荷预测、用户特征提取 、市场

21、环境下的电价预报 、电力系统与运行模型分类、运行状态和设备状态的监控及电力调度优化等。 (3) 其他方面的应用 在生物学领域 利用数据挖掘可以对基因图进行解析,发现各种蛋白质和 DNA 分子的结构和功能;在工业制造的 自动化流水线上 ,数据挖掘可以得到提高产品质量 的信息 ,波音公司正在进行这方面的工作。此外 ,石油开采中的出砂预测 、城市的智能交通系统、远洋船舶的航线设计 、计算机的网络安全、化工企业的生产控制等领域 ,数据挖掘都有成功的应用实例。 三、 结束语 数据挖掘技术是一个年轻而充满希望的研究领域, 商业利益的强大驱动力将会不停地促进它的发展, 每年都有新的数据挖掘方法和模型

22、问世,人们对它的研究正日益广泛和深入。 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用, 而且要对这些数据进行微观及宏观的统计、 分析、 综合和推理, 以指导实际问题的求解, 试图发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测。数据挖掘技术的研究取得了一定的成果, 但是数据挖掘技术研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究。 参考文献 [1] 胡继平. 数据挖掘技术[J] 景德镇高专学报 ,1998(4). [2]Edelstein浅说数据挖掘[J] .计算机系统应用 ,1998(4). [3] 张永斌,马玉书.数据挖掘技术在出砂预测中的应用[J].西部探矿工程 ,2003(1) [4]鲍军鹏,张选平.人工智能导论.机械工业出版社,2010(1).

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服