收藏 分销(赏)

数据挖掘的模式类型及其应用领域.doc

上传人:xrp****65 文档编号:5702269 上传时间:2024-11-15 格式:DOC 页数:5 大小:32KB
下载 相关 举报
数据挖掘的模式类型及其应用领域.doc_第1页
第1页 / 共5页
数据挖掘的模式类型及其应用领域.doc_第2页
第2页 / 共5页
数据挖掘的模式类型及其应用领域.doc_第3页
第3页 / 共5页
数据挖掘的模式类型及其应用领域.doc_第4页
第4页 / 共5页
数据挖掘的模式类型及其应用领域.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、数据挖掘的模式类型及其应用领域发表时间:2009-11-25 薛向阳 来源:万方数据关键字:数据挖掘 模式类型 BI 信息化应用调查我要找茬在线投稿加入收藏发表评论好文推荐打印文本本文阐述了数据挖掘的概念、模式类型及其应用领域.目的在于使人能够根据其所在领域的挖掘任务选择具体的挖掘模式。一、引言 随着数据库技术的成熟和数据库管理系统的广泛应用,人们已经在商业、政府和科学等领域的数据库内积累r大量历史数据,激增的数据背后隐藏着许多重要的信息,然而过去由于缺乏挖掘数据背后隐藏知识的手段,导致r“数据丰富,但信息贫乏”的现象,即所渭“数据爆炸”。面对浩森无际的数据海洋人们希望能够对数据进行更高层次的

2、分析,以便更好地理解和利用这些数据背后所包含的信息,数据挖掘(Data Mining,DM)便应运而生了,这里所指的“知识”就是数据中隐含的信息。数据挖掘就是从大量的、不完全的、有噪声的、模糊的和随机的数据中。提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。近年来,国内的数据挖掘研究也正逐渐掀起高潮,在算法和应用方而取得了一些具有扩展性或突破性的研究成果。二、数据挖掘的模式类型 由于每种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,冈此,成功的应用数据挖掘技术以达到日标,这个过程奉身就是一件很复杂的事情,下面主要从挖掘任务这个角度来讨论对具体挖掘模式

3、的选择。根据挖掘任务,数据挖掘可分为概念类描述;挖掘频繁模式、关联和相关;分类和颅测;聚类分析;离群点分析和演变分析等。在选择使用某种数据挖掘技术之前,首先要将待解决的商业|日J题转化成止确的数据挖掘任务,然后根据挖掘任务来选择具体使用某一种或几种挖掘模式。F面具体地分析每一种挖掘任务应使用哪些挖掘模式: 1概念类描述 用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。这种类或概念的描述称为概念类描述。这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类的数据;(2)数据区分,将日标类与一个或多个可比较类进行比较;(3)数据特征化和比较。 2挖掘频繁模式、关联和相关 频繁

4、模式足在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和f结构。频繁项集是指频繁地在事物数据集中一起出现的项的集合,如牛奶和面包。频繁m现的子序列如顾客倾向于先购买PC再购艾数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。子结构可能涉及不同的结构形式,如图、树或格,可以与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为(频繁)结构模式。 关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购父活动所买不同商品的相天性。以购物篮这个典型例子分析关联规则,“在购买面包和黄油的顾客中,有90的人同时也买了牛奶”。即(面包+黄油)牛奶。还可以做其他分析,发现

5、相关联的属性值对之间的有趣的统计相关。 3分类和预测 分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类。导出模型是基J:对训练数据集的分析。预测足建立连续值函数模型。也就是说,它用来预测空缺的或不知道数值数据值,而不是类标号。 4聚类分析 聚类分析数据对象不考虑已知的类标号。一般情况下,训练数据中不提供类标号,冈为开始并不知道类标号。可以使用聚类产生这种标号。对象根据最大化类内部的相似性、最小化类之问的相似性原则进行聚类或分组。也就是说,对象的簇这样形成,使得相比之卜在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所以形成的每个簇口r以

6、看作一个对象的类,由它可以导出规则。 5离群点分析 数据库中町能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点。大部分数据挖掘方法将离群点视为噪声或异常而丢弃。然而,在一些应用中(如欺骗检测),罕见的事件比正常出现的事什更令人感兴趣。离群点数据分析称作离群点挖掘:可以假定一个数据分布或概率模型使崩统计检验检测离群点;或者使用距离度量,将远离任何簇的对象视为离群点。 6演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势。并对其建模。尽管这可能包括时间相天数据的特自E化、区分,关联和相关分析、分类、预测或聚类。这类分析的不同特点包括时间序列数据分析、序列或周期模式

7、匹配和基于相似性的数据分析。三、数据挖掘的应用领域 目前擞据挖掘的应用领域包括以下八个方面,而每个领域又都有自己的应用领域和庇用背景。 (1)金融。金融事务需要收集和处理大量的数据,通过对这些数据进行分析,发现其数据模式及特乱E,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融fH场的变化趋势。数据挖掘在金融领域的应用广泛,包括数据清理、金融市场分析预测、帐户分类、信用评估等。 (2)医疗保健。医疗保健业有大鼍的数据需要处理但这个行业的数据不同的信息管理系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费崩

8、。例如GTE实验室开发,它能进行多维分析,用了:分析GTE的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表。 (3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 (4)零售业。零售业是最早运用数据挖掘技术的行业。目前,主要运用于销售预测、库存需求、零售点的选择、价格分析等。 (5)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 (6)司法。数据挖掘也可应用于案件调杏、诈骗检测、犯罪行为分析等方面,这些都可以给司法T作带来巨大的利益。 (7)工程和科学。存信息量极为庞大的天文、气象、生物技术等领域中,所获得

9、的大量实验和观察数据靠传统的数据分析t具难以应付,因此,x寸功能强大的智能化自动分析上具要求迫切,这种需求推动r DM技术在科学研究领域的应用发展,目前L三获得了一些重要的研究成果,例如:Jetpr opulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现16个星的星体,效果要比人丁更快,更准确。 (8)保险业。对受险人员的分类将有助于确定适当的保险金额度。通过数据挖掘町以得到埘不同行业、不同年龄段、不问社会层次的人,他们的险金应该如何确定。另外,还可进行险种关联分析,分析购买了某种保险的人是否又同时购买另一种保险,也可预测什么样的顾客将会购买新险种。 总之在选择一种数据挖掘技术的时候,应根据问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服