收藏 分销(赏)

韩家炜-数据挖掘:概念与技术-第1章ppt培训资料.pptx

上传人:w****g 文档编号:10279713 上传时间:2025-05-13 格式:PPTX 页数:64 大小:124.61KB 下载积分:16 金币
下载 相关 举报
韩家炜-数据挖掘:概念与技术-第1章ppt培训资料.pptx_第1页
第1页 / 共64页
韩家炜-数据挖掘:概念与技术-第1章ppt培训资料.pptx_第2页
第2页 / 共64页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/10/23,#,第一章 简介,2014.10,目录,1.1,数据挖掘的目的,1.2,数据挖掘的概念,1.3,数据,挖掘的对象,1.4,数据,挖掘的挖掘模式,1.5,数据,挖掘的技术,1.6,数据,挖掘的应用领域,1.7,数据挖掘的主要挑战,1.8,总结,1.1 Why Data Mining?,1.1.1 Moving toward the Information Age,1.1.2 Data Mining as the Evolution of Information Technology,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4 What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.1.1,人类,迈入信息时代,我们已经进入大数据的时代。,每天,有大量的(,TB,、,PB,数量级)的数据,从商业、社会、科学和工程、医药以及生活中的方方面面,涌入我们的计算机网络、万维网、以及各种不同的数据存储设备。,这些爆炸性增长的、广泛可获取的、大量的数据使我们真正的处于数据时代。,强大的、万能的能够自动从大量数据中挖掘有价值的信息的工具被急切的需要。这种需求催生了数据挖掘。,这个领域是年轻、动态变化并且前景乐观的。,数据挖掘正在并且将会持续的将我们大踏步的从数据时代跃入即将到来的信息时代。,举例,1.1,数据挖掘将一个大数据集转化成知识,搜索引擎(例如,google),每天接收到数以亿计的查询请求。每一个请求都看成是用户描述他(她)需要的信息的一个事务。搜索引擎能从如此巨大的查询请求的数据集中学习到什么样新的有用的知识呢?,令人感兴趣的是,我们能从这些数据中发现一些揭示有价值信息的模式。而靠单个查看每个数据记录是无法做到这点的。,举,个例子,谷歌的,Flu Trends,使用一些特定的词语作为流感的指示器。它能够发现搜索流感信息的人群的数量与真正有流感症状的人群的数量之间的紧密关系。当所有的关于流感的信息聚集在一起时,就能呈现某种模式。使用聚集的谷歌搜索数据,,Flu Trends,能比传统系统提早两周估计到流感的发生。,这个例子展示了数据挖掘怎样将大量的信息转化成知识。,1.1.2,数据挖掘是信息科技的进化,数据挖掘技术可以被看做是信息技术自然进化的产物。,数据库和数据管理技术,发展,的几个阶段:,数据收集和数据库创建,、,数据管理,(数据存储,检索和数据库事务处理)、,高级数据分析,(数据仓库和数据挖掘)。,从,1960,年开始,数据库和信息科技开始从最初的文件处理系统进化到更复杂和功能更强大的数据库系统。,从,1970,年开始,对数据库系统的研究从早期的层式结构和网状结构发展到关系数据库系统。,数据库管理系统建立之后,数据库技术发展到高级数据库、数据仓库和数据挖掘阶段。,丰富的数据、对多种数据分析工具的需求,被称为是“,数据丰富但是信息量少,”的环境,这种巨大的鸿沟催生了数据挖掘工具的系统化发展,把数据坟墓转化为知识金矿。,1.1 Why Data Mining?,1.2,What is Data Mining,?,1.3 What kinds of Data Can be Mined?,1.4 What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.2,什么是数据挖掘?,数据挖掘,是,从大量数据中发掘有趣的模式和知识的过程,。,很多词语有和数据挖掘类似的含义:数据知识挖掘、知识抽取、数据,/,模式分析、,data archaeology,data dredging.,很多人把数据挖掘看做和一个流行的词汇,knowledge discovery from data(KDD,,知识发现,),一样的含义。,数据挖掘的,步骤,1,数据清洗,(去除噪声和不一致的数据),2,数据聚合,(多种数据源的融合),3,数据选择(,和分析任务相关的数据从数据库中检索出来),4,数据转换,(数据被使用摘要和聚合的方式转换和联合成合适用于挖掘的形式,),5,数据挖掘,(最重要的步骤,智能的抽取数据模式的方法),6,模式评估,7,知识表达,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined,?,1.3.1 Database Data,1.3.2 Data Warehouse,1.3.3 Transactional Data,1.3.4 Other Kinds of Data,1.4 What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.3,什么样的数据能被挖掘?,数据挖掘能被应用于任何对目标应用有意义的数据类型。,最基本的形式有:数据库数据、数据仓库数据、交易事务数据,以及一些其他的类型,例如数据流、序列数据、图数据、空间数据、文本数据、多媒体数据、,www,等。,1.3.1,数据库,数据,DBMS(,数据库管理系统)包含一系列相互关联的数据。,关系数据库是一系列的表,表都有表名,一系列的属性,和一系列的记录。关系数据库可以通过数据库查询语句来检索记录。,对关系数据库挖掘时,是想要,发现趋势或者数据模式,。比如,分析客户数据预测新用户的信用风险,基于他们的收入、年龄和以前的信用信息。还可以用来发现差异,比如,发现包装商品或者显著提升价格的变化。,1.3.2,数据,仓库,数据仓库是多种数据来源的信息仓库,以统一的模式存放,通常是在一个站点。数据仓库通过一系列的数据清洗、聚合、转换、加载和周期性的更新构建。,数据仓库以重要的主题组织,从历史的视角提供信息,常常是概要型的。数据仓库模型是高维数据结构,每一维对应于相应的一个或者一组属性。称为,数据立方,。,通过,提供高维数据视角和概要数据,数据仓库为,OLAP,联机处理提供支持,。高维数,据挖掘以,OLAP,的方式在高维空间挖掘。,1.3.3,事务,数据,事务数据库存放交易记录,例如顾客的一次购买,机票的预订,或者用户点击了一个,web,页面。交易数据被存放在表中,每条记录表示一次交易记录。,假如我们想知道哪些商品放在一起出售更好,如果我们知道打印机通常会和电脑一起被购买,则可以对买电脑的顾客提供打印机购买折扣,或者完全免费,以期销售更多电脑。,传统的数据库系统不能做这种商业分析。但是基于交易数据的数据挖掘能够发现这种,频繁模式,,即发现那些商品会被一起经常购买。,1.3.4,其他类型的,数据,其他数据如和时间相关的数据,序列数据,流数据,空间数据,工程设计数据,超链接和多媒体数据,图数据和网络数据,,web,数据等等。如何处理各种复杂的数据结构、特殊的语义、如何挖掘模式都是有挑战的问题。,比如我们可以通过股票交易数据挖掘未被发现的趋势帮助你计划投资策略;通过挖掘计算机网络数据流来基于信息流进行入侵检测;对于空间数据,我们可以基于主要高铁线路的城市距离描述城市贫困率的变化;通过挖掘文本数据,例如过去十年的文化,来识别该领域的热点演化。通过挖掘用户对于产品的评论,获得客户情绪和了解产品在市场上的接受度。通过挖掘多媒体数据,来对图像进行目标识别和对其进行语义标签和分类。挖掘,WWW,上的信息,可以发现网页的变化以及不同网页之间的关联关系,或者用户,社区以及活动之间的关联关系。,需要注意的是,在许多应用领域,数据是多种类型共存的。比如,,web,挖掘中,包括文本数据和多媒体数据在网页上。对于多种类型数据融合的应用的数据挖掘,数据清洗、聚合是很困难的事情,因为多种数据源的复杂交互。,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4,What kinds of Patterns Can be Mined,?,1.4.1 Characterization and Discrimination,1.4.2 Frequent Patterns,Associations and Correlations,1.4.3 Classification and Regression,1.4.4 Cluster Analysis,1.4.5 Outliner Analysis,1.4.6 Are all Patterns Interesting?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.4,什么样的模式能被挖掘?,数据挖掘任务可以被归类为两种类别:,描述性的,和,预测性的,。,描述性的挖掘任务是描述目标数据集的数据属性。,预测性的挖掘任务是归纳现有数据以用来做预测。,1.4.1,类别,/,概念,描述:特征化和区分,对于一个电商企业,销售商品可分为计算机和打印机,客户可分为大客户和节约型客户。对这些单个的类别和概念使用总结、概要或者精确的术语进行描述非常有用。这种对类别或者概念的描述称为,类别,/,概念描述,。,描述可以通过:,(,1,)通过总结目标类别的一般术语进行,数据特征化,;,(,2,)把目标类别和一个或一组对比类别做比较的,数据区分,;,(,3,)同时使用上面,2,种方法。,数据描述,数据描述,是总结目标类别数据的一般特征。,数据一般通过查询来收集。例如,想研究上一年销售额增长了,10%,的软件产品,可以通过,SQL,查询语句来进行。,有多种数据描述的方法。可以使用基于统计测量和散点图的,简单数据总结,。基于数据立方的,OLAP,操作可以使用在特定维度空间的用户控制的,数据摘要,。,面向属性的归纳,技术也可以用来描述数据。,描述的结果可以通过多种图表展现,包括饼图、柱状图、曲线、高维数据立方体和多维表、交叉表等。也可以使用规则形式的广义关系来表示。,举例如,总结每年在,AllElectronics,花掉,5000,美元以上的客户特征。,描述结果可能是这些客户的一般信息,如他们是,40-50,岁之间的,有工作的,有很高信用度的。,数据区分,数据区分,是比较目标类别数据对象和一个或者一组对象的一般特征。,举例如,用户想比较去年的销售额增长了,10%,的软件产品和销售额下降了,30%,的产品的一般特征。,数据区分的技术和结果展示和数据描述很相似。,举例如,客户关系经理想比较那些经常购买计算机产品和很少购买这类产品的客户特征。描述结果给出这些客户的一般对比信息,比如经常购买电脑产品的,80%,的客户是,20,到,40,岁之间的有大学文凭的,很少买这类产品的人中,60%,是老年人或者青少年,没有大学学历。,1.4.2,挖掘频繁模式、关联规则和相关性,频繁模式,含义是数据中经常发生的模式。包括,频繁项集,频繁序列,频繁子结构,。频繁项集指的是在交易数据集中经常同时发生的商品。频繁序列,比如顾客先买了笔记本电脑,再买了数码相机,接着买了内存卡,这是一个序列模式。,频繁子结构指的是结合项集或者子序列的不同的结构形式(图、树、或者格)。,挖掘频繁模式,会发现有趣的数据之间的关联和相关度。,1.4.3,用于预测分析的分类和,回归,主要技术如:分类规则、决策树、神经网络等。,分类,是找到模型可以描述和区分数据类别或者概念的方法。模型从一系列的训练数据中分析获得,用于预测未知类别的数据标签。,回归,是连续值模型,预测缺失的数值型数据而非分类标签。,相关性分析是在分类和回归之前的步骤,我们需要选择那些属性跟分类和回归的过程显著相关。不相关的属性不被包含在考虑之列。,1.4.4,聚类分析,聚类分析针对没有标签的数据进行。基于,最大化类别内部的相似度,最小化类别之间的相似度,的原则来分组。,举例如,从电商数据中识别同类型的顾客人群。,1.4.5,离群点,分析,数据集可能包含不遵守一般行为和模型的数据。这些目标称为,离群点,。,检测离群点可以使用统计检验方法、距离测量、或者基于密度的方法。,举例如,通过与常规的消费相比较发现大笔金额的异常消费,可以发现信用卡的盗刷问题。离群值可能跟消费的地点,、,支付类型或者频率有关。,1.4.6,所有的模式都很有趣吗,?,一般来说,答案是否定的。只有一小部分模式在实际上对特定的用户是有用的。,一,个模式是有趣的有如下几个条件:,1,),能很容易被人理解,2,)对于新的或者测试数据以一定的确信度也是合理的,3,)潜在有用的,4,)新奇的,一,个有趣的模式能表达,知识,。,一些有关模式是否有趣的,客观测量方法,如:,关联规则挖掘的客观衡量是规则的,支持度,,表示给定的规则在交易数据库中所占的百分比。另一个是,置信度,,表示关联规则的确定程度。,一般来说,每一个有趣程度的测量方法都有一个用户能控制的阀值。,另,一,种客观的有趣度的衡量包括,精确度,和,覆盖率,。,主观的有趣度的衡量,基于用户对数据的看法。如果模式是没有预料到的或者提供了可以指导用户行为的策略,则认为这些模式是有趣的。比如,“大量地震之后会常常有一系列小震”是很可行性的如果基于这个信息能挽救生命。如果模式是人们期待的,那么如果它验证了人们的假设,则被认为是有趣的。,数据,挖掘能产生所有有趣的模式吗,?,这,是数据挖掘的,完整性,问题。答案是,数据挖掘系统产生所有可能的模式是不现实和不高效的,。,对一些数据挖掘任务来说,比如,关联,规则,挖掘,,能充分保证算法的完整性。这是一个限制和有趣度测量能保证数据挖掘完整性的一个例子。,一,个数据挖掘系统能只产生有趣的模式吗,?,这是数据挖掘的,优化,问题。只产生有趣的模式是会高度令人满意的。因为对于用户和挖掘系统来说,不需要从生成的模式中鉴别是否有趣,因此是很高效的。但是,虽然这方面研究有进展,但优化问题仍然是一个挑战性的问题。,模式,有趣度的测量对于高校的模式挖掘是很关键的。这些测量能够给予有趣度对于模式进行排序,过滤掉没有价值的模式。更重要的,这些测量能够对发现模式的过程起导向和限制作用。提高了搜索效率,剪掉一些不满足预先指定的兴趣度限制的子集。,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4,What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used,?,1.5.1 Statistic,1.5.2 Machine Learning,1.5.3 Database System and Data Warehouses,1.5.4 Information Retrieval,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.5,使用哪些数据挖掘的技术?,数据挖掘作为一种应用驱动程度很高的领域,很多技术被使用到,例如:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等等。,下面介绍几种和数据挖掘方法强相关联的技术。,1.5.1,统计学,统计学研究包括数据的收集、分析、解释和展示。,统计学模型是,依据随机变量和它们的,分布来描述目标对象的行为的数学函数的集合,。统计学模型被广泛应用于数据和数据类别的建模。,比如,对于数据描述或者数据分类的数据挖掘任务,可以建立目标类别的统计模型。即数据挖掘的结果可以是统计模型。另外,数据挖掘模型也可以建立在统计学模型上。我们可以利用统计学来对噪声和缺失数据进行建模,。统计学模型也可以用来验证数据挖掘的效果。,1.5.2,机器学习,机器学习是研究计算机,如何从数据中学习,。机器学习是发展很快的方法。这里,我们着重对分类问题的机器学习进行阐述,分为:,1,监督学习,2,非监督学习,3,半监督学习,标注数据和未标注数据。标注数据用来学习类别,非标注数据用来精化类别之间的边界。,4,主动学习,让用户在学习过程中起主动作用。比如,可以要求用户对一个样例进行标注,这个样例可能从一系列未标注的样本或者合成的数据中学习而来。,目标,是通过主动获取人类知识来优化模型,对要使用多少标注的数据提供限制。,对于分类和聚类任务,机器学习算法主要专注模型的,精确性,以及延展到大数据上的,可扩展性,。,1.5.3,数据库系统和数据,仓库,数据库系统的研究主要关注数据库的建立、保存和使用。,许多数据挖掘任务需要处理大量的数据,或者实时,快速变化的流数据。因此,数据挖掘能够很好的利用可扩展的数据库技术来获得,大数据上的高精确度和可扩展性,。数据挖掘也能被用来扩展现有数据库系统的容量,满足高级用户的复杂数据分析的需求。,1.5.4,信息检索,信息检索(,Information Retrieval,IR),是在文档中搜索文档或信息的科学。文档可以是,web,上的文本或者多媒体。,IR,和传统数据库系统的区别是:,1,)数据,是非结构化,的,2,)查询通常以,关键字,的方式,没有复杂的结构(不像,sql,查询),信息检索的主要技术是使用,概率模型,。文档的语言模型是生成文档的词袋的概率密度函数。文档之间的相似度可以通过相应的语言模型来衡量。,文本文档的主题可以通过词语的概率分布来建模,即,主题模型,。,在线大量的文本和多媒体数据聚集并容易获得。比如数字图书馆,数字政府,医疗信息系统。这些数据的有效搜索和分析为数据挖掘提供了很多挑战。因此,文本挖掘和多媒体数据挖掘、信息检索技术融合就变的十分重要。,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4,What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target,?,1.6.1 Business Intelligence,1.6.2 Web Search Engineen,1.7 Major Issues in Data Mining,1.8 Summary,1.6,有哪些种类的数据挖掘应用呢?,1.6.1 Business Inteligence(,商业智能),对于商业机构来说,更好的了解组织的交易环境是非常重要的。比如他们的顾客、市场、供应、资源以及竞争者。商业智能技术提供历史的、现在的和预测性的商业操作。,如果没有数据挖掘,企业无法做出有效的市场分析,比较客户对于相似产品的犯困,发现竞争者的优点和弱点,留住有价值的顾客,做出敏捷的商业决策。,显然,数据挖掘是商业智能的核心。在线的过程分析工具依赖于数据仓库和高维数据挖掘技术。,分类和预测,技术是商业智能的预测分析的核心,因为有很多市场分析,供需和销售的应用。,聚类,在客户关系管理上发挥中心作用。顾客依据相似性被聚类。使用描述化的数据挖掘技术,我们可以更好的理解不同顾客群的特征,发展不同的客户定制程序。,1.6.2 web,搜索引擎,Web,搜索引擎是在,web,上搜索信息的特殊的计算机服务器。搜索结果通常是一个列表,列表可能包含网页、图像或者其他类型的文件。,Web,搜索引擎是很大的数据挖掘应用。大量的数据挖掘技术被应用到搜索引擎的多个方面,从,爬取,(决定哪些页面被爬取和爬取频率)、,索引,(选取建立索引的页面并决定索引被建立时扩充的范围)到,搜索,(页面如何被排序,哪些广告被加载,搜索结果如何被个性化和上下文感知)。,搜索引擎给数据挖掘带来巨大的挑战:,1,、必须处理,大量和不断增长,的数据,。搜索引擎通常使用计算机云来协同挖掘大数据。如何将数据挖掘技术扩展到云计算和大量分布数据集是今后的研究方向。,2,、,web,搜索引擎常常要处理,在线,的数据,。它可以建立一个查询分类器,把每一个查询请求分配到预先定义的类别中(比如,“苹果”指的是水果还是电脑品牌?)不论模型是否是离线创建的,在线应用模型都必须实时快速的回复用户查询。,3,、另外一个挑战是,,维护,和,增量式,更新一个,快速增长,的流数据模型,。例如,查询分类器需要能动态连续的维护,因为新的查询请求不断涌现,事先定义的类别和数据分布可能会改变。现有的绝大部分模型都是离线的、静态的,不能被应用在这样的场景中。,4,、搜索引擎常常,需要处理,只出现很少次数,的查询请求,。假定搜索引擎想提供上下文相关的查询推荐。即当一个用户提交一个查询时,搜索引擎尝试在几秒钟之内利用用户的个人资料和查询历史来返回一个更为定制的答案。即使查询总数可能非常大,但多数查询可能只会出现几次。对数据挖掘和机器学习技术来说,这种,偏斜的数据,是一种挑战。,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4,What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data,Mining,1.7.1 Mining Methodology,1.7.2 User Interaction,1.7.3 Efficiency and Scalability,1.7.4 Diversity and Database Types,1.7.5 Data Mining and Society,1.8 Summary,1.7,数据挖掘的主要挑战,1.7.1,挖掘方法,1,、,挖掘多种新类型的知识,数据挖掘覆盖了数据分析和知识发现任务的广泛范围。这些任务,基于同一种数据库,使用不同的挖掘方法。因为应用类型非常多样化,新的挖掘任务不断出现,使数据挖掘成为一个动态和快速增长的领域。例如,对于信息网络的有效知识发现,融合聚类和排序技术能在大型网络中发现高质量聚类和对目标进行排序。,2,、从高维空间,挖掘,在很多种情况下,数据能被看成是一个高维数据方块。挖掘数据方块能从本质上提升数据挖掘的功能和灵活性。,3,、多学科交叉的数据,挖掘,数据挖掘能通过融合多种学科知识来得到本质提升。例如,自然语言文本挖掘就是融合了数据挖掘技术到信息检索和自然语言处理技术。另外,在大型程序中挖掘软件错误,是结合了软件工程知识到数据挖掘过程中。,4,、提升挖掘能力到网络环境,很多数据对象是互相链接和内在关联的。比如,web,,数据库关系,文件或者文档。多种数据对象的语义关联可以被用来提升数据挖掘技术。在一种数据对象挖掘的知识能被用来提升到关联或者语义关联的数据对象的知识发现上。,5,、处理数据的不确定性、噪声和不,完整性,数据清洗、预处理、离群点发现和删除、不确定性的质疑都是需要被融合到数据挖掘过程中的技术。,6,、模式评估和模式导向(或限制导向)的挖掘,需要使用,使用一些主观,测量技术去评估模式是否有趣。基于给定的用户分类和基本信仰和期望,来对模式给出一个评分,以此对挖掘过程给出导向,产生更有趣的模式和减少搜索空间。,1.7.2,用户,交互,用户在数据挖掘过程起重要的作用,如何和挖掘系统交互,如何在挖掘中结合用户的背景知识,如何可视化和理解挖掘结果。,1,、交互挖掘,数据挖掘过程应该是,高度交互性,的。意即需要建立灵活的用户界面和探索性的挖掘环境,来更加有利于用户的交互。,用户,可能在开始抽样一些数据,然后描述数据的一般特征,评估可能的挖掘效果。交互式挖掘需要能够让用户能动态的改变搜索焦点,基于结果精化挖掘请求,挖掘,切块,,,旋转,,,在挖掘时动态的对数据立方进行探索。,2,、结合背景知识,背景知识、限制、规则以及其他的领域相关的信息需要被融合到知识发现过程中。这些知识能被用于模式评估和为挖掘有趣模式作为向导。,3,、特殊的数据挖掘和数据挖掘查询语言,高层次的数据挖掘查询语言或者其他的高层次的灵活的用户界面能给用户定义特殊无组织的数据挖掘任务的自由。这将有利于数据相关性分析、领域知识、以及条件和限制被加入到模式发现中。对于这种灵活的挖掘请求的过程的优化是一个很有前景的研究方向。,4,、数据挖掘结果的展示和可视化,数据挖掘结果需要能生动灵活的展示,以便于发现的知识被更好的理解和直接应用。这需要系统能够采用更丰富的知识表达、更友好的用户界面和可视化技术。,1.7.3,效率和可,扩展性,1,、数据挖掘算法的效率和可扩展性,数据挖掘算法的运行时间需要是可预测的、短的、可以被应用接受的。,2,、并行的、分布式的和可增长的挖掘算法,许多数据集的规模很大,分布式分布,很多数据挖掘算法的高复杂度催生了并行和分布式的数据集中式挖掘算法。,云计算和计算机簇,促进了并行数据挖掘的问题。数据挖掘过程的高代价和不断增长的输入促使了,增量式,数据挖掘,即能够合并新数据的更新而不需要从头,开始从整个数据,集挖掘。,1.7.4,数据库类型的,多样化,1,、对于复杂数据类型的处理,期望在多种数据类型和多种数据挖掘目标的情况下,使用一种数据挖掘系统能挖掘所有类型的数据是不现实的。可以,建立基于领域的或基于应用的精细数据挖掘系统,对特定数据类型做深度挖掘,。建立高效的和有效的针对各种应用的挖掘工具是一个有挑战性和活跃的研究领域。,2,、挖掘动态、,网络化的和,全局的数据仓库,网络,把不同来源的数据连接在一起,形成了巨大的、分布式的、异质的全局信息系统。对多种数据来源的结构化、半结构化和非结构化并且内在连接的数据是对数据挖掘的巨大挑战,。,对,这些数据的为挖掘将有助于发现比在小规模的孤立数据仓库中更多,的,异质,网络中的,模式和知识。,Web,挖掘、多,数据源,挖掘、信息,网络挖掘将成为有挑战性和快速增长的数据挖掘领域。,1.7.5,数据挖掘和,社会,1,、数据挖掘的社会影响,我们如何利用数据挖掘造福社会?如何保护不被错误使用?对用户数据的不合适暴露或者潜在的侵犯用户隐私以及数据隐私权是需要被考虑的问题。,2,、隐私保护的数据挖掘,隐私保护的数据发布和数据挖掘是正在进行的研究领域。原则是在成功的进行数据挖掘的同时察觉数据敏感性和保护个人隐私。,3,、隐形数据挖掘,我们不能期待社会中的每个人学习和掌握数据挖掘技术。很多数据挖掘系统让人们不需要理解数据挖掘算法,只是简单的点击鼠标就可以运行数据挖掘和使用挖掘结果。,智能搜索引擎和基于网络的商家使用这种隐形挖掘技术来提升它们的功能和效果。比如,人们在线购物时,并不知道商家很可能在收集顾客的购买模式,这些将被用来在以后向其推荐其他商品。,1.1 Why Data Mining?,1.2 What is Data Mining?,1.3 What kinds of Data Can be Mined?,1.4,What kinds of Patterns Can be Mined?,1.5 Which Technologies Are Used?,1.6 Which Kinds of Applications Are Target?,1.7 Major Issues in Data Mining,1.8 Summary,1.8,总结,“需求是发明之母”。,伴随着每个应用领域的大量数据,数据挖掘技术满足了当前社会的高效、可扩展、灵活的数据分析需求。,第一章完,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服